7月26日,由中国人工智能学会主办、新浪新闻联合浙江大学承办的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕,新浪集团首席信息官、新浪AI媒体研究院院长王巍,浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席。
清华大学大学新闻与传播学院学术委员会主任、教授金兼斌在本次专题论坛上,与来自业界、学术界的嘉宾们分享了《人工智能助力虚假科学信息的监测》。
图注:清华大学大学新闻与传播学院学术委员会主任、教授金兼斌作主题演讲。
金兼斌认为,社会化媒体时代,虚假科学信息的治理,必须充分依靠对分散在社会各个平台上的民智的整合,而人工智能则是实现这种有效整合的关键。
关于应对虚假科学信息,利用人工智能技术进行更好的监测,他提到,基于虚假科学信息的语言特征、内容特征和对象特征,“表示学习”、“知识图谱”、“信息挖掘”是三种有针对性的解决思路。
以下为金兼斌演讲实录,内容经编辑略有删减:
各位嘉宾好,首先非常荣幸受新浪新闻和浙江大学的邀请来参加这一论坛。刚才听前面几位专家分享的时候,颇感心有戚戚。诸多内容和观点,嘉宾之间并未事先沟通过,但却遥相呼应。
今天我将主要谈谈虚假科学信息的监测问题。借用刚才Amy Bruckman女士的话,知识本质上是一种共识的社会建构。尼采有类似的表述,即世界上没有所谓的事实,只有解读。
在日常的内容消费中,很多时候我们面临这样的场景:有一定共同认可的事实基础的现象或事件,不同人对事件的性质以及可能的社会后果,可以有截然不同的解读和判断。诸多人与人之间、群体与群体之间、国家与国家之间的矛盾、争执乃至交恶、撕裂,由此而生。
7月24号,也就是两天前,《科学》杂志上发表了一篇中科院武汉病毒研究所研究员石正丽回答《科学》的18问专访的文章,文章题目以“特朗普欠我们一个道歉”这一来自石正丽的引语开始。提问者对所提18个问题做了精心的准备,涉及到武汉病毒所和此次新冠疫情之间有无关联的大量专业问答,虽然字里行间不乏春秋笔法,但总体上问答双方都十分克制,只讲事实,没有任何情绪化的表达。这是很难得的。因为在人们日常所见的大量涉及科学事实的各种网上内容表述中,“后真相”时代观点先行、事实成为“任人打扮的小姑娘”,已经是见怪不怪的现象。这正是我今天给大家分享的这个主题的时代和信息传播环境之大背景。
今天,科学已经成为我们当代社会文明中的亮丽底色。另一方面,科学不光是科学,它还关乎政治,国际上围绕疫情起源的争议和污名化就是明证。而对普通民众而言,科学关乎日常生活质量和对现代文明带来的福祉的享用。如何确保确保民众日常生活接触到的科学性信息的质量,可谓兹事体大。
我将要介绍的内容,是由我们团队的博士后陈慧敏和硕士生朱泽宇与我一起准备完成的。
今天的主题是AI时代下的新媒体与社交娱乐。刚才王巍总讲到内容生产从PGC到UGC再到现在TGC的多元化趋势。我们身处信息生产的社会化、大众化乃至万物生生不息的时代。另一方面,人作为信息消费者,又有其永远无法逾越的一些边界条件,比如一天只有24小时,信息消费的时间和其他活动包括睡眠所占的时间,是一种此消彼长的零和游戏。今天,社会的发展已经从规模发展转变到高质量发展阶段,其实信息的生产和消费,也必然面临这样的转变。我们不缺内容,缺的是高质量的内容,特别是缺由消费者特定场景所定义的高质量内容,包括事关国计民生的优质科学性内容。
刚才Bruckman教授讲到,知识本质上是一种社会建构。其实各种各样的虚假科学信息背后,常常也涉及到了很多不同的价值观和社会力量之间的话语权角逐和争斗。诸如病毒起源、戴口罩的必要性等问题,不仅是科学性问题,当中所涉及的话语权和定义权,还关乎大国博弈、防疫政策和责任归因的选择和感知。因为我们对世界的认知,归根到底是受各种所消费内容的涵化和型塑的。
也正如此,提升民众的科学素养,让民众对事关其生活质量的各种科学性信息具有基本的鉴别能力或解惑途径,在大力推进科技创新的同时,同步推进科学普及,是一体两面的重要举措。面对海量的信息的触手可及,真正有用的高质量信息如何为民所用,需要有可落地的方案。而有效监测民众每日接触到的内容中的虚假科学信息并及时加以提醒、清除、纠错纠偏,是社会良治中信息治理的题中之义。
无论是科学信息的生产还是虚假科学信息的监测,社会化协同都是核心机制。就科学信息的生产而言,不同机构、领域的专家或科技工作者通过专业发表和圈层日常交流,把科学信息源源不断输出到整个社会的信息传播系统中。另一方面,科学信息在通过媒体特别是社会化媒体的多层、多级传播过程中,大量民众既作为内容的消费者又作为内容的传播者参与生产,这一过程降低了科学信息的生产和传播的门槛。这是我们进行虚假科学信息监测所面对的信息生态环境。
下面我们首先把虚假科学信息的信息特征做一个简单的梳理。我们从三个方面进行总结,包括语言特征、内容特征和对象特征。
首先是语言特征。虚假科学信息常常有一些明显的语言表达方式上的特征,比如“长期服用降压药会致死”这类说法,其陈述中通常特别强调致死、致癌、致残这一类严重后果。从传播学的角度来看,这样的传播策略叫诉诸恐惧。这类信息在涉及有关可能风险时,常常夸大其词,或者断章取义,典型如离开剂量谈毒性。事实上,鉴别社会化媒体上司空见惯的各种食药品风险内容,一定要和具体人群和应用场景结合起来,才有意义。
还有一种常见的表述,是对某类疾病或危害的简单归因,即科学方法论上所说的还原论谬误。这种表述常常有意无意混淆可能性和必然性之间的差异,把多种原因导致的现象,简单归咎于某一特定因素。比如“常吃米饭会诱发糖尿病”这类耸人听闻的说法,背后就是一种还原论逻辑。
第二是内容特征。虚假科学信息的内容,不同于一般的虚假信息之处在于,其所关涉的事实是否准确,涉及到科学性和专业性知识或逻辑判断问题,而在这方面,虚假科学信息可以巧妙地布下很多认知陷阱,在似是而非间,混淆是非,误导人们的认知和行为。如“食盐含亚铁*,不可食用”的说法,首先是有意引导民众把亚铁*和*进行联想置换,产生恐惧。亚铁*跟*是不一样。其次,食盐中只含有的极为微量的亚铁*,一般人每天食用的食盐量里面包含的亚铁*,完全不会对人体构成健康危险。但这些相对专业的知识和逻辑,可能并不为普通民众所熟悉和了解。
第三是对象特征。很多虚假科学信息或者科学谣言的描述对象,常常是一些新兴事物,如“量子波动速读”“5G基站可致癌”“双黄连可防新冠病毒”等流言或谣言,其中涉及的事物都比较新,超出大部分民众的知识储备。媒体或民众对其真伪借助已有知识难以辨识,于是就会有宁可信其有不可信其无的心理,导致以讹传讹。
如何进行虚假信息的鉴别或监测?基本上有两种思路,即人工鉴别和机器鉴别。当然在辟谣实践中,常常是两种方法结合起来的,即机器快速从海量、动态的信息中定位到一些可疑内容,然后通过一系列知识体系、专家系统和人工方法,来判定有关信息的真伪。值得指出的是,两种方式各有优劣。机器识别效率高,但难以精准识别专业性较高的前沿科技内容,所以有时仍需要依赖人工;人工识别包括专家解读的优势在于,可以判别一些现有文献和知识库中尚未有明确论述的一些新兴科学性内容表述的真伪,如新冠病毒爆发以来,伴随病毒传播的还有诸多虚假科学信息。由于人们对新冠病毒的性质的认知也有一个过程,因此,当有关新冠病毒特性的一些科学流言和谣言出现时,依赖已有的知识体系来进行机器识别,注定是不可靠的,而是需要仰仗一线医务工作者和科学家的最新研究发现和临床经验才能判断真伪。当然人工鉴别的缺点是效率低。因此,两者需要有机结合。
下面是我针对我们前面对虚假科学信息三个方面特征的总结梳理,谈谈人工智能助力虚假科学信息监测的解决思路。
基于虚假科学信息的语言特征,我们可以采用表示学习技术,来对海量动态的内容中的虚假科学信息进行快速的初步定位和识别。通过表示学习,把待判别文本转化为低维度向量,随后利用深度神经网络,学习这些向量表示中的信息,达到快速进行语义分析的目的。基于语言特征进行的语义分析技术,目前相对来说已经比较成熟。这是进一步对有关内容科学性进行判别的前提,即我们首先需要让机器知道有关内容的主题和观点具体是什么。
基于内容特征,我们可以借助知识图谱作为破解虚假科学信息的途径。知识图谱是人类已有知识的精华,是人类构建的知识网络,网络里的每个节点就代表了某一个概念,而节点之间的连边,就代表了这些概念之间的关联。我们可以将知识图谱和神经网络结合,识别虚假科学信息,即从待判别文本中,抽取出重要的概念以及概念之间的关联,并与知识图谱中这两个概念对应的实体节点之间的关联路径进行对比,看看待判别文本中概念之间的关联性(如“转基因食品”引发“癌症”这一表述)的真伪或存在的可能性。在科学谣言的判别中,大部分谣言内容的破解,利用知识图谱能够高效地进行。
基于虚假科学信息的对象特征,即有关话题对象或主题通常较新,科学性和专业性较强,我们提出多层次信息挖掘这样一个思路和对策。
所谓多层次,根据广义上的“知识图谱”之“知识”的成熟度,我们区分了正式出版的文献、预印本平台内容、以及各种知识问答类众包平台。典型的出版文献通常是经过同行评审的,其包含的概念和知识体系相对比较成熟、自洽,大致和上述通常意义上的“知识图谱”中的来源知识对应;鉴于正式出版的审稿、修改周期通常比较长,而诸如新冠疫情这样的公共卫生问题又人命关天十分紧急,因此,近年来兴起一种预印本发布制度,让很多前沿研究成果可以第一时间可以为同行甚至媒体知晓和参考,虽然其中的内容和结论可能存在出错风险,但在对有关新问题、新挑战缺乏更好认知和对策的情况下,聊胜于无,预印本平台上看似不一定“成熟”的内容,对于有关新兴科学主题的信息真伪的甄别,仍可能起到极有价值的参考作用。最后就是知识问答类众包平台,以及广义上存在于各种论坛、圈层上针对有关新兴、前沿问题的专业内容探讨和分享,理论上,这部分内容也应该作为一个社会知识生产的一种机制,纳入到虚假科学信息鉴别可资参考和依赖的来源中。我们可以想象,在未来的某一天,我们的人工智能发展到这样一种理想的水平,即每一个用户在其生活场景中遇到的每一个不知真伪的科学问题,都可以第一时间通过诸如语音搜索引擎这种方式,向全网或全社会询问或求助;而全网或全社会也能在第一时间,把对这个问题的最新、最优、最权威认知,以提问者所能理解的方式回应给他,实现无缝交互。借助于无所不在的像神经网络一样的社会信息传播系统,一个社会通过人工智能,最终得以把整个社会的民智进行有效的萃取整合。由此,整个社会的知识和智慧,真正成为每一个个体予求予取的外脑般的不竭源泉。到那个时候,无论虚假信息如何千变万化深藏不露,都将被人们轻易鉴别。
显然,我们离这一天还比较遥远。要实现这样的一幅理想图景,我们不仅需要整合知识,还需要协调社会不同民众的价值观,即对事实的解读。不仅涉及到对知识的整合,还涉及到对一个社会伦理价值道德观念的整合,体现一个社会的集体理性和智慧。因此,从根本意义上言,这种多层次信息挖掘和综合研判,是对全社会智慧的有效整合。
总结而言,我们提出了这样一套基于人工智能进行虚假科学信息监测的框架和思路。基于语言特征,机器学习和语义分析可以帮助我们识别海量内容中科学性方面可疑的信息,这方面的人工智能技术现在已经比较成熟。基于内容特征的检测,利用已有的知识图谱,可以比较高效的解决大量的虚假科学信息的识别问题,但是它可能不能解决层出不穷的新兴话题的真伪判断问题。基于对象特征的多层次信息挖掘,通过对分散在社会不同系统和平台上的知识体系和认知主体的智慧集成,理论上,我们可以对各种各样的虚假科学信息的鉴别需求作出快速回应。
值得强调的是,这个过程不仅涉及知识鉴别,还涉及到社会层面的组织和协同。事实上,大数据和社会化媒体的发展,一方面具有对普通民众和整个社会进行赋能的潜力;另一方面,大量虚假、不实信息充斥其中,也使得有效信息的甄别和利用成为新的挑战,赋能不当,可能徒耗民众的精力、时间和资源,变成耗能。这不是一个小问题。如我一开始所言,科学信息不光是科学,它还可能关涉到政治和经济,关乎大国之间的博弈和竞争,涉及到普通人的日常生活,因此,如何进行一个社会的信息良治,值得我们投入更多的关注。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!