@黄萱菁
复旦大学自然语言处理实验室
1993年于复旦大学获计算机理学学士学位
1998于复旦大学获计算机博士学位
2006至今 复旦大学信息科学与工程学院教授、博士生导师
以下为访谈实录:
未来媒体访谈 我们本期未来媒体访谈非常荣幸邀请到了复旦大学计算机科学技术学院的黄萱菁教授做客本期节目。
黄萱菁 大家好,很高兴参加这次的未来媒体访谈和大家分享我对媒体、对人工智能、对自然语言处理的一些看法。
“我为什么选人工智能呢?主要就是因为它困难,读研究生嘛,要做有挑战性的工作。”
未来媒体访谈 回到您学术生活最开始的时候,当时为什么选择了自然语言处理这个研究方向?
黄萱菁 我大概是93年开始读研究生的,在我读研究生的时候,人工智能的规划、计算机视觉、机器人其实都是一样的困难,我为什么选人工智能呢?主要就是因为它困难,读研究生嘛,要做有挑战性的工作。
未来媒体访谈 自然语言处理还是属于认知智能这一块领域,相比于感知智能,比如计算机视觉,您的选择是更偏认知智能这一块?
黄萱菁 我都做过,我读研究生的第一年我做的是计算机视觉,后来第二年就开始做自然语言处理,因为我自己导师吴立德老师两个都做,他一手做视觉,一手做自然语言。但另外比如像机器人我就没有做,因为机器人其实有很多硬件,不仅仅是软件的问题,我们做的是纯软(件)。
未来媒体访谈 您近些年把研究方向逐渐转向NLP基础技术,这是出于什么样的考量呢?
黄萱菁 其实我在自然语言处理里也换过很多个方向,比如像我早期做过自动文摘,后面做话题分析,现在还在做,比如像社会媒体的信息处理、情感分析,现在做自然语言基础。其实主要是因为,一方面,作为研究人员来说,总是喜欢变的,不可能几十年不变做一件事情,当然这样的人也有,对吧?比如像Hinton,在所有人都不做神经网络的时候,他会几十年如一日做,做出很好的成果,但是对我们一般水平的研究人员来说,还是做几年要换一个题目的,这样才会有新鲜感。
我过去比较偏应用,就会发现应用的话,你刚开始做某一个领域,比如像做情感分析,会有很多进展,然后慢慢的就会到一个瓶颈期,那么这个时候就会想我是不是前面基础的工作的话做得不够好,使得后面任务性能不能进一步提高了,所以就会想着回来去做比如像基础处理,这个是一方面。
另外的话,现在的基础处理非常的重要,因为这相当于是修高速公路这些基础设施,如果现在自然语言处理的基础设施,像预训练模型,这些基础处理做得足够好的话,会给下游任务带来很多性能提升。
未来媒体访谈 FudanNLP这个开源工具包是不是也主要做基础这一块的性能提升的?
黄萱菁 是的,FudanNLP的话主要是我的同事邱锡鹏带着我们一些研究生在做,它早期采用机器学习的方法做基础的自然语言处理,比如分词、词性标注、句法分析、实体提取,我们最近基本上不太开发了,现在开发的下一版叫FastNLP,是主要采用深度学习的方法来做的自然语言处理基础工具。
FudanNLP 不再更新 图源:https://github.com/FudanNLP/fnlp
未来媒体访谈 您32年的学术经历(从本科到现在)大致经历了人工智能从冷到热这样一个热度的转变,您对热度的转变有一个非常明确的感知吗?
黄萱菁 其实的话,可能在学校里面会比较迟钝,当它冷的时候也没有觉得它多么的冷,因为对我们来说,可能看到问题、看到挑战就会很快乐,因为我们有事情可以做,过去比较冷的时候太难了,很多事情做不好,那么我每年都会有很多任务可以在做,也就不会再关注到社会上觉得这个东西不够热。那热的时候就会有明显的发现,比如像这几年明显到我们的研究生毕业之后都是做相关的研究和开发,说明从市场上是比过去要热一些。
未来媒体访谈 另一方面除了人工智能的热度的转变,我们也很想了解整个研究范式是有一个怎样的转变?是不是从您可能开始接触这个领域开始,它是以传统的机器学习为主,目前是比较主流的深度学习,但其实在最早期它是以语言学法则为基础的研究。
黄萱菁 你非常清楚,因为我其实是赶上了尾巴,就是介乎于基于语言学的方法和机器学习方法中间的,我差不多90年代开始进入学术圈的,也就在这个时候,自然语言处理有一个大的研究方式的变化,它一方面就是说我们从语言学驱动,这种基于规则的方法转向基于机器学习这种基于数据驱动的方法,所以我开始跟我们同学说,其实自然语言处理对语文水平的要求,实际上是没有对数学水平的要求更高的,这是一方面。
另外一方面的话,以前做自然语言处理,我们就会做一个那种叫玩具系统,做一个小的演示,看上去好像能够完成很多很宏大的目标。比如可以最早的比如像ELIZA就可以治愈精神疾病的患者,但这些都是用来演示的,其实不是很能解决这个真的问题,如果你数据有噪音,或者是真实场景,就不work。
图源:https://en.wikipedia.org/wiki/ELIZA
那么90年代有个趋势,就是我们开始走评测驱动,我不再要求你系统能够特别大,能够做各种各样复杂的事情,只要求就是说你能够解决也许很浅的一些具体的事情,比如你做文摘,我只要有标准答案,有训练数据,然后你做一个算法,能在我的测试数据上达到某个性能那就可以了。
这样的话其实等于说对研究者来说,就有很好的一个测试平台。这种算是基于评测这个趋势,我应该赶上了。这种我们叫基于机器学习的算法,差不多一直到2013年以后开才开始冒这个深度学习,刚才我们也提到像Hinton,深度学习的鼻祖,他是一直几十年如一日做神经网络的方法,然后在那一年(2012年)他们的神经网络的算法应该是基于玻尔兹曼机的算法,那么在ImageNet,计算机视觉方面一个非常权威的评测,他拿了第一,拿第一其实也不是特别值得称道的事情,但是他是以比第二名可能高出百分之二三十的这种性能达到第一,这样子的话大家就会发现新大陆,这东西怎么这么好,然后就有很多研究员去做,先是做计算机视觉,后来的话又在像语音识别方面也比当时的语音识别的软件有非常大的性能提升,然后就开始进入自然语言处理。
总归都是拿性能说话,它在自然处理应用的话,其实开始并没有像视觉和语音识别方面那么成功,它不是一开始就颠覆的,但是做的人多了,每年都有提升,差不多到15、16年之后就开始颠覆现有方法的性能,那么一颠覆之后,大家全都跟过去,现在完全是主流的方法。
Geoffrey Hinton(1947-)
“在采编播的各个环节都可以采用自然语言处理的技术。”
未来媒体访谈 AI+传媒或者是NLP+传媒这一块的应用场景是怎么样的?我们知道近些年随着深度学习的发展, NLP领域其实有一个又一个的技术突破,您觉得可能哪个技术突破对于媒体领域来说会开一些新的脑洞或者说有比较重要的意义?
黄萱菁 我觉得如果从媒体角度的话,可能先是看看数据,我始终觉得不管是机器学习还是深度学习,它都是数据驱动的方法,所以数据对我们太重要。
那么现在,社会媒体提供了很多的数据,比如像微信微博、字节、微信、知乎这些数据,社会媒体数据,比如像一些在线的一些行为数据,消费行为、出行行为,这些实际上就给我们提供了很多的财富,它也会展现网络社会和人类行为。像网络媒体有新闻数据、多媒体内容的数据、用户评论的数据,然后甚至还可以叠加到比如像地图的数据等等,它可以有很大的可能性,有了这种数据的话,我们就可以结合具体的应用来看我们怎么样提升现有的方法。
媒体的话,我们就讲采编播。那么实际上的话应该说在采编播的各个环节都可以采用自然语言处理的技术。比如像新闻采集,那么我们可以对新闻做热点的发起、主题的建模、事件的提取,可以在新浪微博上面取得新闻的事件,发现潜在的新闻线索和舆情热点。
微博上不仅有很多内容,它还有用户,用户之间可以构成社交关系网络。那么这样子的话就可以去做很多基于社交网络、基于内容的分析,比如我们可以去分析这个话题的发生发展到逐渐消亡这样一个过程,可以看传播的这种结构、扩散轨迹、内容演化,然后我们可以分析大家就焦点话题的观点,还可以去根据微博热点信息的内容和热度去判断素材是不是可以有价值,这些主要是在采集方面。
社交网络分析 图源:CSDN
那么然后接下来的话我们可以写新闻、编辑新闻,比如我们引入自然语言生成的技术。深度学习,跟以前的方法相比,比较大的一个好处就是说我们以前做的更多的是理解,但现在有了深度学习,我们可以做生成,比如一些好写的事,像球赛,球赛结束了,球赛的中间过程,我们可以很快写出一个球赛的新闻出来,这种是体育新闻。这是比较早的,因为它是可以程式化的一些写法。
英超联赛新闻 图源:新浪体育
那么现在的话随着深度学习技术的进展,比如像外面很火的 GPT3,这一类都是有代表性的具有很强大的生存能力的预训练模型,它可以让新闻生成质量越来越高。甚至可以无中生有,当然这是另外一个问题。
另外的话,有了新闻,我们可以做各种各样长度的,比如可以给新闻写摘要,可以适配各种文件,比如在手机这样一种小屏,还有大屏、平板等不同媒介。然后我们还可以写标题、找关键词,比如热搜,对吧?
这些是偏文字新闻,如果是电视媒体的话,我们还可以引入很多多媒体的技术,比如计算机视觉、图像生成,给我一个视频,我给自动的可以给他做字幕,对吧?这也可以做。
然后我们还可以从网络视频中间提取新闻、提取热点,我们还可以把多媒体和语言文字可以结合在一起,比如视频中间出现了一个人,比如拜登,马上我们可以给一个链接,对吧?转到他的百度百科,等等。所以这些的话应该是可以提升现在的“采编播”质量,大家都在尝试。
还有很多,你还可以做虚拟主播,甚至可以加直播,可以做虚拟的偶像,这些都行,可以吸引用户的眼球。在新的时代其实可能有很多新的挑战,我有时候觉得我都老了。
未来媒体访谈 听老师说完这些应用场景之后,我也觉得未来可以走的路还是非常多的,我们目前已有的媒体应用其实对这些领域的探索还不够,比如像AI主播目前用的场景并不是非常的多,它可能是开始是很博眼球,但后期还是会转向真人的新闻主播。
黄萱菁 (因为)它可能不解决实质问题。因为你像人工智能技术有些是直接可以创造真金白银的,不管是社会效益还是经济效益,虚拟主播应该属于比较有趣的这一类。
“一个新的技术如果有比较大的伦理风险的话,我们可以慢一点,不一定要做得那么快。”
未来媒体访谈 如果是回到认知智能本身,语言的下一步可能是知识,然后这是下一步可能是推理,大概是按这个逻辑去做的,目前媒体的关注度相对集中在知识这一块,尤其是像知识工程、知识图谱这些非常fancy的概念已经开始逐步出圈,包括很多综艺也去讨论“知识芯片”的可能性,比如说一个综艺很火的辩题是如果我们能开发出一块包含全世界的知识的芯片,我们愿不愿意去给大脑去植入这样的一个芯片,如果您打这个辩题的话,您会占正方还是反方?
黄萱菁 其实我好像不是特别喜欢参加这种辩论,因为可能作为科学家来说,看问题总归是喜欢看一个问题的两个方面,既有正面又有反面,但是辩论的话你一定要站在某一个立场才能出彩,两边都占了就不太好。但实际上就是很多问题都是有两个方面的。
比如能够开发一块芯片植入到大脑,其实现在已经有人在做这样的技术了,比如我的偶像马斯克。我特别喜欢他的想象力,因为他做了很多exciting的事情,比如他现在资助做脑机接口,然后这个也是有出发点的,比如现在全世界有很多瘫痪的完全不能动的人。甚至比如有些疾病像渐冻症,人在完全神志清醒情况之下,会慢慢的失去运动功能,那么就脑机接口的话可能就会解决这个问题,然后他们的一些新的做法,比如把可能带有几百万个那种连接的这种传感器植入到大脑,比如能够帮助瘫痪的人能够发出指令,能够再去操控机械手机械臂做一些事情。
Neuralink brain chip 图源:CNET
从这个角度来说,其实这是非常漂亮的一个工作,如果真的能够把芯片植入大脑,这很大程度上可以从技术上改变我们现在这个社会。当然它现在还有很多工作在提升,因为我们知道人类的神经元的数量和神经元连接的数量远远大于现在的神经网络,比如这种神经网络植入芯片的能力的,所以就功能上目前还是很受限。
如果真的要把知识装进芯片,那么怎么样对知识进行编码?真正装到大脑之后,你怎么样去做推理?怎么样能够从已有的知识,根据场景做一些合法推理过程?其实这里这还没有解决。
当然科学家可能可以做各种各样挑战现有技术的事情。但是你如果真的这样推广到社会上,一定会有很多比如伦理方面的一些问题。
你就一定会面临隐私问题。知识通讯一定是双向的,当你的大脑植入知识芯片的时候,你自己的隐私是不是会完全暴露?这些都是双刃剑。所以其实随着科技的进展,可能相关的这种法律、这种伦理道德可能都要重新塑造。然后我自己觉得,一个新的技术如果有比较大的伦理风险的话,我们可以慢一点,不一定要做得那么快。
未来媒体访谈 然后从您的角度上来看,知识图谱它构建的难度在哪里,尤其是如果从人学习的角度上,我们可能会觉得专业领域它的知识要比常识可能更难get到,更难构建这样的一个知识体系,从机器的角度来说是不是常识知识图谱反而是更难构建一些?这个逻辑是怎么样的?
黄萱菁 知识表达、知识推理、知识存储其实是我们一直非常感兴趣的方向。
因为人工智能一定是需要知识的,对吧?过去几十年来,包括像70年代我们做那种基于知识库的方法,也是试图说是怎么样把专家知识给它编码起来,用它进行推理。为什么说当时的工作是玩具呢?现在也没有解决得很好。主要(问题)就在于怎么样去表达这个知识。现在市面上各种企业做知识图谱的也非常多,其实要么就是这样,就是靠人去收集各种各样的知识,然后再试图在后端去做一些编码,比如我们可以预训练的模型去重组,要么的话就是给我们无结构的文本我去提取知识。
我个人比较感兴趣的,比如像BERT这种预训练模型,还有更新更好的很多模型出来之后,就会有很多做模型分析的人去看这个预训练模型是不是里头已经包含了很多的人类知识。那么当然我们可以做很多探针,就跟医生一样的,我想看你身体内部发生了什么样的一些变化,我可能只要只能通过一个传感器去看,预训练知识像黑箱,我们也希望用一些温度计去看,比如x光去照射,结果就发现在某种程度上,现有的预训练模型,比如像各种各样的百科知识编码之后,某种程度上它实际上具有编码常识知识的很多能力,然后这种这块工作的话我们自己也比较感兴趣。
比如我们实验室在做的一些工作,就在想,知识库对吧?像百科知识是一方面,另外我们还会有很多知识来源,比如我词典也是知识,另外像一些人工的知识库。
他去处理维基百科,实际上是把知识当成纯文本,当成那种很低层的信号去处理,但是我是不是有可能直接从给我已经生成了知识,我才去做,所以我们会尝试着怎么样把现有的这种专家知识就注入到预训练模型中间,去提升预训练模型的性能。这块工作我觉得还是比较前沿,也应该是很有生命力,同时也要有我们发明更多的这种探针手段,就去考察我们现有的预训练模型是不是真的能够编码人类知识。
“可以让子弹飞一会儿。”
未来媒体访谈 其实老师刚才也说了也提到了很多类似于说跟传播学或者跟其他领域,比如认知科学交叉的这一块的知识领域,我们也特别想知道可能如果是跟传媒相关的交叉研究,您在疫情期间,包括跟复旦的其他教授或者其他团队,包括一些新闻传播领域的专家,一起去做了这样的一个舆情研究。我们对舆情研究的内容非常的好奇,您能跟我们大概说一说当时的情况吗?就为什么要做舆情研究?它的研究目的是什么?
黄萱菁 当时情况是这样,复旦大学承接了上海市的一个舆情方处理方面的重大的基础研究项目,这个项目实际上是我们的焦扬书记亲自挂帅,所以调用了整个复旦的校内的资源,包括舆情方面的专家,比如来自于新闻学院的专家,还有国际关系学院、国际政治学的专家,有他们的专家知识,另外我们搞技术的包括计算机学院、大数据学院、片上芯片研究所(复旦大学类脑芯片与片上智能系统研究院)一起来参与,我们主要是做一个舆情分析的系统。
那么疫情来了之后,我们就在想,既然我们有现成的这样一个项目、这样的研究组,我们是不是也可以对新冠肺炎舆情大数据做一些分析的报告。按照我们传播学的专家,比如周葆华教授他就理了一些工作的一些需求,首先他给的我们要做三个问题,首先疫情舆情的发展和疫情的发展之间是关系,因为我们人直觉上可能就是先有疫情,再有舆情,那么舆情是怎么样跟着一起走,这是一点。
另外的话也想知道就来自不同群体的互联网用户在疫情传播期间的关注点的话有什么样的一些差异,我们也做了比如一线城市二线城市的一些分析。
那么另外既然我们是受上海市资助的这样一个项目,所以就会特别关注上海,分析上海市民在疫情中的舆情方面有什么样的变化、什么样的特点,这是当时的一些背景。
未来媒体访谈 当时其实主要还是用微博上面的数据?
黄萱菁 对,是微博上面的数据,我们做这个工作实际上时间也很短,因为大家都知道去年过年的时候,按说那个时候我们都已经放假了,但是因为一有这个需求,很多研究生也就很积极地参与了这项工作。我们大概爬了一个多月的数据,比如找了几个关键词,什么“肺炎”、“冠状病毒”、“新冠肺炎”,那个时候好像还没有“新冠肺炎”的提法,提的更多的是“肺炎”,然后我们就在微博上抓了很多的数据,大概有3000多万条,我们就发现微博的舆情是跟着疫情的。
比如当时有几个事件,像首先大家先知道新冠肺炎进入我们中的视野了,然后武汉又实行进出管控了,那么还有李文亮医生事件,微博数有好几个舆情峰值,然后我们就给他做各种各样的计算机处理,比如做词频统计、话题的频率统计,然后就分析出来两大主题――疫情信息和防疫工作。
未来媒体访谈 当时这个舆情里面肯定非常重要的一方面就是谣言,包括谣言的产生、后面怎么去辟谣,当时是怎么检测到谣言,怎么去做反谣言机制的?
黄萱菁 谣言其实是我们实验室的一个研究方向,谣言检测。我同事魏忠钰他手上带了一个小组来做谣言。从自然语言处理的角度来说,其实谣言的分析,海外我们叫misinformation虚假信息,其实是一个研究内容,国外其实已经有了很多现成的人工标注好的数据,它有很多新闻,然后还有一些假新闻,通过这样的数据可以去训练一个分类去判断这个新闻是不是谣言。
我们当时有了新冠肺炎疫情之后,我们同样面临要建一个数据库的问题,因为我们要用人工智能算法,一定要有训练数据,当时我们找了两方面的数据,一方面就是(微博数据),因为微博上也经常有谣言出现,有辟谣,对吧?然后我们可以用微博自己的这些谣言数据来做训练数据集,然后我们还可以去找公开的、和疫情无关的一些谣言数据,这些数据也可以对我们有用。
比如有些谣言是跟预防、治疗有关的。像双黄炎口服液能不能治疗新冠,比如什么业主投票,不让医务人员进小区,等等,所以建了这样一个数据集。我们还找了一些公开的一些数据集来做谣言的分析,譬如丁香辟谣,微博辟谣,我们就建立了一个谣言的这样的一个(数据)库。
2020年1月辟谣信息汇总 图源:@微博辟谣
然后我们就研究算法,从算法角度来说的话,辟谣实际上也就是一个分类问题,跟我们其他的比如像情感分类、主题分类也没有太大的区别,我们主要是要人去标上一批谣言,然后中间去自动地用神经网络去提特征,这个是传统的思路来做。后来我们还继续做了一些理论研究,我们发了一些谣言检测的文章。这一块的思路是这样:假设新浪微博上,一个新的事情出来了,就有谣言,我不仅可以从内容去分析,还可以从你后续发展(去分析),比如我们说可以“让子弹飞一会儿”,因为谣言出来之后下面有很多评论,可能会有一些人附和他,会有一些人质疑他,而且随着时间的迁移,质疑会越来越多,所以我们可以根据这个信息瀑布流去分析。
我们可以通过用户的跟进的反馈,还有像随着时间的迁移,后续的变化趋势,去预测谣言,做的还可以,我们去年发了COLING的文章,就是用信息流做谣言监测――用这种消息的交互,然后对它进行建模,然后去做谣言检测。
未来媒体访谈 测了舆情之后,还是要去看人群的用户画像,或者说它的精细化的情感分析,对情感分析这一方面,一个非常常识的猜测是它肯定是偏负向的,除了偏负向的发现之外,还有什么发现?
黄萱菁 我们只关注了一个月的时间,但实际上情绪变化已经很多了,初期有严重负面的情绪,后面就逐渐向好,虽然有小的振荡。总的说来,疫情的初期,负向的微博文本特别多,因为对于突出其来的这样的公共卫生事件,网络中间就弥散了很多的恐慌和不安,随着钟南山、张文宏这些专家学者介入,然后政府出台各种各样有效的防控措施,正向的情感就不断提高了。
另外我们还做了一些疫情中间的群体画像,比如看哪个职业的声音大对吧?如果发现早期是自由职业者、明星、自媒体比较活跃,后面的话企业界管理人员、专业技术人员就开始活跃起来。
我们还看的是哪里的声音,对吧?全国各地的用户对舆情的关注度怎么样?
那么就会发现,尽管广东和北京的是声音是特别大的,他们不仅是参与的用户多,发声也非常积极,东南沿海相对次之,然后甚至像西北,宁夏、甘肃还有像海南,用户不多,但是活跃度也很高,反而当时疫情的焦点――湖北的用户发言的积极度是处于中等水平。还有话题讨论,一开始新一线城市参与的讨论就很积极,后面话题就不断下沉到三、四、五线这样的城市群体。
“怎么样判断我们的微博会不会热门?”
未来媒体访谈 像我们刚才聊的,比如微博热搜,这一块就是回到社会媒体信息处理应用场景,这里其实有非常多的任务都是典型的NLP任务,不管是热榜,还是微博问答,或者反垃圾机制,都要牵扯到一个贴标签的问题,针对于社交媒体的文本,我们怎么样去做更精准的标签推荐?
黄萱菁 标签推荐我们实验室做了好多年了,我们早期的话是用机器学习的方法,后面我们用的是深度学习方法。大概是这样,首先我们要处理一个任务的话,我们要对它进行建模,怎么样去用一个数学模型去处理它,就有两个思路,一个思路是生成,就是说标签是不一定的,可以按照自然语言生成的技术,你给我一篇文章,就给它产生一个标签。为什么这几年深度学习在自然语言处理这个方面特别轰动?
刚才我也提到过,以前的自然语言理解,我们做的更多的是理解,相当于我们考语文考英语,我们做的是阅读理解,但是写作文、组词造句做的不是很好,有了神经网络之后,我们写作文的能力就有很大提升了。
那么写作文,广义叫写作对吧?当然有很多形式的写作,可以写长篇大论,可以写小说,对吧?也可以写标签、提取关键词,这也是我们可以采用生成的工具去做的,可以采用深度学习常见的我们叫编码器―解码器的框架去做,这是一个思路。
还有一个思路是把它当成分类,因为标签一定是很长尾的,对吧?有时候你有标签的话,你希望这个标签跟大家形成一个话题,好跟有相同话题的人去交流,如果你这个标签打的太小众,生成的可能跟别人标签不太一样,就很难形成话题了,所以我们可以在现成的标签中间去挑一个相关的,这样就相当于是一个分类。那么这两个思路都可以,需要看我们是想要生成标签是更加多样化,还是希望我们生成标签是更加主流、更加有可能是现有热点,所以我们这两类方法我们都做过。
未来媒体访谈 如果说对于普通用户,他想注册一个微博的小号,然后他去进行维权或者发布一些求助方面的信息,也就是说他没有历史信息,但是如果他想去进行维权的话,他会发很长段的一些叙述的文字,然后@一些大v或者是官博官媒,这一块的 @推荐应该怎么做?
黄萱菁 比如我们举个例子,就很常见的一个维权,我们大学生在食堂里吃出来了虫子,然后我就要那时候@给这个学校官方。这里头实际上是这样:这还是个建模问题,首先看你的内容是不是有新颖性,值得大v就是去投入,另外也要看大v对你这个话题是不是感兴趣,然后一定要做到你的发言内容和大v的就是那种兴趣范围是能够匹配的,这样的话才会达到这个效果,我们的“@用户推荐”做的就是这样一些事情。
未来媒体访谈 像刚才老师也说了@一些大v,他如果感兴趣的话,可能会转我的帖子,我们对这种转发行为预测模型非常的好奇,怎么去预测我发一条微博它会不会成为一个热门微博?
黄萱菁 好,我稍微详细地说一下怎么样来做这样的一个事情――就怎么样判断我们的微博会不会热门?
做这种行为分析,一方面我要建一个知识库。我们学术界还是非常感谢新浪微博的,因为数据是比较公开的,内容也比较好,因为它是很大量的一个群体。当初我们还是建了一个数据集,否则的话我们没办法去判断是不是会感兴趣。我们先找了200个种子用户,然后200个种子用户会去关注很多其他的用户,然后从他们的关注、他们的粉丝中,我们就建了第二层的数据,大概有8万多个用户,最后我们就构建了一个数据集,有8000多万条微博,有些是原创的,有些是转发的。
数据集 图源:Retweet Prediction with Deep Attention-based Neural Network, CIKM 2016
然后我们就开始研究各种各样的算法,算法也研究过好几个阶段:首先我们面临的问题是怎么样对用户历史微博就进行建模,这里我们就用上了卷积神经网络。
你刚才也说过,就是一个没有怎么发微博的用户需要去@大v,他一定得写长篇大论,不写长篇大论的话,那个大v根本就是没法去分析判断的,所以我们要么就是有很多历史微博,要么就是长篇大论,都可以去从中去分析用户的兴趣。然后对于微博内容,我们也给它进行建模,之后我们就可以引入基于注意力的模型,注意力模型的话,就像人眼睛去看环境的话是有视觉焦点的,我们阅读理解的时候也是这样,你可能一眼扫过去,文章中间肯定有什么东西特别抓你的眼球,所以我们要试图去建这个模型,看微博中间有没有什么素材能够去抓住用户的眼球,所以这里头我们就用了一个注意力模型,那么这样的话加在原来的基于卷积神经网络匹配模型上的话,然后就可以结合用户(不管是普通用户还是大v)历史的兴趣点,然后看他的相关用户,看用户兴趣点和微博内容有什么样的相似程度,现在你如果让我判断微博是不是火,对吧?当然要看微博的内容,也要看微博是谁写的。
热门微博推荐特征工程 图源:《热门微博:AI时代精准的个性化推荐》
未来媒体访谈 社交网络文本是一方面,然后另一方面就是我们新闻平台,比如说新闻APP上面也有很多的文本,然后这一块就像您开头也提到了,就怎么去做一个自动的文摘,比如说对我们一个长篇的研究报告出一些简单的摘要,这一部分的技术现在已经发展得非常成熟了吗?它是不是就可以代替编辑这一块的工作?转写技术现在又发展到了什么样的水平?
黄萱菁 咱们不要说“代替”啊(笑)。
未来媒体访谈
增强,辅助。
黄萱菁
“代替”会对现有的从业人员造成有压力。人工智能+的时代应该是“赋能”、帮助各行各业,我们也可以给采编播人员做一个很好的助手。假设咱们这样聊完天之后,后面有一个自动文摘,就可以把我们聊天记录整理好,最后一定是让你来审核的,等于是我们帮助采编部人员做一些很初级的事情,然后让你们做更加智能的事。(自动文摘技术)其实不能算是成熟,因为目前很多时候都是定制化的,数据是在工业界里面,不是在我们学术界手里的,我们做的更多的是技术,具体的话要应用到上具体任务上,很多时候是我会跟我们已经毕业的同学在聊,他们就会在各个公司里做各种各样有趣的用自然语言处理去赋能的这样一些事情。
未来媒体访谈 还有一个比较常见的问题就是针对新闻文本的纠错,平台上有很多“标题党”这种文不对题的文章,我们第一遍是机器预警,把这个文章检测出来,后面人工进行复核,这一类的纠错问题怎么去提升机器检测它的准确性呢?
黄萱菁 纠错是这样,还是一个匹配问题。比如说,一方面通过匹配你文章和你的题目,我可以去独立的去计算标题和内容的表征,然后看看他们相似程度,这是一个思路,可能比较传统。另外的话,我还可以不看新闻,我直接去对你的标题做价值判断,看你这个标题跟我们人类知识,比如维基百科这样一个现成的、已经建立好的知识之间一致性程度怎么样,如果发现我现有的知识根本不能推导出来你那个命题的话,要么就是你这个命题蕴含着很多的新颖性,要么就是个伪命题。
未来媒体访谈 其实跟谣言的溯源是不是同一个思路?
黄萱菁 其实对我们自然语言处理来说,我可以面临各种各样的场景,很多技术都是类似的,实际上自然语言处理重要技术,比如首先内容的提取,刚才说为什么喜欢做自然语言处理技术,我从文章到句子到词,然后词之间,词性是什么,然后句子的结构,给词给句子给文章做一个embedding嵌入。这块工作做完之后就可以为下游的很多任务提升性能,那么不管是谣言的检测,还是“标题党”的检测,都可以取得不错的结果。
“我们总归是要说科技向善,要关注它的社会效益,怎么样为全人类的福祉而服务。”
未来媒体访谈 咱们最后一个话题就是回到伦理反思,大家最近比较熟悉的一个问题,就是关于语言表示的性别偏见的问题,尤其可能像新闻或者是其他正式文本训练出来的词项量仍然会带有一些性别上的偏向,可能更多的是职业上会有一些不对等的性别偏向,这个问题有多严重?
黄萱菁 这问题还真的是蛮严重的一个问题,现在假设一个场景,比如一个新出炉的程序员要去求职,然后他的名字比如可能是个很女性化的一个名字,然后另外又来了一个程序员,名字可能是很男性化的,那么现在因为经有很多求职的自动匹配,是根据你个人的信息跟你去算职位的匹配程度的,然后很可能你如果去算出来这个职位的程序员这个职位可能是一个偏男性化的,那么你就会女性就可能匹配度就会降低。这个是很常见的一个问题。
性别相关和性别无关的词语,图源:towardsdatascience
主要是因为我们现在学这种词向量,我们都是基于数据驱动的方法,网络世界都是真实社会的反映,不能说是因为学到的词向量有性别偏见,而是因为人类社会带有性别偏见,所以当我们用新闻和现有的百科去训练出来之后,词向量就带偏了。但是我们技术方面需要做一点引领性的技术,你不能永远是跟在大众的后头亦步亦趋、接受现实,我们可以做一点引导性的工作。
比如有一些工作我可以对那个词向量做一个修改,比如把词向量中跟性别无关的成分去掉,什么叫跟性别无关?比如说“爷爷”“奶奶”自然而然带有性别,这样的话就应该保留它,但是有一些比如像“舞蹈演员”、“程序员”、“幼儿园保育员”、“医生”这些职业词汇,不应该带有性别偏见,所以有研究人员说我们可以采用一些词向量加减法,比如“医生”,我给它减掉不应加进去的时候男性的成分,然后生成一个中立的词向量。
Hard debias,图源:towardsdatascience
如果我们这样做了之后,我们马上就会发现我们下游任务的性能下降了。从学术角度来说,准确率不应该是我们所关心的唯一的指标,我们也应该有这个价值观,我们怎么样能够去引导更加公平、更加平等的社会。
未来媒体访谈 其实像道德伦理已经变成了ACL的一大类别了。
黄萱菁 对,20个之一。
未来媒体访谈 对您来说,您只是从一个研究者的角度上去看的话,您觉得符合道德规范或者是道德反思做得比较好的研究应该有什么标准?您自己是怎么做这一块的反思的?
黄萱菁 其实说到伦理,它不仅仅是ACL系列的一个大类之一。我今年正好是 EMNLP的程序主席,我可以跟你讲讲我们论文的这样的一个评审过程。我们除了常规的根据论文的学术质量做评审,在投稿的时候,作者是可以写一个声明的,声明他这块工作中间的有可能有哪些伦理问题。举个例子,比如有个人在做怎么消除互联网上的污言秽语。这样的工作需要有这个人去标注垃圾用语,很可能就会把这个标注人员搞得抑郁了。
所以就是说做研究的话,我们不仅仅是不能把人当工具,也要考虑到这块工作会对从业者产生什么样的一些心理影响,这是一方面。另外一方面,就像刚才说的,如果我采集数据,数据中有很多隐私,隐私数据要清洗。比如疫情防控中间的疫情流调报告,如果漏了很多隐私,会成为吃瓜群众吃瓜的乐趣,但其实这些都不是很好的行为。
所以我们会要求作者去做一个自我声明,(说明)你的研究工作可能会带来什么样的不良伦理后果。这个声明实际上不是我们自然语言处理首先发明的,是我们引入的。有了作者自己对伦理方面的声明之后,我们会在评审过程中要求审稿人不仅要看论文的学术质量,也要看论文中间是不是会存在一些伦理风险。
考虑的比较多的有我刚才说的隐私问题,然后还有对人的(影响)的问题,还有工作的价值观是不是特别好。我们甚至可能会鼓励一些工作,你可能看它的新颖性不是特别的好,但是它是值得鼓励的,比如小语种的信息处理,像我们国内的一些少数民族语言,(这些研究)因为数据比较少,可能性能不太好,但是我们也要鼓励它,因为有重要的社会效益。在国际上的话,比如说做非洲语言的研究都是值得关注的。
ACL Ethics FAQ 图源: 2021.aclweb.org
审稿人员会去看文章,判断它潜在的一些伦理风险,之后我们还成立了独立的伦理委员会,会去对这些文章(进行判断),如果它存在的伦理问题足够严重,那必须拒稿或者重新打回给作者,所以整个学术圈其实已经有了很多机制。我们开始关心伦理其实是比传媒、生物都要晚一点点,关注之后就觉得这里头是有很大的问题,因为我们总归是要说科技向善,要关注它的社会效益,怎么样为全人类的福祉而服务。
ACM Code of Ethics 图源:acm.org
“现在是你们最好的时机”
未来媒体访谈 咱们最后一个问题围绕人工智能这个领域的性别平等,像刚才老师说了,如果在语义表示这一方面,我们可以用算法去纠偏,去把性别偏向逐渐的把它改过来,如果是从社会学的角度去切入这个问题的话,我们可能希望人工智能以及计算机这个领域的研究者也好、从业者也好,性别比例能够不这么悬殊。所以想问一问您,对未来有志于从事人工智能这方面领域的女性,有没有什么心得可以分享?
黄萱菁 我经常鼓励我们的女学生,我跟她们说“现在是你们最好的时机”。国际上对女性走学术道路都是相当鼓励的,在很多学术组织中间,女性有越来越多的话语权。我觉得工业界应该像我们学术界看齐,学术界是非常注重男女平等的。像今年国家自然基金委也有要求,同等条件下,如果一个女性的申请和男性的申请写得一样好的话,应该要优先考虑女性。又比如,同样是申请“优青(优秀青年科学基金)”,男性是38岁,女性可以是40岁,为什么?因为要留出女性怀孕生育的年龄。所以其实是有很多措施鼓励女性在学术圈奋斗的。所以我觉得这很好的机会,现在复旦大学的男女比例是50:50,基本上大部分的文理科学校都能达到这个比例。大家印象中的那种工科学校,比如像清华、上海交大应该能达到3:2了。可能下一代,等十几岁的女孩子成长起来,会讶异居然还有“女子不如男”的这种说法。
未来媒体访谈 这也是我们很希望看到的未来了。谢谢老师今天接受我们的采访。
(本内容属于网络转载,文中涉及图片等内容如有侵权,请联系编辑删除。市场有风险,选择需谨慎!此文仅供参考,不作买卖及投资依据。)