近年来,女性 AI 从业者创新力量正在崛起,成为一股越来越难以被忽略的力量。
实际上,这个方向从来就不缺女性榜样。

专访Women in AI学者黄萱菁:计算机异常适合女性NLP研究正值旭日_措辞_成见 智能助手

在海内,如果要找一位从事人工智能研究 20 年以上的精良女学者,你将很快能锁定到这个名字——黄萱菁。
作为复旦大学打算机科学技能学院教授,她是低调的、谦逊的,AI 商业活动险些难寻她的踪影,即便是入选今年 Women in AI,并已经是博导,她还是笑称,自己只是小镇做题家,数学也曾让她感到无比头痛。

(Women in AI:https://www.aminer.cn/women_in_ai)

图丨黄萱菁教授 个人主页:https://nlp.fudan.edu.cn/28702/list.htm

而有一个主题是她所乐谈的,那便是鼓励更多人尤其是女性进入打算机领域,聊到这个话题,她的语气便充满了传染力。

黄萱菁的组里,女博士的数量正在频年上升,未来几年险些每一年都会有女博士毕业。
此外,她还吸收过还有来自中文、哲学和外语系专业推免过来的学生,曾经还有一位本科汉措辞的研究生,现已经硕士毕业去 MIT 攻读认知科学博士。

图丨2022 年 Women in AI 部分学者

海内最早一批投身 NLP 范式变革的学者

黄萱菁与打算机结缘的开始,便表示出许多学术研讨者都有的这种品质——享受一门学科的难度远远大于易度。

她高中就读于福建省宁德市,毕业之后填志愿,打算机是其第一选项。
“中学期间就没怎么见过电脑,这个专业对我来说特殊新鲜,以是我选择它作为我的第一志愿”,她回顾道。

大学之后的9年间,她在复旦大学得到了信息科学学士和打算机理学博士学位。
当时,吴立德教授是她的博士导师,这位教授也是海内最早一批从事打算机视觉和自然措辞处理研究的学者。

图丨传统的机器学习 VS 深度学习 (来源:黄萱菁)

在险些没有多少人知道人工智能的 1996 年,她便和她的博士导师在《 模式识别与人工智能 》揭橥了一篇名为《基于机器学习的无需人工体例词典的切词系统》。
那项研究的重点是基于统计学的方法去实行自然措辞处理(NLP)任务。

博士毕业之后,她选择留在母校连续留校从事科研和传授教化事情,并于 2006 年顺利晋升为教授、博士生导师。

2008 年至 2009 年,黄萱菁在美国马塞诸萨大学智能信息检索中央从事访问学者研究。

这一年的国外学习经历对她来说很特殊。
由于,她以一种放空自己的状态,重新在那一年恶补了很多数学和机器学习知识。
她想起来,在自己的求学生涯中,每每挫败感最强烈的时候便是须要动用数学的时候。
“机器学习常常要做统计要做优化,我们搞AI的最崇拜的便是数学家”,黄萱菁笑着说道。

正是那一年的努力,为她后来欢迎 NLP 的深度学习时期打好了根本。

黄萱菁的 AI 学术之路,恰好与AI从传统的统计+模式识别走到了现在的深度学习时期所重叠。

NLP 任务的办理从早期的依赖于规则性知识,到 2000 年初开始转向利用统计的方法,再到 2014 ~ 2015 年之后,接过深度学习视觉任务全面着花的接力棒,其“舞台中央”让位给了基于深度学习的方法。
受深度学习的影响,一系列 NLP 任务从数据的处理和打算方法和打算能力都发生了非常大的变革。
NLP 本身也引发了越来越多人的关注,加入到这个研究领域的人数开始指数级增加。

图丨深度学习之前的NLP技能发展简史 (来源:antoine.louis)

新的颠覆性创新技能正在崛起,顶尖高校和企业研究机构最先嗅到蛛丝马迹,集中涌现了一批将深度学习用于办理 NLP 任务的探索者。

与此同时,国外学术界主导探索出了一种更好发挥社区力量、衡量社区进展的范式:在学术会议等场合上公开数据集,并在这些数据集上进行评测和互换,如此一来,各种算法开始层出不穷,也能进行很好的横向比较。

这个范式起初紧张是国外高校在推动,逐渐地扩展到企业研究机构,并涌现海内组织的身影,而黄萱菁所在的团队,正是海内最早参加国际威信的文本检索会议的机构之一。
当时,他们在文本过滤、自动问答等任务的评测中,都取得了相称不错的成绩,也由此增加了国内外学术影响力。

从自动文摘、文本分类和信息检索等一系列自然措辞任务,黄萱菁和她的团队提出了大量的打算机算法。
近几年,他们又逐渐把目光转向到更根本的研究上,包括基于深度学习改进中文分词、命名实体识别、句子构造剖析、措辞表示等工具的性能。
在复旦,这支实验组紧张从事人工智能、自然措辞处理、信息检索和社会媒体剖析研究。

(来源:WAIC)

如今,已经在 NLP 耕耘数十年的她,依然对学术研究倾注着一种朴素而深刻的热爱。

“这个领域总是有新鲜事物一直涌现,你就会以为,总是有寻衅在,有新东西可以学。

学习新东西的时候,我会以为很快乐。
假如一成不变,那就不有趣了。
从这一点来说,AI是很故意思的,由于这个领域总是在变,可能现有的方法过一段韶光就变得迂腐了,你须要一直去学习。
我以为,这能让大脑保持康健的、生动的状态”。

当聚光灯打到 AI 学者身上,如何看待数据中“看不见”的大象

而当 NLP 技能越来越频繁地被运用到各种实际场景之后,黄萱菁还觉得到一个新的变革:AI 学者们的肩上除了推动技能进步的重任,又多了一个特殊的担子——如何真正使得 AI 在社会伦理上是向善的。

过去 AI 还是小范围人群的纯粹技能范畴时,从业者们遵照着提出方法然后去跑系统、不断更新迭代的逻辑来推动研究。

但是现在,越来越多社会层面的聚光灯,打在了这些工具和工具的制造者身上。
人们会从各种各样的角度,去关心和评估 AI 取得的这些进步,社会科学家们会关注 AI 所反响的人类偏见问题,医学伦理,会强调对患者隐私的保护等等。

她不雅观察到,许多这种追求社会发展的人士,都会关心这些问题。

这一点在 NLP 领域也不例外。
都说 NLP 是人工智能皇冠上的明珠,殊不知,珍珠中也会藏污纳垢。
比如性别偏见。

图丨词嵌入中的女性形象(来源:NIPS 2016)

如果性别偏见被人编入算法,就会使媒介传播中被发掘的“男性瞩目”在算法当中进一步发展为“编码瞩目”,从而让算法也转化为具有性别偏见的算法歧视。
AI 会产生的偏见,这个问题不仅仅存在于打算机视觉(比如肤色偏见、男性瞩目),也存在于 NLP 领域,毕竟,人类的知识和履历有 80% 是采取自然措辞笔墨进行记载的。

根据卡内基梅隆大学 Amit Datta 等学者的一项研究,男性用户组收到“年薪在 20 万美元以上”职位推举的数量是女性用户组的 6 倍。
其余,亚马逊公司也曾被宣布研发出来的自动招聘系统存在性别歧视的问题,会对女性求职者的简历进行普遍的降级处理,但却提高男性候选人的排名。

在这里, 算法推举就成了 “算法黑箱”,由于用户并不清楚它为什么会呈现“男女有别” 的结果,而只会默认信息搜索的结果。
这也是近几年黄萱菁比较关注的新议题。
一次行业分享上,她特殊遍及了 NLP 中措辞表示存在性别偏见的根源:“从认知科学角度,措辞表示实际上是措辞在人脑中间的表现形式,关系到人类怎么样去理解和产生措辞。

但从人工智能、从打算的角度来看,措辞表示是措辞的形式化,或者是利用数学描述在打算机中间能够表示措辞,从而让打算机程序进行自动处理。
在自然措辞处理领域,每一项 NLP 任务,险些都得从措辞的表示学习这一步开始。

如何精确地对措辞进行精确的数学表达,比如通过基于深度学习的方法,是一个基本的、关键的问题。

但人们喂给 AI 的数据中,存有很多性别刻板的印象,在几何上,性别偏见可被词向量所在向量空间的方向所表示。

来自 NIPS 2016 的一篇文章创造,从谷歌***等比较正式的文体中演习出的词向量,带有非常强烈、令人不安的性别刻板印象。
这表示在,语估中男性和女性的差异,相称于程序员和家政工人之间差异。

图丨迁移学习减轻性别偏差(来源:ACL 2020)

一方面,有一些词如俊秀、舞蹈、裙子等与女性干系,聪明、天赋等词则和男性干系,而这些词语本身并不应该带有性别含义,应是性别中立的。
另一方面还有一些词是定义中带有性别的,比如爷爷奶奶、男朋友、女朋友等。

包括现在特殊盛行的预演习模型也是一样。
无论是 BERT 还是在它之后的大模型子弟,都是从海量语料库中演习出来的,与其说是模型算法的偏见,实际上数据偏见也难以脱罪。
目前来看,进行偏见肃清之后的 AI 系统整体性能普遍会低落,但肃清偏见仍是一个人心所向、大势所趋的需求。

她先容道,目前在 NLP 领域肃清偏见的事情,结合表示学习是一个比较好的思路,即把措辞表示中的偏见去掉,如此一来,下贱任务就会受益有所改进。

另一种思路则是直接改进下贱任务,例如把下贱任务涉及的词向量的偏见肃清,比如表示职业干系的性别属性删去,则是一种比较吹糠见米、随意马虎验证的思路,可以把性别中立的词和与性别干系的词进行有效区分,从而避免此前词嵌入中的性别偏差,也就进一步避开了糟糕的社会后果。

图丨肃清词嵌入中的偏见(来源:NIPS 2016)

未来,对互联网中辞吐偏见歧视的监测可能是这类研究最大的运用处景。
现在许多国家都出台了干系的管理方法,中国也不例外,例如海内很多大厂都仍在持续扩展审核职员军队,事情量非常巨大,而这正是人工智能算法可以发挥浸染的空间。

当然,除了伦理干系的议题以外,从基于表示学习的预演习中大量悬而未决的理论和工程问题,到涉及模型压缩和模型高效推理的边缘端 AI,再到多模态预演习、迁移学习和模型鲁棒性,还有大量前沿问题等着黄萱菁这样的学者勤学不辍地进行探索。

也正是这些寻衅悬而未决,才让她对 NLP 领域的长足发展有着好奇和信心:“AI 仍旧是一个有很多投入、就会有很多回报的领域,非常地朝阳和朝气发达。
我看到很多 95 后、00 后,抱着办理一个或几个主要问题的心态投身于此”。

她也特殊鼓励女性加入到这个领域中来:“从生理、生理特点来说,一则不哀求太多的体力,二则处理代码和数据,实在须要细心和面对失落败的强大心态,打算机和人工智能实在是非常适宜女性学习和从事的专业。
我会常常鼓励她们,一有机会就夸她们不吝溢美之词。
我自己进入打算机领域,就感想熏染到难以替代的造诣感。