尴尬！亚马逊的AI情绪识别软件竟然混淆情感表达-白红宇

尴尬！亚马逊的AI情绪识别软件竟然混淆情感表达

阅读量：2089 次

发布时间：2019-04-29

本文共 4645 字，大约阅读时间需要 15 分钟。

全文共4598字，预计学习时长14分钟

插图：伊娃·雷达蒙蒂（EvaRedamonti）

八月，亚马逊宣布其面部识别软件提高了“情感检测的准确度”。亚马逊解释道，该技术不仅可以更好地检测出七种情绪（快乐、悲伤、愤怒、惊讶、厌恶、平静和困惑），而且还首次检测出第八种情绪：恐惧。

其他大型高科技公司，如微软和苹果，以及 Kairos 和Affectiva等初创公司，也售卖类似的情感检测产品。据估计，这类新服务将于2023年成为一个价值 250 亿美元的行业。

仅基于面部表情读取情感的技术将会成为一个惊人的新突破。例如，这项技术可以让市场营销人员调查观众对恐怖电影的反应，汽车内置软件可以评估驾驶员是怒气冲冲还是昏昏欲睡，还可以帮公司筛去那些不感兴趣的求职者。甚至可以帮助自闭症儿童学习识别他人的情绪。但近几个月来，科学家们提出这样的疑问——用面部表情来解读情绪真的可能吗？

问题不在于像亚马逊 Rekognition 的这类技术无法读取人脸的细节，而在于面部表情不一定是正确的情感信号。

今年七月，东北大学心理学教授丽莎·费尔德曼·巴雷特 (LisaFeldman Barrett) 及其同事发表了一篇对1,000多项研究的评述。这些研究结果表明，旨在检测情绪的人工智能和计算机视觉的许多开发成果被误导了。上个月，南加州大学的计算机科学教授乔纳森·格兰奇 (Jonathan Gratch) 和他的同事在第八届情感计算与智能交互国际学术会议(ACII) 上发表了两篇论文，呼吁暂停一些“情感分析”技术研发。

问题不在于像亚马逊Rekognition 的这类技术无法读取人脸的细节，而在于面部表情不一定是正确的情感信号。

亚马逊网站上的一张图片详细显示了其面部分析功能：图中的女性面带微笑，软件在脸上的关键部位贴上标签，上面写着“女性”、“眼睛睁开”、“微笑”和“幸福”。大部分人会以相同的方式解释图像：这是一个幸福的女人。

图源：pexels

人类的直觉很准，能知道诸如幸福之类的情绪表现在大家的脸上是什么样的。从孩提时代起，人们就学会了面部表情与内在情绪之间的关联。即使在现在，在只用文字可能无法表达情感时，人们使用表情符号来表达感受。人们观看放大了演员面孔的电视节目和电影，以深入了解角色的感受。人们看到图片中微笑的人时，就会觉得他们很高兴。

格兰奇提到：“人们的想法是一致的……如果有人在微笑，他们会认为这幅图是幸福的象征，这也是 Facebook 上的许多人认为其他人都比自己更快乐的原因。他们看到所有笑脸，然后想，‘他们一定很快乐。’”

但是，一个人看起来快乐，并不意味着他会感到快乐。像其它情感读取算法一样，Rekognition通过训练，可以识别人们的表情，而不是识别情感。该系统结合了计算机视觉和机器学习算法，可以识别面部特征并将其与相应的情感联系起来。工程师通常用一些数据来训练如何建立这些联系的算法，这些数据包括人们摆出的表情，而这些表情已由经过训练的第三方注释了“快乐”和“悲伤”等情感标签。为了给算法创建训练集，公司让注释人员查看图像集合，并将其标记为“高兴”、“恐惧”、“愤怒”等情绪。亚马逊以专利权问题为由，拒绝就如何训练Rekognition算法的记录发表评论。

这种方法的一个问题是图像中摆出的脸代表了对情感的刻板印象，即对表达情感的人的模仿。人们更倾向于认为情绪与面部表情有直接关系：大多数情况下，人们在开心时会微笑，在生气时会皱眉，在悲伤时会蹙额。人们也认为这些表现是情感的独特表达。人们假设了微笑只能表达幸福，皱眉只能表达愤怒，但是人们表达和感知情感的方式实际上存在更多差异。

“没有证据表明，人们会认为这种迹象是一种情感表达，”格兰奇说。在他的研究中，成对的参与者玩了一个囚徒困境的游戏。两人被安排在带有计算机和网络摄像头的不同房间中，要求他们不要互相交谈或使用手势，但鼓励他们使用面部表情。在每个回合中，玩家选择“拆分”或“窃取”虚拟球。如果玩家同时选择拆分（合作共赢），则游戏会给予玩家同样高的得分，但是如果在对方选择“拆分”时选择窃取（有瑕疵），则对方玩家获得更高的得分。如果两位玩家都选择“窃取”，得分将变得很低。该游戏奖励了双方的合作，但是为了解决对手是否愿意合作的困境，玩家会在彼此的面部表情中寻找有关下一步行动的线索。

即使有了这些线索，这也是一项艰巨的任务。“你无法推断[结果]对他们来说是好是坏，”兰奇说，“这破坏了那个想法，即通过观察某人的面部表情，就可以弄清楚他们是否在撒谎。”

即使他们输掉了回合，玩家唯一使用的表情仍是微笑。人们不只用微笑表示喜悦，这只是大家所期望的，人们也会因事情出乎意料而微笑。例如，如果他们认为对手会背叛，但实际上对手合作了，那么微笑的强度将反映出他们惊讶的程度。但他们没有表现出典型的目瞪口呆的惊讶表情。格兰奇说：“微笑并不是惊讶的预兆。它真正的着重点是，人们做出的表情非常具有情境性，受这些机器未关注因素的影响很大。”

在这种情况下，人们的表情更多的是对情况的反应，而不是内在情绪的表现。“人们表现出来的很多东西并不一定就是他们的感觉，”格兰奇说。

情绪检测软件无法对此进行区分。在Rekognition 分析一位女性微笑的图像并生成诸如“微笑”“幸福”之类的标签时，实际上跳跃幅度很大。如果没有更多有关人和情况的信息，就很难从面部表情推断人们的情绪。格兰奇指出：“人类甚至是机器，都不擅长从这些面部表现上检测真实的感觉。”

图源： pexels

人们表达情感的方式因文化、环境和不同人群而异，并且可以通过多种面部表情表达同一种情感。人们的面部表情经常随着对话和文化习惯变化而变化，而没有表现出与内心情感有关的任何内容。格兰奇认为，考虑到所有这些不同因素，“更能接受的科学方法就是说这些是面部动作。 ”

在他的研究中，他使用了所谓的“面部动作单位编码系统”，该系统根据面部的单个肌肉运动或“动作单位”对面部表情进行分类。该方法由科学家和动画编剧共同完成，用于评估人的面部表情，可实时互动。例如，人们在微笑时，倾向于嘴角上扬（称为动作单元 12），抬起脸颊，眼睛周围的皮肤会出现皱褶（动作单元 6）。格兰奇解释道： “你不是说‘你很高兴’，而是说‘你正在展示这些微笑的组成部分。 ’”

格兰奇发现人们要弄清别人的感受时，不是依赖面部表情，而是情境。为了弄清对手的情绪，在随后的研究中，参与者寻找了情境线索。这项研究的参与者回顾了自己和搭档在囚徒困境游戏中的视频剪辑，事件的结果让他们明白了搭档的感受。例如，如果搭档以牺牲为代价赢得了比赛，相比对其他产生积极结果的事件的评价，他对自己和对方的情绪的评价往往更消极。格兰奇指出： “相比人们脸上的表情，利用事情发生的背景可以更好地预测他人的想法。 ”

心理学教授巴雷特(Barrett) 说，这些发现与其他研究一致，并补充道： “这表明情境会强烈影响人们在面部运动中推断出的情感含义。情境的力量常常比面部运动本身更强大”她经常引用耶路撒冷希伯来大学心理学家希勒·阿维耶泽 (Hillel Aviezer) 所做的研究。例如，在一项研究中，阿维耶泽和他的同事将网球运动员输赢后的图片进行混合并匹配。当参与者看到一名胜利玩家的头像被移植到另一名输球玩家的头像上时，他们对这张脸的看法比看到胜利玩家的头像时更加消极。与身体相关的情感胜过玩家脸上浮现的情感。

考虑到诸如Rekognition 之类的情绪识别系统非常注重人的面部表情，这些有关情境的发现非常重要。它们已经接受了有关人类如何解读静态图像的训练，却没有考虑更大的社会环境。 “实际上，因为这些数据不包含任何人们面部表情出现时相关背景的重要信息，”格兰奇说，“这些算法只是在没有任何背景信息的情况下学习其他人所认为的某人脸部图像在表达的内容。 ”

“这项面部表情识别技术正在兴起，但是它与人们想要使用的功能还相差甚远。因此，这项技术只会犯错误，在某些情况下，这些错误会造成伤害。 ”

亚马逊可能意识到了其情感识别技术存在的局限性。该公司网站上的免责声明为： “API只能确定人脸的实际外观。它并不能决定人的内部情感状态，也不应该以此为目的来使用这项技术。 ”诸如“情感分析”之类的短语和诸如“识别”之类的名称仍可能误导该技术的营销方式。对这一技术更为恰当的描述应当是“表情识别”。

巴雷特说： “目前任何一家声称能识别情感的公司都在混淆检测结果（例如皱眉）和解释这些检测结果的含义（例如愤怒）。 ”格兰奇将情感识别技术等同于测谎仪，一种“真相检测仪”，自1998年最高法院的一项裁定使其名誉扫地以来，大多数州都禁止在法庭证词中使用这项技术。 “这不是一个这真相检测仪；这是一个唤醒探测器，”格兰奇说，“从某种意义上说，这项面部表情识别技术正在兴起，但是它与人们想要使用的功能还相差甚远。因此，这项技术只会犯错误，在某些情况下，这些错误会造成伤害。 ”

亚马逊因将Rekognition 卖给政府机构而备受抨击，据报道，公司将其卖给移民和海关执法局并且可能与边境巡逻队签订 9.5 亿美元合同。亚马逊的客户可能会使用 Rekognition 来通知有关人员的决定。如果人们在错误的时间显示错误的表情，当局锁定的目标可能出错。即使没有识别技术，错误地表达情感也会产生后果：巴雷特在她的《情绪是如何产生的》一书中描述了如何发现法官和陪审员通过被告的面部表情来辨别他们可能内疚或者后悔的程度。

“根本没有强有力的证据支持这种说法，即存在普遍的情感表达，因此使用一组特定的面部肌肉运动（例如皱眉）来具体诊断一个人的情感状态（例如愤怒）的可靠性很低。 ”巴雷特说，“想象一下，这种方式将引起误会，使人们的生活受到影响，失去自由甚至丧命。 ”

无论情感读取算法多么复杂，仅用面部分析技术来识别人们情绪的系统的不会达到其宣称的结果。格兰奇建议顾客了解该技术的局限性，并引用了德国不来梅雅各布斯大学的心理学家阿维德·卡帕斯 (Arvid Kappas) 使用的一个比喻，指出这些技术的营销方式。卡帕斯将“我们的面孔会表达我们的情感”这一错误假设与“月亮是由奶酪制成的”这一说法等同起来。他说，想象一下这样一个场景，人们训练了一个奶酪和岩石实例的算法来开发奶酪识别器。然后将识别器转向天空，如果有月亮在，识别器是会识别出奶酪。卡帕斯的类比揭示了商业化的情感识别技术是多么初级。

“人们正在训练一种与自己情感无关的东西，然后将其转向自己说，‘看，这些仪器会感受到这种情绪，’”格兰奇说，“而实际上我们根据人的表现训练它们，这与人们的情感是不一样的。 ”

所以别想太多，你的表情不一定会出卖你，多相信自己一点。

推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组：余书敏、齐欣