利用AI技术评估电视节目中人物的情绪

2024.05.08

    深度学习通过人脸估算情绪的能力已经愈发强大——具体来讲，只需要查看图像内容，其即可将其中人们的快乐或悲伤心情整理出来。那么我们是否能够将这项技术应用于电视新闻，从而评估一周内新闻中所有出镜者的整体情绪倾向？虽然基于AI技术的人脸情绪评估仍是一个年轻且正在快速发展的研究领域，但通过本次利用谷歌云AI对互联网档案馆内电视新闻归档中的一周电视新闻报道进行分析，我们发现即使是单纯利用现有工具方案，也足以从新闻内容当中提出出大量可见情绪元素。
    为了更好地理解电视内容，我们选择对CNN、MSNBC以及福克斯新闻网以及来自旧金山的其它媒体分支机构——KGO（ABC）、KPIX（CBS）、KNTV（NBC）以及KQED（PBS）——的早晚播出新闻内容进行情绪识别，具体时段为今年4月15日至4月22日。作为分析对象的电视新闻总时长为812小时。我们选择利用谷歌的Vision AI图像理解API进行分析，并启用了其中的所有功能，包括人脸检测。
    人脸检测与人脸识别存在着很大差异。前者只计算图像当中存在的人脸，而并不会尝试分辨此人究竟是谁。总体来讲，谷歌的可视化API仅提供人脸检测功能，而并不提供人脸识别功能。
    以谷歌API为例，对于每一张脸，它还会估计其正在表达的以下四种情绪的各自可能性，包括喜悦、惊讶、悲伤与愤怒。
    为了探索电视新闻中的面部情绪世界，我们将总长812小时的电视新闻转换为1 fps预览图像序列，并通过Vision AI API加以运行，总计得出1261万2428脸－秒（即总帧数乘以各帧当中能够检测出的清晰人脸数量）。
    其中，3．25％展现出喜悦的情绪，0．58％表现出惊讶，0．03％表现出悲伤，0．004％表现出愤怒。
    可以看出，谷歌的Vision AI API在处理在线新闻图像时，认为喜悦与惊讶情绪的出现比例要远远高于愤怒与悲伤我们还无法确定这究竟只是一种整体性的分析错误，还是新闻图像中确实存在这样的基本情绪表达趋势，或者说谷歌的算法对于喜悦与惊讶这两种情绪的识别能力更强。无论如何，即使谷歌算法确实对于某些特定情绪拥有着更高的敏感度，但这种倾向对各家新闻站点而言仍然是公平的，因此我们可以直接对七大站点中的四种面部情绪表达做出比较。
    下图所示为这一周时间之内七个新闻站点当中全部人脸图像呈现出四种情绪中任意一种的各自占比。其中ABC、CBS与NBC似乎面部情感表达最为活跃，其次是福克斯新闻网、MSNBC与CNN，最后是PBS与CNN。
    由谷歌的Vision AI API分析得出，清晰的人脸图像在2019年4月15日至4月22日期间表达喜悦、惊讶、悲伤或愤怒情绪的百分比。


    1  2  下一页>