只要6秒 AI人工智能只要听声音就能描绘你的长相

2024.03.27 中国安防展览网

    你相信吗？AI人工智慧最近已经进化到，只要花6秒的时间，听到你的声音除可以分辨出你的性别、年纪与种族外，甚至可以描绘出你的长相。
    这款由麻省理工学院（MIT）所打造出来的AI，研究人员用一个由数百万个影片剪辑而成的数据集，对一个名为Speech2Face的神经网络模型进行自我训练，而这款网络的运作大概分成两部分，一个是语音编码器，主要负责对输入的语音来进行分析，并预测出相关的脸部特征；另一个则是脸部解码器，主要对输入的脸部特征来进行整合并产生图像。从最终结果来看，仅用了6秒，就能靠着声音来还原人脸，效果上是令人满意的。
    该研究团队表示，他们的目的并非为了准确还原说话者的模样，Speech2Face模型主要是为了研究语音与相貌之间的关联性。目前Speech2Face已经可以识别出性别，而对于白种人与亚洲人也能轻易分辨，在年纪部分从30、40、70岁的年龄段声音命中率会比较高一点。
    除了基础的性别、年纪与种族外，Speech2Face还可以猜中一些脸部特征，像是鼻子结构、嘴唇厚度与形状、咬合等情况，也可以猜出大概的脸部骨架，基本上声音输入的时间越长，这款AI的准确率就越高；不过研究人员也坦言，AI的听觉也会有错，这款AI会将尚未经历变声期的小男生当作女性、对说话者的口音也会有判断错误的时候、甚至搞错年龄等。研究人员表示，Speech2Face之所以会有局限性，部分原因是因为数据集中的说话者，本身种族多样性不够丰富，所以让它在辨认不同种族人士声音这样的能力上是比较弱的。
    不过也有人认为这项技术背后所隐藏的隐私与歧视等问题，令人担忧；他们认为虽然这是纯粹的学术调查，但脸部信息的潜在敏感性，是有必要进一步讨论当中的道德因素，应该要对此进行严谨的技术测试，并确保实际数据可以代表预期中的用户群。