Google的设备上文本分类AI的准确率达到86.7％

2024.06.12 胡说科技

    深度神经网络 - 模仿人类大脑中神经元行为的数学函数层 - 是最先进的机器翻译和异议识别系统的核心。它们有助于将一种语言翻译成另一种语言并从名片中提取地址。问题是，它们经常受到智能手机，可穿戴设备和其他移动设备的硬件限制 - 特别是在内存和计算方面。
    不过，对于高性能的离线算法还有希望。在本周于比利时布鲁塞尔举行的自然语言处理经验方法会议上发表的一篇论文中，谷歌研究人员描述了离线的设备上AI系统 - 自我管理神经网络（SGNN） - 它们实现了空中状态导致特定的对话框相关任务。
    “在设备上开发和部署深度神经网络模型的主要挑战是：（1）微小的内存占用，（2）推理延迟和（3）与高性能计算系统（如CPU，GPU）相比显着低的计算容量和云上的TPU，“该团队写道。“[SGGNs]允许我们在设备上以非常快的速度计算传入文本的投影，因为我们不需要存储传入的文本和字嵌入。”
    正如该论文的作者所解释的那样，有许多方法可以设计一个轻量级的设备上文本分类模型，比如将模型与图形学习相结合，这就是谷歌智能回复中使用的模型，并自动生成简短的电子邮件回复。但大多数要么不能很好地扩展，要么导致大型模型。
    相比之下，SGGN采用了局部敏感散列（LSH）的修改版本，这种技术通过散列或映射输入项来减少数据中的维数，以便类似的项以高概率映射到相同的“桶”。顾名思义，它是自我控制的 - 它可以通过动态地将输入转换为具有投影函数的低维表示来学习模型而无需初始化，加载或存储任何特征。此外，在对数据进行训练时，它学会选择并应用对给定任务更具预测性的特定操作。
    该团队写道，这减少了数百万个独特单词的输入维度，缩短了固定长度的短序列，并且无需存储文本和单词嵌入（代表单词和短语的向量）。在实验中，与存储要求超过数十万维的字嵌入方法相比，SGGN使用固定的1120维向量，而不管输入数据的词汇表或特征大小。
    研究人员使用两个对话行为基准数据集来评估SGGN：交换机对话法案语料库（SWDA），其中包含两个发言人和42个对话行为，以及ICSI会议记录器对话法案语料库，一个多方会议的对话语料库。
    没有预处理，标记，解析或预训练嵌入，SGGN的表现优于基线AI系统12％至35％。通过SWDA和MRDA数据集，它实现了83.1％的准确率和86.7％的准确度 - 高于基准 - 针对尖端卷积神经网络和递归神经网络 - 并且日本的准确度达到73％，接近最佳性能系统。
    在未来的工作中，研究人员计划调查SGGN在其他自然语言任务中的使用。
    “我们的研究还表明，与更复杂的神经网络架构相比，所提出的方法对于这种自然语言任务非常有效，例如深CNN和RNN变体，”研究人员写道。“我们相信压缩技术，如与非线性函数结合的局部敏感投影，可有效捕获对文本分类应用有用的低维语义文本表示。”
    近年来，边缘人工智能系统取得了突飞猛进的发展。
    9月，都柏林创业公司 Voysis 宣布推出基于WaveNet的技术，该技术不仅可以在线下运行，还可以在智能手机和其他带有移动处理器的设备上运行。8月，Google的研究人员开发了具有记录面部识别和物体检测速度的离线AI。5月份，高通声称其设备上的语音识别系统准确率达到了95％。