语义理解核心技术揭秘 百度AI快车道第五期开营
AI锐见在这个日新月异的时代,人工智能被视为第四次工业革命的核心驱动力。而深度学习技术的兴起正推动着人工智能进入工业大生产阶段,为人类创造更大的价值。
早在2016年的百度世界大会上,百度宣布飞桨(PaddlePaddle)开源,这标志着国内首个也是目前唯一一个开源开放、功能完备的端到端深度学习平台的诞生。飞桨是集核心框架、工具组件和服务平台为一体的端到端开源深度学习平台。在飞桨的服务平台层面,还有一个定制化训练和服务平台EasyDL,它的目标,就是让零算法基础的用户,也可以基于自身业务需求和数据,快速训练专属的定制化AI模型。
图:百度飞桨全景图
飞桨核心框架层开放了开发、训练、预测的一整套能力,并开源70多个经过真实业务场景验证的官方模型,包括视觉、自然语言、推荐等几大核心技术领域。面向工业应用的中文NLP工具集——飞桨自然语言处理模型库(PaddleNLP),将自然语言处理领域的多种模型在任务层用一套共享骨架代码实现,网络使用更加灵活。飞桨模型库推出了在中文NLP任务上表现全面领先的中文语义理解模型——ERNIE,大幅增强了模型语义表示能力,在实际应用中效果显著。飞桨提供的视频识别工具集,则覆盖了主流实用的序列建模算法与端到端视频识别模型,为开发者提供解决视频分类、视频定位等一系列应用技术方案。
基于飞桨的显著优势和强大的功能,百度组织开展了AI快车道——企业深度学习实战营,相继在北京和上海举办了“图像检索”、“目标检测”、“推荐系统”等专题课程,邀请到百度大脑技术生态和深度学习平台的资深研发人员来分享百度深度学习的研究和应用之路,干货满满,卓有启迪,让大家亲身感受到了深度学习实战技能的重要性。如今实战营已经开展到第五期。此次实战营就“语义理解”专题进行了讲解与实践,众多开发者深度参与相关技术方面的交流实践活动。
图:百度AI快车道——“语义理解”专场
如果把人工智能的核心看作是认知,那么认知的核心技术之一就是“语义理解”。百度的语义理解技术既包含灵活通用、多层次的语义建模,也有特定任务上的语义适配。
近年来,利用大规模无监督语料训练得到通用语义来表示预训练模型,并在特定任务上进行参数微调,已经取得了远超SOTA的效果。这种基于预训练的语义理解技术正受到越来越多的关注。
在AI快车道的交流学习中,百度大脑技术生态和自然语言处理部的资深研发人员首先针对飞桨全景进行了介绍,随后围绕着“语义理解”介绍了NLP的发展现状和过往模型情况,并分享了百度飞桨(PaddlePaddle)ERNIE模型。
据介绍,ERNIE是由百度自主开发的知识增强语义理解模型。该模型可通过对词、实体等语义单元的掩码,使得模型学习完整概念的语义表示,学习真实世界的语义关系,解决了其他模型“主要聚焦在原始语言信号上,较少利用语义知识单元建模”的问题。
比如,在“哈尔滨是黑龙江的省会,国际冰雪文化名城”这句话中, 谷歌的BERT 模型通过『哈』与『滨』的局部共现,就可判断出『尔』字,但模型并没有学习与『哈尔滨』相关的知识。而百度的ERNIE 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,可学到『哈尔滨』是 『黑龙江』的省会以及『哈尔滨』是个冰雪城市,从而增强了机器对于人类语言的理解。
活动现场,众企业学员们积极互动。其中一位来自医疗相关领域的学员表示,目前他所在的工作领域已经运用了NLP语义理解技术,并有计划将飞桨框架运用到自己的实际业务中,此外还针对相关技术与讲师进行了问答探讨。
当天的AI快车道的学习活动,还安排了具有挑战性的实践课,并以“训练业界领先的情感分类模型”为任务。在现场,众学员在指导下都完成了实操挑战,纷纷表示当天的课程“体验的技术非常先进,干货满满”。其中一位学员接受采访时称“来之前就知道百度是中文领域内自然语言处理的领头企业,现在看果然不虚此行”。
图:百度AI快车道第五期导师指导学员进行实践操作
百度 AI 快车道企业深度学习实战营是一个面向有 AI 技术需求企业的算法工程师、架构师群体提供的快速应用扶持计划。依托百度自身深厚的深度学习技术实践经验,为其他企业提供帮助。
该计划的学习内容囊括了 6 套工程实施与深度学习技术落地结合的详细方案,覆盖百度领先的 AI 技术和业务应用场景的深入剖析,如 OCR、精密仪器质检、推荐排序经典场景、遥感图像处理等。基于百度深度学习框架飞桨的性能优势、模型优势、生态优势的解读;百度自研和顶级学术会议魁首算法、预训练模型的详细介绍,还有与案例和算法紧密相扣的在线实验,以“短平快”的课程,进行业务问题定位、框架及算法的快速应用培训,为更多企业带去深度学习技术和经验分享。