带你了解百度ai系列研究之AR技术

2024.03.22 智先声

    虚拟每周一篇原创,关注5G、物联网、人工智能,跟着我的【头号观点】坚持利用碎片时间学习
    今天我们研究AR技术,从产业界认为,能够颠覆现有手机的产品的终端是AR和VR。曾经大量的设备公司都失败了,最有前瞻性的苹果公司也在不断尝试,今天我们就百度的AR与VR能力一起学习一下这方面的知识。
    1、定义
    AR:增强现实(Augmented Reality)技术是一种将虚拟信息与真实世界巧妙融合的技术,广泛运用了多媒体、三维建模、实时跟踪及注册、智能交互、传感等多种技术手段,将计算机生成的文字、图像、三维模型、音乐、视频等虚拟信息模拟仿真后,应用到真实世界中,两种信息互为补充,从而实现对真实世界的“增强”。
    接下来我们从以下几个方面一起学习:
    AR核心技术:构建虚实互联的基础设施,变革人机交互的创新体验
    AR内容平台:高效的AR内容制作和发布管理一站式开放平台
    3D肢体关键点检测:实时检测跟踪并精准估算人体三维姿态
    3D物体跟踪:实时稳定的物体跟踪技术
    人脸表情动捕:通过人脸实时驱动卡通形象
    2、AR核心技术
    人脸特效:人脸关键点检测在大姿态、极端表情、遮挡等复杂场景下表现出可靠的鲁棒性和准确性,可用于实现人脸美型、美妆、道具以及3D动画表情等丰富人脸特效。

肢体特效:移动端实时肢体骨骼点/轮廓点检测,支持16点3D骨骼点、18点/59点2D关键点不同输出方式,跨平台兼容iOS/Android/Windows等主流终端设备,适用于肢体游戏或实时美体瘦身、全身特效等特效场景

    手势特效:超轻量级手部交互算法能力矩阵,涵盖手势识别、指尖点检测和手势关键点检测,精准度业内领先。全平台实时高速运行,可实现手势控制、手部特效、空间作画等多种创意玩法
    环境特效:完备的环境特效能力矩阵,包括人像分割、天空分割、头发分割、物体检测等多项算法能力,打造人像与虚拟环境的自然融合,支持人像背景替换、染发、天空特效、动画叠加及更多视频创意特效的组合
    离线高精地图构建:百度已实现了一套完整的地图构建方案,支持对用户通过移动设备采集的数据进行处理分析,打通常见三维重建数据导入接口,并且兼容相同格式下的第三方数据。具备数据批量化生产能力和易集成特性
    实时定位与跟踪:采用最具前瞻性的视觉技术方案,提供厘米级高精度实时定位与跟踪服务,将融合百度视觉语义化能力,持续提升在线定位稳定性与精准度;拥有兼容Google、Apple平台的持续跟踪能力与独有自研跟踪能力共同构成的融合跟踪方案,可满足市场高中低端机型的全场景体验需求
    3D识别与跟踪:国内领先的3D识别、跟踪能力,支持实物的跟踪识别。在创新性引入纹理特性与边缘轮廓联合优化的基础上,可对日常生活及工业场景中丰富纹理或弱纹理的3D物体进行实时跟踪

    3D互动和特效渲染:超轻量、跨平台的移动端AR互动和渲染引擎。游戏级AR 3D场景虚实互动效果,支持3D动画表情、手势、肢体等互动需求;基于PBR的逼真场景渲染实力,支持大规模场景渲染,支持实时物理特效,同时为开发者提供完善的脚本系统和灵活的API接口
    3、内容平台
    DuMix AR内容平台是百度AR推出的AR内容制作和发布管理的一站式开放平台,帮助开发者高效制作并分发AR内容。

    内容类别:
    娱乐互动:面向开发者/设计师开放丰富的特效交互能力和便捷的编辑制作平台,满足AR创意内容的快速实现需求,适用于丰富多彩的娱乐互动场景
    智能营销:完善的生态合作伙伴体系,提供从内容创意到技术实现的全流程解决方案,快消、IT、家居、电商等行业知名品牌客户打造众多经典案例
    智能设备:将AR核心技术能力接入智能大屏,实现AR太极、切红包、试妆等趣味玩法,为公园、景区、商圈等场景带来全新娱乐互动体验和云端数据管理服务
    景区:不断扩充的景区场景内容与地理位置信息,为用户提供从行前、行中到行后的一站式娱乐导览服务,帮助景区建立线上线下打通的体验营销闭环
    教育:持续累积的AR教育资源库,涵盖动物、植物、语言文字、自然科学、人文科学等各个方向,通过百度生态资源和智能云平台精准触达不同年龄段的孩子们
    汽车:为汽车行业客户构建端云一体化解决方案,依托领先的技术能力、强大的3D渲染引擎和优质的模型库资源,覆盖线上线下汽车展示多场景,提供前置化消费体验
    4、3D肢体关键点:
    业内首创核心技术,通过普通单目摄像头输入RGB图像,输出人体16个核心关键点的三维坐标信息,实时检测跟踪并精准估算人体三维姿态。可兼容iOS、Android、嵌入式多种平台
    人体三维坐标估算:实时检测画面中的人体,精准定位16个核心关键点,包含头部、四肢、腰部等主要部位,并可对关键点进行持续跟踪
    人体姿态检测跟踪:精准估算人体关键点的空间位置,实时捕捉人体位置及姿态信息,适应转体、侧身、四肢躯干遮挡等复杂运动情况
    应用场景:
    体育训练及康复:通过摄像头捕捉追踪人体在一段时间内的姿势变化,检测人体姿态是否达到预期的角度、幅度、速度,辅助健身锻炼、体育训练、康复训练等应用
    虚拟形象:通过真人驱动,让虚拟形象具备类比真人的肢体动作,并支持与3D人脸特效、手势识别等功能结合应用,让虚拟形象更加灵活生动,可用于虚拟IP驱动、肢体驱动类游戏、远程授课或播报等场景
    人体行为识别:通过摄像头捕捉追踪人体的动作变化,根据肢体动作或变化角度判断人体动作行为,可用于无人车、机器人、视频监控等行为分析需求场景
    5、3D物体跟踪
    领先的3D模型注册能力,实时稳定的物体跟踪技术,支持日常生活、工业环境下丰富纹理或弱纹理的3D物体跟踪,可用于AR产品演示、设备辅助信息增强等场景
    3D模型注册:输入跟踪物体的3D模型,并设定初始识别姿态后,可快速完成3D模型注册,实现模型虚拟信息与实物的精准匹配
    3D物体实时跟踪:无需事先对三维物体进行训练,模型注册后即可对物体进行实时跟踪,支持日常生活、工业环境下的丰富纹理或弱纹理的三维物体实时跟踪
    场景:
    新型营销工具:将传统产品说明信息以AR形式立体呈现,将产品的亮点特性与产品自身及周围环境融合,实现可视化交互,可用于汽车4S店、小型家电卖场等线下零售场景,帮助销售人员更加直观地展示商品卖点,为顾客带来更具象的创新体验,提升购买决策效率和销售成单率
    工业维修培训:帮助建立工业标准化AR维修、培训方案,对设备及零部件进行3D识别跟踪,深度解构产品组成、演示工程原理,降低对一线操作人员的批量化指导成本,有效提升生产效率和操作准确率

    6、人脸表情动捕
    基于人脸关键点重建三维人脸模型、头部姿态估计跟踪和表情动作捕捉技术,有效提升手机、在线教育、直播和短视频等行业的趣味性和丰富度,为匿名社交和分享创造更多可能性的同时保证了安全性,具有广泛的应用场景
    三维人脸检测跟踪:基于高精度的人脸关键点检测与三维人脸重建算法,可支持在不同人脸角度、面部表情及光照条件下实现稳定的头部姿态估计
    面部表情动作捕捉:基于领先的人脸关键点组件化的优化方案,支持眼睛、嘴巴等部位的细腻表情动作捕捉,为用户提供丰富的表现力
    动画驱动渲染:提供整套轻量化的3D引擎系统,在支持人脸动画驱动的基础上,支持多种材质渲染,使驱动效果更加自然生动
    场景:
    互联网娱乐行业:实时检测人脸表情及动作,通过真人驱动,使卡通形象跟随人脸做出灵活生动的表情,增强互动效果的同时保护用户间的隐私,可用于直播、短视频、拍摄美化、社交等场景
    手机行业:通过人脸实时驱动卡通形象进行录制拍摄,增强手机的娱乐性及互动性,提升用户体验,适用于相机、短信、通话、输入法等场景
    在线教育行业:老师和学生可实时驱动虚拟形象沟通交流,提高师生之间互动的效果,使教学更加生动有趣,打造创新型教学体验,促进教学风格多元化
    预告
    下一篇章继续研究学习百度的VR技术,敬请期待!
    免责声明:
    本公众号为个人研究专题学习分享,非商业公众号无任何商业目的,如果文章内容有侵权或者非法信息,请立即与本号联系删除谢谢