中国教育科技大会|作业帮发力OCR+AI技术，持续打造技术壁垒

2024.04.24

12月23日，2020中国教育科技大会于北京召开。本届教育科技大会以“新业态·新动能·新教育”为主题，围绕中国教育进行深度剖析，并以最新、最全、最优的视角，全方位深入教育本质，聚焦业态发展。作业帮智能技术实验室负责人王岩出席会议，并进行了《创新科技助力作业帮在线教育》主题演讲，对教育科技的应用和创新发表前瞻性观点。

据了解，中国教育科技大会由中国计算机用户协会指导，iTechClub（互联网技术精英俱乐部）教育专委会主办，是国内互联网技术领域最专业、最具影响力的大型教育科技类行业盛会，通过站在行业前沿角度，以演讲、分享、讨论、交流等不同的方式，深耕教育科技本源，促进中国教育行业的创新发展。

    王岩表示，目前在线教育已经进入了新的发展阶段，不仅需要对优质内容进行严格把控，同时还必须深耕用户体验。为此，作业帮持续更迭OCR技术进阶拍搜体系，以多线性思路兜底知识索取，同时发力AI技术在直播课中的深度应用，打造强交互和场景化在线课堂。
    作业帮拍搜技术向上突破，承接全国中小学生释疑需求
    近年来，作业帮拍照搜题成为全国中小学生快速获取知识的重要工具。据王岩介绍，早期经过研发和探索，作业帮拍搜系统在后台开发及测试阶段已经能达到较高的准确率。“简单来看，初级的文字识别基本框架仅分为前处理、文本行分割、文本识别和结果输出四个部分。对于一位熟悉计算机视觉和深度学习的研究生而言，利用公开的资源和数据集，以及现成的深度学习框架，也许两周内就可以搭建出一个系统，并能有效识别清晰图片。”
    然而在实际上线之后，系统在识别过程中遇到难题。随着用户体量日益扩大，用户使用设备、拍照习惯、题目呈现效果存在显著差异性，从而产生模糊、倾斜、低像素、干扰等现象，使得实际识别准确率下降。
    为解决拍搜系统遇到的一系列问题，作业帮发力OCR识别技术，自研拍搜架构。王岩介绍，这套系统是作业帮通过持续5年的自主研发和数据积累，不断进行功能迭代的重要成果。在完整的文字识别流水线中，超过30种不同的神经网络各司其职，每做一次拍搜文字识别，将运行260个以上神经网络的预测。而如此复杂的算法，则通过大规模的并行化、集群化的服务器，实现200ms内完成的极高效率，甚至可以对整张试卷进行快速识别。

    依托于自研的拍搜架构，作业能够有效击破用户识别场景多元而衍生的系列问题，提升识别精准性，帮助用户实现提问与释疑的无缝衔接，优化知识获取效率。
    精准识别＋完整视频讲解＋即时在线问答，作业帮搜题体系全面进化
    在快和准上进行极致化探索仅仅是拍照搜题功能升级的第一关，将重心置于教学思路的讲解和输出，才是契合教育本质的发展方向。
    以教育普惠为核心理念作业帮早已孵化出完备的拍搜业务线，用户在精准匹配到题目之后，还能够获取详细的解析过程以便于思考和归纳。同时，针对书面讲解不够直观易懂的痛点，作业帮录制了大量解题视频，实现图文并茂、细致解说。据了解，目前五成以上的搜索结果均配备讲解视频。此外，为全面兜底搜题需求，作业帮还设置真人老师在线答题，能够针对学生疑问进行进一步解答，帮助用户对题目考察内容产生深入、透彻的理解，真正掌握知识点。
    王岩介绍道，结构化的拍搜体系不再是一项简单的辅助型工具，而是穿透整个教研的重要力量。据了解，目前作业帮拍搜系统每分钟可以处理100万次的完整识别流水线，识别完成后，内容立刻被传送至搜索引擎，汇聚成包含超3亿题目的海量题库。基于题库，作业帮还运用大数据算法深入洞察全网学习动态，智能分析热门知识点分布及难点，赋能自身及全国各地教研体系。
    在拍搜系统、大数据和庞大用户体量的多重加持下，作业帮教研团队可以快速明确某地区某时间甚至某学校中，最困扰学生的知识点、最容易错的题目。此技术或将有效帮助教育部门制定教学计划，提高教学效率，发挥在线教育的社会价值。
    音视频AI嵌入直播课架构，作业帮开启学习场景化全面探索
    不限于拍照搜题，作业帮还将直播课作为输出优质教育资源的关键抓手，通过发力AI技术，瞄准线下教育特性，深入探索场景化学习，匹配用户对于课堂体验的多重诉求。
    具体而言，作业帮运用RTC协议自研音视频互动直播技术架构，完整支持1对1辅导、一对多大班课、1对6小班互动课、多对多互动大班课等等各类班型。王岩介绍，这一套系统基于遍布全国的节点，可以为老师和学生提供足够好的音视频互动交互。其中，视觉AI的运用则能够在直播课中实现监测上课状态、优化课堂效果的双向效果，拉齐线下课程面对面的教育价值，辐射全国孩子的学习圈，带来在线教育的高位运行。
    就课堂效果而言，作业帮面向低年级孩子推出自研课堂手势交互功能，通过本地AI能力进行准确的手势识别，规避了点选参与感不足的问题，提升课堂趣味性。语音弹幕功能则使用自研语音识别能力，避免打字互动时键盘遮挡影响教学效果的情况。
    演讲中，王岩分享了语音功能升级带来的强互动性。“在语言课程的拼读环节中，可以给每一个学生都提供评价功能，在答题环节，老师能请学生直接用语音弹幕回答，回答内容将会被迅速识别，并在教师端进行汇总。”在作业帮的直播课堂上，没有一个孩子被“隐身”，每位学生都有公平互动和表达的机会，老师也可以掌握台下所有学生的回答情况。
    在对学生上课状态的把握上，作业帮则利用部署在用户终端的神经网络搭配云端集群，对学生进行智能识别，包括是否在座位、是否有家人陪同上课、是否专心听课、离屏幕的距离是否过近或过远。而主讲老师通过学生状态采集、课中实时汇总、课后分析报告，反哺老师教学能力，辅导老师则能够运用专注力汇总，近距离与学生互动，全面感知学生个体。
    基于近五年对于OCR、AI等教育技术的深耕，作业帮实现了在线教育效率化、实感化，化解了与线下教育的显著区隔，并将弥补传统课程的诸多壁垒，辐射多元学习场景。对于下一个五年的愿景，王岩表示，作业帮仍在对在线教育进行更加深入的研究，今后也将持续聚焦教育科技，以成熟化的新技术强化学习场景感官，推动新教育行业的更大变革。