中国教育科技大会|作业帮发力OCR+AI技术,持续打造技术壁垒


    12月23日,2020中国教育科技大会于北京召开。本届教育科技大会以“新业态·新动能·新教育”为主题,围绕中国教育进行深度剖析,并以最新、最全、最优的视角,全方位深入教育本质,聚焦业态发展。作业帮智能技术实验室负责人王岩出席会议,并进行了《创新科技助力作业帮在线教育》主题演讲,对教育科技的应用和创新发表前瞻性观点。
    
    据了解,中国教育科技大会由中国计算机用户协会指导,iTechClub(互联网技术精英俱乐部)教育专委会主办,是国内互联网技术领域最专业、最具影响力的大型教育科技类行业盛会,通过站在行业前沿角度,以演讲、分享、讨论、交流等不同的方式,深耕教育科技本源,促进中国教育行业的创新发展。
    
    王岩表示,目前在线教育已经进入了新的发展阶段,不仅需要对优质内容进行严格把控,同时还必须深耕用户体验。为此,作业帮持续更迭OCR技术进阶拍搜体系,以多线性思路兜底知识索取,同时发力AI技术在直播课中的深度应用,打造强交互和场景化在线课堂。
    作业帮拍搜技术向上突破,承接全国中小学生释疑需求
    近年来,作业帮拍照搜题成为全国中小学生快速获取知识的重要工具。据王岩介绍,早期经过研发和探索,作业帮拍搜系统在后台开发及测试阶段已经能达到较高的准确率。“简单来看,初级的文字识别基本框架仅分为前处理、文本行分割、文本识别和结果输出四个部分。对于一位熟悉计算机视觉和深度学习的研究生而言,利用公开的资源和数据集,以及现成的深度学习框架,也许两周内就可以搭建出一个系统,并能有效识别清晰图片。”
    然而在实际上线之后,系统在识别过程中遇到难题。随着用户体量日益扩大,用户使用设备、拍照习惯、题目呈现效果存在显著差异性,从而产生模糊、倾斜、低像素、干扰等现象,使得实际识别准确率下降。
    为解决拍搜系统遇到的一系列问题,作业帮发力OCR识别技术,自研拍搜架构。王岩介绍,这套系统是作业帮通过持续5年的自主研发和数据积累,不断进行功能迭代的重要成果。在完整的文字识别流水线中,超过30种不同的神经网络各司其职,每做一次拍搜文字识别,将运行260个以上神经网络的预测。而如此复杂的算法,则通过大规模的并行化、集群化的服务器,实现200ms内完成的极高效率,甚至可以对整张试卷进行快速识别。
    
    依托于自研的拍搜架构,作业能够有效击破用户识别场景多元而衍生的系列问题,提升识别精准性,帮助用户实现提问与释疑的无缝衔接,优化知识获取效率。
    精准识别+完整视频讲解+即时在线问答,作业帮搜题体系全面进化
    在快和准上进行极致化探索仅仅是拍照搜题功能升级的第一关,将重心置于教学思路的讲解和输出,才是契合教育本质的发展方向。
    以教育普惠为核心理念作业帮早已孵化出完备的拍搜业务线,用户在精准匹配到题目之后,还能够获取详细的解析过程以便于思考和归纳。同时,针对书面讲解不够直观易懂的痛点,作业帮录制了大量解题视频,实现图文并茂、细致解说。据了解,目前五成以上的搜索结果均配备讲解视频。此外,为全面兜底搜题需求,作业帮还设置真人老师在线答题,能够针对学生疑问进行进一步解答,帮助用户对题目考察内容产生深入、透彻的理解,真正掌握知识点。
    王岩介绍道,结构化的拍搜体系不再是一项简单的辅助型工具,而是穿透整个教研的重要力量。据了解,目前作业帮拍搜系统每分钟可以处理100万次的完整识别流水线,识别完成后,内容立刻被传送至搜索引擎,汇聚成包含超3亿题目的海量题库。基于题库,作业帮还运用大数据算法深入洞察全网学习动态,智能分析热门知识点分布及难点,赋能自身及全国各地教研体系。
    在拍搜系统、大数据和庞大用户体量的多重加持下,作业帮教研团队可以快速明确某地区某时间甚至某学校中,最困扰学生的知识点、最容易错的题目。此技术或将有效帮助教育部门制定教学计划,提高教学效率,发挥在线教育的社会价值。
    音视频AI嵌入直播课架构,作业帮开启学习场景化全面探索
    不限于拍照搜题,作业帮还将直播课作为输出优质教育资源的关键抓手,通过发力AI技术,瞄准线下教育特性,深入探索场景化学习,匹配用户对于课堂体验的多重诉求。
    具体而言,作业帮运用RTC协议自研音视频互动直播技术架构,完整支持1对1辅导、一对多大班课、1对6小班互动课、多对多互动大班课等等各类班型。王岩介绍,这一套系统基于遍布全国的节点,可以为老师和学生提供足够好的音视频互动交互。其中,视觉AI的运用则能够在直播课中实现监测上课状态、优化课堂效果的双向效果,拉齐线下课程面对面的教育价值,辐射全国孩子的学习圈,带来在线教育的高位运行。
    就课堂效果而言,作业帮面向低年级孩子推出自研课堂手势交互功能,通过本地AI能力进行准确的手势识别,规避了点选参与感不足的问题,提升课堂趣味性。语音弹幕功能则使用自研语音识别能力,避免打字互动时键盘遮挡影响教学效果的情况。
    演讲中,王岩分享了语音功能升级带来的强互动性。“在语言课程的拼读环节中,可以给每一个学生都提供评价功能,在答题环节,老师能请学生直接用语音弹幕回答,回答内容将会被迅速识别,并在教师端进行汇总。”在作业帮的直播课堂上,没有一个孩子被“隐身”,每位学生都有公平互动和表达的机会,老师也可以掌握台下所有学生的回答情况。
    在对学生上课状态的把握上,作业帮则利用部署在用户终端的神经网络搭配云端集群,对学生进行智能识别,包括是否在座位、是否有家人陪同上课、是否专心听课、离屏幕的距离是否过近或过远。而主讲老师通过学生状态采集、课中实时汇总、课后分析报告,反哺老师教学能力,辅导老师则能够运用专注力汇总,近距离与学生互动,全面感知学生个体。
    基于近五年对于OCR、AI等教育技术的深耕,作业帮实现了在线教育效率化、实感化,化解了与线下教育的显著区隔,并将弥补传统课程的诸多壁垒,辐射多元学习场景。对于下一个五年的愿景,王岩表示,作业帮仍在对在线教育进行更加深入的研究,今后也将持续聚焦教育科技,以成熟化的新技术强化学习场景感官,推动新教育行业的更大变革。