全球OCR文字识别测试最新结果公布：中国军团霸屏

2024.07.09 单行科技

    近年来，自然场景下的文字识别（OCR）引起了计算机视觉和机器学习界的极大关注。在照片翻译和图像内容识别等许多基于内容的图像应用推动下，它已成为学术界和工业界一个充满希望和挑战的研究领域。
    11月20日，有OCR领域奥斯卡之称的国际文档分析与识别大会（ICDAR）数据集最新结果公布，中国高校及企业包揽排行榜前五。中国人工智能“国家队”云从科技提出的Pixel－Anchor框架在多个ICDAR测试子集（ICDAR2015以及ICDAR2017 MLT）上均获得了第一名的好成绩，特别是在东亚语言（包括中文）部分表现亮眼。

ICDAR2015数据集前五名及框架名称分别是：云从科技（Pixel－Anchor）、南京大学与南京理工大学（PSENet）、旷视科技（Mask Text）、商汤科技（FOTS）、阿里巴巴（IncepText）。

    ICDAR2017 MLT数据集前五名及框架名称分别是云从科技（Pixel－Anchor）、阿里巴巴（ATL－cangjie）、商汤科技（FOTS、旷视科技（EAST＋＋）、南京大学（PSENet＿NJU）
    国际文档分析与识别大会（ICDAR）专注于文本领域的识别与应用，自2003年大会设立“Robust Reading Competitions”以来，该竞赛就成了评测和检验自然场景／网络图片／复杂视频文本自动提取与智能识别最新技术研究进展的最为重要的国际赛事及标准，竞赛中的诸多方法对OCR技术的发展具有强大推动力。高技术难度、强大实际应用性，也使该盛会受到科研院校、科技公司等的关注，至今已有全球89个国家的3500多支队伍参与。
    截至目前，全球顶级的高校、科研机构及企业都参加过这项测试，包括Google、Microsoft、Amazon、Facebook，以及中国的腾讯、搜狗、北京大学、中国科学技术大学等。
    云从科技、阿里巴巴、南京大学、南京理工大学、商汤科技、旷视科技在榜单中体现出良好的成绩，表明中国继续在国际上引领OCR领域的研究。
    计算机视觉基础技术应用前景广泛
    OCR（Optical Character Recognition）是指对输入图像进行分析识别处理，获取图像中文字信息的过程，具有广泛的应用场景。而自然场景中的OCR 技术不需要针对特殊场景进行定制，可以识别任意场景图片中的文字。

    和面对高质量文档图像的传统OCR相比，自然场景OCR跳出了对输入图像的质量和场景束缚，能够在更宽泛的领域中获取应用，引起了学术界以及工业界的极大关注。
    但相较于传统OCR，自然场景OCR中的各种商品、布景或自然场景图片中的文本检测与识别面临着复杂背景干扰、文字的模糊与退化、不可预测的光照、字体的多样性、垂直文本、倾斜文本等众多挑战。
    OCR是计算机视觉领域的经典问题，长久以来，一直受到学术界和工业界的持续关注。在工业界，Google、Microsoft、Amazon等大型互联网公司，以及云从科技等人工智能创业公司，都在OCR技术上耕耘多年。随着技术不断成熟，OCR也开始在互联网及其他行业逐步上线使用，应用范围也从文档识别扩展到车牌识别，图片广告过滤，场景理解，商品识别，街景定位，票据识别等广泛的领域。
    据悉，目前Pixel－Anchor框架已在云从科技的证件票据识别系统和图片广告过滤系统中上线，每天处理图片近千万张，自动反馈疑似违规图片准确率达96％以上；同时将证件处理和图文审核风险发现时间从“小时”降低到“秒”级。数据显示，2018年云从科技累计处理25亿证件数据、屏蔽400万条恶意推广，有效提高业务流程效率及净化营销环境。
    除OCR以外，包含人体姿态、跨镜追踪、车辆结构化、语音识别等智能感知的核心技术闭环已经在云从科技内部获得建立，比如安防大数据系统与智能商业运营平台应用“跨镜追踪（ReID）”技术，无需人脸也可以追踪目标。“逃犯克星”张学友的部分成果，就有“跨镜追踪”技术的参与。另外，云从科技也在浸入式大数据风控系统、AI－IoT物联网应用等场景中引入了智能感知技术。