看笔迹识国籍?一起来看AI加持下的笔迹识别进化之路


    造假,尤其是笔迹造假这事儿其实挺简单的,但要不认真看的话也很难辨别真伪。学生尚且能如此,遑论那些专业的笔迹造假人员,签字、印章造假之事更是层出不穷。自然,在识别笔迹这件事儿上,人们也是下足了功夫。
    分辨真假:传统笔迹识别的力之所及
    笔迹识别其实是一件难度很高的事情。当然,这里讨论的主要是涉及到重要利益问题时候的笔迹造假。这种情况下,肯定不会找一些画虎类猫的人随随便便就把别人名字给写上去了,要找也得是有过专门的模仿经验的专业人员。
    那么,在这种情况下,想要用肉眼就辨别真伪,就真的有点儿勉为其难了。因此,除了神奇的古人,要想让识别字迹这事儿变得靠谱,只能是借助计算机了。
    笔迹识别的难点在于,其可供分析的样本较少,因此难以建立有效的字迹对比模型。比如,对识别真假签名,上哪儿去找那么多名字呢?人家也不可能处处留名。
    因此,对笔迹的识别流程往往比较复杂,目前来说主要包括分别检验两种笔迹的运笔自然程度、大小、字形结构,确定两种笔迹的特征,然后进行比较各种特征的异同,最终做出综合判断。在人力时代,进行比较的时候以目力观察为主,常常需要借助摄影仪、显微镜、幻灯片等进行对比研究。
    清华大学和公安部曾经推出一款能自动鉴别笔迹的“计算机笔迹识别系统”,其能将整个检验、对比和判断的过程自动化,对笔迹识别精准度的提升有很大的作用。
    另外一个涉及到辨别真伪的方式则是对笔迹的时间进行推断。我们在电视上经常会看到有人拿着借条声称某人借钱不还,但实际上签名却是新的。这里就用到了书写时间鉴定的技术。
    目前来说,可以做到通过对墨水成分的鉴定来看是否为同一支笔;通过墨迹的对墨水的溶解率的检测判断书写时间;并且在有公章的情况下,可以检测公章和签字的覆盖关系。
    但是受限于文件的存放时间、存放条件、墨水的材料等诸多因素,鉴定的结果也会受到影响。以目前的技术而言,受这些因素的影响,其时间精确的误差可从几天大到几个月之间。
    可以看出的是,传统的笔迹识别主要是停留在辨别真伪的层面。由于技术条件的限制,其精准度有待提高,作为证据采用的可信度自然尚需斟酌。但相比手工时代轻易的鱼目混珠,利用计算机来进行笔迹识别和判断墨迹时间已经是一个非常大大的进步了。
    当然,永不满足的人类还想要更大的进步。
    从看人格到定国籍:AI时代的笔迹识别新大陆
    对解决传统的笔迹识别问题,AI或许可以帮上一点忙。虽然AI也需要充分的样本学习才能建立较为准确对比模型,但在同样的数据条件下,AI的深度学习能力能帮助其作出相对更精准的判断。
    而AI的重要意义不仅仅在于缓解传统笔迹识别的问题,更在于其为笔迹识别开发出了新的可能。
    1. 人格预测。Sinhgad Institute of Technology的研究人员们通过对单词的页边距(在固定网格中的位置)、单词间距、行距等几个方面进行切割分析过笔压、大小、边距、字体区域、倾斜程度、基线等进行特征提取,然后将其分类,并分析其不同类别与人格、情感的关系。在经过学习之后,系统可以在最短的时间内进行情绪的识别和人格的预测,从而提高人格预测的准确性。
    2. 国籍识别。一个由中国、马来西亚和印度研究人员组成的研究小组则将字体作为与虹膜、面部等有相通作用的生物特征的一种,以此来判断其国籍、性别等,从而来查明涉及不同国家国民的罪行。
    在方法上,其通过对中国、印度、马拉西亚、伊朗和孟加拉国等五个亚洲国家的100位作家的书写英文的字迹进行分析,利用一种名为cold的线性分布识别工具,从线条、倾斜方向、整体形状等方面来对AI系统进行训练学习。比如中国人汉字横平竖直,因此写英文的时候呈现出线条偏硬的特征;而印度和孟加拉国写字则偏圆润。除此之外,100位作家中还有10位女性,因此其还顺便测试了一把男女的差别。
    如果说仅仅辨别真假还是初阶的话,那用AI通过识别字体能够判断人的性格乃至国籍就有点一步跃升到高阶的味道了。而从另一个角度来说,这也有一定的科学依据。毕竟,在之前曾有人研发出AI的步态识别技术,通过一个人的姿势来判断人,说明这种生物行为在每个人身上都是不一样的。那么,写字作为动作的一种,人的性格、生理等诸多因素也很可能会对它产生影响。
    而中国人也常说,“字如其人”,这句话在今天看来,算是找到了科学依据。
    但无论是人格判断还是国籍识别,其都尚且只是停留在论文或实验室层面,要想走入现实,恐怕仍然有很长的一段路。
    以笔为矛:小笔迹下的大用处
    当想象的边界被AI无限延展,笔迹识别也将突破原有的狭窄应用区域。仅仅做辨别真假这事儿就显得有点太低端,至少下面的这些事情,未来将有可能搭上笔迹识别的快车。
    1. 法务判断的参考。通过对字迹的国籍、性别的判断,对犯罪嫌疑人的锁定和筛选范围也将缩小,有利于节省大量的筛查排除时间。而据《民事诉讼法》规定,鉴定结论也属于证据的一种。那么在利益关系比较突出的经济案件中,笔迹识别精准度的提高,也将提高法官对案情的判断能力。
    2. 心理疾病的诊断。在心理诊断中,目前多是采用对话的形式。如果可以大量搜集心理疾病患者的字体,然后用机器学习的方法对其进行分析和建模,则可以为心理疾病的诊断提供又一强大的判断依据。再结合原有的对话、测试等手段,心理疾病的诊断正确率有可能会随之大大提高。比如患有精神分裂症的人,其常常会自造字词,文字的布局混乱、留白和间距小、字迹潦草等特征明显,总体呈现出混乱而不规范的特点。
    3. 生理疾病的辅助。有研究表明,笔迹里其实隐藏生理疾病的密码。比如帕金森病人的字会越写越小,并且字迹会很浅;阿尔茨海默症则呈现书写缺乏规律;高血压病字迹会重……这对于提早发现病情,及时预防和治疗将起到重要作用。
    值得注意的是,一旦涉及到诊断疾病,那就要谨防有江湖骗子趁此机会发不义之财了……
    4. 收藏品的鉴别。收藏有风险,入行须谨慎。收藏界最怕的事儿就是买到假货。有的文盲喜欢买几幅名家字画往家里客厅里一挂,顺便附庸个风雅。一旦买到赝品,被行家识破后丢人事小,白花花的银子就这么扔了就可惜了。那么,在入手之前对字画识别一番,既能对笔迹进行分辨,还能对墨迹进行检测,妈妈再也不担心自己被骗了。当然,卖假货的可能会坚决抵制,理由是扰乱了假货市场秩序……
    可见,笔迹虽小,却也有大用处。这也是AI的神奇之处。它令一些已知可能得到升级,又将未知的不可能的事情变成了现实。它时不时扔出来一件足以令我们咋舌的事情,却也让我们看到了AI之于这个伟大时代的意义。
    当然,以后再想模仿班主任签名,可能连门儿都没有了。(作者:脑极体)