
甲骨文作为我国最早的成熟文字、世界四大古文字之一,因刻写在龟甲和兽骨上而得名。但因为多数甲骨残缺严重,很难有完整的信息。如今,随着人工智能的引进,通过图像识别技术,可以实现甲骨的自动识别、撮合,为甲骨文学者提质增效。7月7日—10日,在2021世界人工智能大会上,劳动报记者见到了能“读懂”甲骨文的智能文字识别技术,成为全场最受关注的 “黑科技”产品之一。
(点击视频,看看能识别“甲骨文”的“黑科技”)
出土于商代的甲骨文是中国发现最早的文字,其图案种类十分丰富,寓意表达明晰。可是由于所处年代过于久远,漫长的历史尘迹,为甲骨文披上了一层朦胧的面纱。现在的甲骨文多在出版物上以图片形式出现,给文字检索带来困难。目前,已出土的甲骨碎片多达16万余件。可惜的是,这些甲骨碎片被埋在地下多年,经历了地下活动的冲击和挖掘造成的磨损,多数甲骨残缺严重;又由于随着人类历史的迁徙遍布于世界各个角落,很难有完整的信息。
此次上海合合信息科技股份有限公司带来的智能文字识别技术,能对3600年前中华文明的古老文字——甲骨文进行识别。将形象丰富的甲骨文复刻在龟甲上再进行重新排列组合后,“单身狗”“白富美”“买它买它”等网络热词被一一识别出来,令人忍俊不禁。
据了解,智能文字识别技术主要包含了智能图像处理,基于深度学习的复杂场景文字识别,自然语言处理三个核心技术层。智能图像处理技术主要对用户拍摄的复杂文档图像进行预处理,使得文档图像质量得到大幅度提升。基于深度学习的复杂场景文字识别技术,主要利用合合信息自研的手写印刷混排识别,抗强干扰识别,扭曲文字识别,复杂印章和手写识别等一系列先进深度学习识别技术来解决各种不同复杂场景下的文字识别问题。而自然语言处理技术,则是对识别出的结果进行进一步的语义理解。
合合信息相关技术负责人表示,甲骨文识别的难点在于甲骨残缺严重、素材难获取、拓片清晰度低等,这些都是需要通过技术来解决。例如样本素材少,从技术层面上,需要解决少样本训练的问题。目前来说仍是初步研究,更多的工作还在路上。
智能文字识别技术在未来还有哪些应用场景?合合信息产品总监常扬告诉记者:“我们的技术已经达到了秒级识别的水平。”在现场,还展示着不同类型的票据,50多种不同国家的语言,文字大小和样式均不相同,“我们都可以进行准确地识别,这门技术的应用场景还是非常广泛的。”