借力AI读懂古籍-财经车CAIJINGCHE.COM

2023-10-31 11:32:08 分类：科技产经阅读( 7087) 评论( 4222)

科技日报记者叶青通讯员华轩

古籍文献是中国传统文化的载体，但由于语言的演变，通读理解古籍文献的难度较大。

10月30日，记者从华南理工大学获悉，该校电子与信息学院金连文教授所在的“深度学习与视觉计算实验室”，借力AI技术让古籍更易读懂。并发布了“通古大模型”“古籍文档分析与识别系统”“彝文文档分析识别系统”等多项成果，为中国古籍文物数据挖掘、知识发现、智能化开发与利用等领域提供了技术支撑。

借力AI读懂古籍

“通古大模型”操作界面

据介绍，团队凭借在古籍领域长期积累的丰富大数据资源，加以自动生成的对话模板，通过大模型指令微调技术训练，构建的数字人文模型“通古大模型”，可智能实现文白翻译、句读标点和古籍检索等功能。

借力AI读懂古籍

“古籍文档分析与识别系统”演示界面

团队还开发出古籍文档分析与识别系统，集成了团队自主研发的古籍句读（自动标点）和文本翻译两大功能。用户只需提供一张古籍图片，系统便能自动识别并定位其中所有的文本，将识别出的文本按照正确的阅读顺序排序，添加标点符号并翻译为现代文，便于阅读。

“我们进行了算法优化，使该系统能够应对现实场景中古籍文档可能出现的各种挑战，例如书本弯曲、倾斜、密集以及低分辨率等问题，实现了技术突破。” 金连文介绍，该系统兼具实用性和稳健性，为推动古籍数字化工作提供了有力支持。

此外，团队还开发了彝文文档分析识别系统，能自动精确定位并辨识图片中的彝文文字。这项识别技术采用的彝文编码，是基于团队今年早前与上海大学、上海合合信息科技公司联合发布的业界首个古彝文基础编码数据库。

（受访单位供图）

借力AI读懂古籍