科技日报记者 叶青 通讯员 华轩
古籍文献是中国传统文化的载体,但由于语言的演变,通读理解古籍文献的难度较大。
10月30日,记者从华南理工大学获悉,该校电子与信息学院金连文教授所在的“深度学习与视觉计算实验室”,借力AI技术让古籍更易读懂。并发布了“通古大模型”“古籍文档分析与识别系统”“彝文文档分析识别系统”等多项成果,为中国古籍文物数据挖掘、知识发现、智能化开发与利用等领域提供了技术支撑。
“通古大模型”操作界面
据介绍,团队凭借在古籍领域长期积累的丰富大数据资源,加以自动生成的对话模板,通过大模型指令微调技术训练,构建的数字人文模型“通古大模型”,可智能实现文白翻译、句读标点和古籍检索等功能。
“古籍文档分析与识别系统”演示界面
团队还开发出古籍文档分析与识别系统,集成了团队自主研发的古籍句读(自动标点)和文本翻译两大功能。用户只需提供一张古籍图片,系统便能自动识别并定位其中所有的文本,将识别出的文本按照正确的阅读顺序排序,添加标点符号并翻译为现代文,便于阅读。
“我们进行了算法优化,使该系统能够应对现实场景中古籍文档可能出现的各种挑战,例如书本弯曲、倾斜、密集以及低分辨率等问题,实现了技术突破。” 金连文介绍,该系统兼具实用性和稳健性,为推动古籍数字化工作提供了有力支持。
此外,团队还开发了彝文文档分析识别系统,能自动精确定位并辨识图片中的彝文文字。这项识别技术采用的彝文编码,是基于团队今年早前与上海大学、上海合合信息科技公司联合发布的业界首个古彝文基础编码数据库。
(受访单位供图)