科技日报记者 操秀英
11月10日,“汉字守护计划”公益行动发布一周年成果:官方指导“生僻字征集”小程序迄今有2500多万人次参与,提交生僻字16800个;经工信部电子工业标准化研究院初筛,其中457个尚未获得强制性国家标准GB 18030《信息技术 中文编码字符集》编码,以地名、人名、方言用字为主,具有较高的实用价值或文化价值。同日,“生僻字征集”小程序内上线“救字文档”功能,继续向公众征集457个生僻字的相关考证资料,以协助专家组加快完成考证及编码申请。
据不完全统计,全国有6000余万人的姓名,以及大量地名、古籍、方言中包含生僻字,其中多数尚未实现数字化。去年11月,腾讯联合工信部电子工业标准化研究院、光明日报全媒体、北京国家金融标准化研究院、汉仪字库、OPPO、陕西历史博物馆等机构与企业,共同发起“汉字守护计划”公益行动,发挥各自优势并加大投入力度,加速贯通生僻字数字化全链路,旨在助力破解生僻字使用难题,重焕和传承生僻字背后积淀的中华传统文化。该计划于今年4月20日世界中文日上线“生僻字征集”小程序,直接面向公众征集无法输入的生僻字。
据介绍,生僻字数字化是一项复杂的系统工程,每个汉字应用于数字系统,都要经历“发现、考证、编码、扩容国标、字形设计、输入显示、推广应用”等一系列环节。其中,汉字编码环节周期长、复杂性高,要对汉字的实际使用范围、形音义正确性、字形区别与认同、文献用例等进行大量考证,涉及语言文字、文化、信息技术、标准化等多个领域,需投入大量人力查找文献古籍、搜寻实际应用案例。按照常规流程和进度估算,完成这457个汉字的申请编码资料至少需要两年时间。
工信部电子工业标准化研究院中文信息研究室主任黄姗姗表示,生僻字征集小程序以创新方式为“收字”提供高效支撑,特别是此次筛选的457个未编码汉字,更多来源于各地居民的日常生活,有着很深的群众基础和鲜活的社会生命力。电子工业标准化研究院正全力优先开展此批汉字的考证工作,加快推动编码,扩容国标字库。
为进一步助力提升申请编码资料的考证效率,“生僻字征集”小程序内上线“救字文档”功能,支持全国各地用户低门槛参与,微信搜索“生僻字征集”小程序即可加入,填写汉字的读音、来源等信息。
腾讯输入法部总经理鲁剑表示,此次开发“救字文档”,希望发挥平台的连接作用,让这些未编码汉字尽早拥有“数字身份”。同时,腾讯搜狗输入法将继续推进生僻字解决方案在金融、医疗等民生场景落地。
据悉,457个未编码生僻字中,地名用字328个,占比72%,人名用字66个,占比14%。例如,广东佛山市高明区的地名用字“土㞧”(左右结构,专家初步考证音同qǐng),该字用于荷城街道一个乡村的名字——“下长「土㞧」村”。当地居民拍下日常生活中该字使用的案例图片,或发现该字的使用历史、地方志等文化研究资料,上传到“救字文档”,即可助力专家收集考证资料,并实现更高效的针对性考察。
(活动主办方供图)