过去,专家在古文献研究中遇到生僻字,可能花费数小时甚至数天查阅大量工具书才能弄清这个字的含义。但在今天,这个过程可能仅仅只需要几秒。据悉,“识典古籍”平台最新上线的编辑器搜字、造字、复制字图功能,通过将生僻字进行拆解拼接,系统可从20余万个字形中精准匹配出结果——整个过程不到10秒,从而解决了困扰古文献研究领域多年的生僻字整理难题。
在以往的古籍数字化过程中,遇到字库中没有的生僻字或异体字时,研究人员的通常做法是截取该字在古籍扫描图中的局部区域的图片作为替代,称之为“字图”。然而这样处理存在明显缺陷,字图有当时古籍本身的印刷书写风格和背景,不宜阅读;同时,不同字图可能实为同一字,却因无法识别而被重复截取,造成整理混乱。
识典古籍给出的解决方案是自研了一套拼字输入法(拼出字图)、造标准宋体字(造出字图)等算法,以帮助研究人员在整理古籍时能够快速的输入生僻字甚至“造”出字体。
拼字输⼊法的技术原理并不复杂,就是让用户在自己认识的简单字和简单笔画的基础上,去搜索更加复杂的汉字,即便不清楚这个汉字的字音、字义,也能凭借字形快速匹配。
例如,“矦”字可由“⺈”“厂”“矢”组成,输入这些部件即可召回该字。对于普通人来说,虽然这个字我不认识,但总有它的部分我认识,认识什么输入什么,就可以把这个字拼出来。这种方式比五笔输入法更直观,无需记忆词根,也支持生僻字检索。
在编辑器中拼字输入
在研发过程中,团队面临的核心挑战是汉字组合的极端复杂性。例如一个“椪”字,就有“木並”、“木䒑业”、“木丷亚”、“木八亚”等多种拆分方式,组合数量呈阶乘级增长,传统穷举方法根本行不通。
团队曾尝试用有向无环图来建模汉字部件关系,想象一堆有箭头连接的积木,箭头只指向后方,且绝对不允许形成一个闭合的圆圈,这样我们就可以从起点一路畅通无阻地走到终点,但十万汉字构建的图谱对性能挑战巨大,也难以量化匹配效果。
那段时间,组内成员兵分几路,有人继续尝试图结构优化,有人从组合数学角度寻找新思路。大家频繁交流、互相“挑战”,常常列举出各种bad case推翻对方方案,却又在碰撞中萌生新的灵感。
最终,识典古籍研发团队设计出了一套高性能、通过计算汉字细节特征进行匹配的解决方案,可支持在20余万个汉字中实时搜索。
该方案在初始加载阶段,不仅会整体收集每个汉字的组成部分作为其特征,还会构建一套简繁字、偏旁部首的等价映射表,如“马”可代“馬”、“水”可代“氵”。
在搜索阶段,算法会先对用户输入进行前置处理以提升容错能力,比如相似的“𠄌”和“乚”都会被处理成“乚”,然后比对用户输入与所有汉字特征之间的差异,按匹配程度排序返回最佳结果,若匹配失败,算法还会自动使用等价映射表重新检索,如输入“水”、“木”可查找出“沐”,显著降低输入门槛,更贴合用户的用字习惯。
拼字输入法主要辅助研究人员找到当今已经被编码的汉字,对于古籍中存在的⼀些没有被计算机编码的汉字,识典古籍团队又开发了基于IDS造出标准宋体字的算法,通过结构化的描述方式去表达任意⼀个汉字,进而为这个生僻字量⾝设计字体。
根据识典古籍团队介绍,IDS是Unicode标准定义的汉字结构描述语法,通过IDC符号(用于描述汉字结构,如⿰、⿱、⿲、⿴、⿸等)和汉字部件组合而成。例如,“古”字是上下结构,其IDS就是 “⿱十口”。
通过分析汉字的空间结构输入相应的IDS表达式生成字体字形,以上是不同空间结构的示例
造字的核心是解析用户输入的IDS表达式,为每个部件选择合适的变形和空间布局,组合成新字。例如,在处理左右结构时,需控制部件宽度比例和间距;在处理包围结构时,需确定缺口位置并在缺口处合理放置被包围的部件。
团队在开发过程中摒弃了“大而全”的幻想,比如像‘廴’只需主要考虑‘⿺’布局,无需过多考虑⿰、⿱、⿴、⿸等其他情况,转而遵循实际汉字布局规则,逐步实现了覆盖常见结构的造字引擎。
在编辑器中造字
由于造字是基于IDS的,所以它天然就具有汉字的组成信息,因此用户“造”出来的字经平台审核通过后也可以使用上述的拼字输入法搜索出来,实现相互联动。
在编辑器中拼字搜索之前造过的字
就像识典古籍研发团队说的那样,编辑器搜字、造字、复制字图功能就像一个“万能积木”,让古籍整理这项传承文明的事业不会因为“字”而被阻碍,而让团队自豪的是,当看到自己设计的造字工具能生成古籍中千变万化的字形,甚至一些早已遗失在历史中的字体重现屏幕时,“一种跨越时空的技术成就感油然而生”。
古籍整理是中国古典学不可或缺的研究基础,也是社会大众继承和发扬传统文化的宝贵资源,同时还是世界理解中华文明的重要途径。根据国家古籍保护中心调查结果显示,我国现存20多万种古籍,存世50万个版本,古籍数量达3200多万册,然而当前古籍整理工作的现状却是数字化程度极低,许多书只是完成了初步的影像扫描,真正实现文本数字化的不到四万种。
之所以会存在这样的困境,专业人才匮乏是首要障碍,目前全国范围内专业从事古籍整理的人员仅有一万人左右。其次是生僻字处理存在技术瓶颈,由于古籍中存在大量异体字、俗体字和避讳字,使得文字识别准确率难以提高。传统OCR技术是为打印材料设计的,面对古书中的不同字体风格、非汉字笔画符号、折痕和破损缺字,识别效果大打折扣。最后是资金与版权的桎梏。
正是在这样的背景之下,字节跳动在2022年10月,与北京大学合作推出了完全公益的古籍智能阅读和整理平台——“识典古籍”,旨在通过技术力量改变传统古籍整理模式。识典古籍初期就整合了三大核心技术——文字识别(OCR),自动标点和实体识别,这意味着机器已经能够初步“读懂”古文。
根据官方公布的数据,识典古籍平台在数万名来自高校、社会及字节跳动员工的古籍整理志愿者共同努力下,现已经免费公开3万余部古籍,每月有超240万用户访问量。在2025年底,将发布4万部古籍面向公众开放。
识典古籍的价值不仅仅提高了古籍专业研究人员的工作效率,更是通过技术手段降低了古籍整理的门槛,使公众参与成为可能。同时,古籍数字化的价值远远超出了保护本身,它让古籍内容变得更加可用、易懂,为文化传承和创新提供了基础。全国高等院校古籍整理研究工作委员会副秘书长吴国武教授在接受媒体采访时曾表示,“古籍相当于先人的知识体系,将经典智慧为现代人所用,是非常重要的任务”,数字化后的古籍可以被更容易地检索、分析和利用,为学术研究提供支持。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。