人工智能的发展,正在让古籍阅读愈发轻松便利。近日,由字节跳动研发的“识典古籍”数字化平台上线智能助手功能,支持用户以“问AI”的方式,获得古文语句翻译、全文内容总结、可供参考的研究等回答,从而提升古籍查阅效率。这成为大语言模型技术在古籍数字化以及公益领域应用的一个创新案例。
2022年3月,字节跳动向北京大学教育基金会进行捐赠,支持“北京大学—字节跳动数字人文开放实验室”。字节跳动依托在OCR(光学字符识别)、自然语言处理、知识图谱等技术领域的经验积累,以及互联网产品设计与研发优势,探索借助人工智能提高古籍修复、整理工作效率。当年10月,由该实验室研发的古籍数字化平台——“识典古籍”上线,收获了许多文史爱好者与研究者的正面反馈与支持。
截止目前,该平台对社会免费开放的古籍超过了2900部,其提供的分词检索、图文对照、字典释义等功能,让普通人也能轻松阅读古籍文献。随着该平台上线的古籍数量越来越多,如何让用户更加高效便捷地找到自己需要的资料来源,成为一大问题。为此,字节跳动基于大语言模型技术,开发了古籍智能助手功能。
通过大语言模型技术,古籍智能助手可以和用户进行自然地对话和交流。比如用户提问“古人是如何说梦的?”“我想找跟北京相关的古籍。”智能助手会通过语义检索“识典古籍”的资料库,给出解答,直接在回答中显示引用的参考资料和原文链接。据悉,此类技术应用在古籍检索及阅读领域,目前并没有先例。
据“识典古籍”产品负责人王宇介绍,对于根据用户意图判断该使用什么样的检索工具,如何优化提供上下文的内容,该团队花了不少精力。比如,从古籍数据库里检索古籍资料,为了让用户获得的上下文更加相关,在关键词检索之外,研发团队也开发了语义检索,让智能助手在回答时能参考到文字不一样但含义相关的相关古籍段落。
由于大语言模型生成式的特点,人工智能的回答产生错误或者“幻觉”是不可避免的。针对这个问题,古籍智能助手使用了检索增强生成技术,要求大模型根据从数据库和字典中检索到的可靠资料作答,一定程度上限制大模型产生“幻觉”。同时,也会在界面上提示用户:“内容由AI生成,使用前请注意查证。”
“古籍智能助手的定位是提升查阅古籍的效率,它代替不了专业的学术判断和阅读积累,但我们希望它能为使用古籍及阅读工具的人节约时间、开拓新的思路。”王宇表示,因为是一个创新性功能,古籍智能助手目前还有一定的实验性,但字节跳动决定将其免费开放给公众使用,一方面是希望用户能够多使用、多反馈,为后续优化提供更多建议,另一方面也是希望通过实践和应用来打磨出更好的产品。
据了解,下一步,“识典古籍”研发团队将有计划地为古籍智能助手开发更多的工具。除此之外,该团队还将继续提升AI在古籍整理等领域的应用,希望能够整理和校对更多的古籍,并将其数字化,促进古籍资源的高效利用,让平台在文化传承中发挥更大的作用。