甲骨文是迄今为止中国发现的年代最早的成熟文字系统, 但是甲骨文的研究却有不小的难度。近期,厦大研究团队使用AI大模型技术探索甲骨文考释新途径。目前,这一项目已入选由国家文物局指导的“探元计划2024”前十榜单。
甲骨文距今已有三千多年历史,是世界四大古文字之一,也是现代汉字的根脉。传统的破译工作,需要研究者在卜辞原文和古书之间反复比对验证,甲骨文又往往一字多义,可参考的史料极少。目前已知的近5000个甲骨字,得到破译的不到三分之一。为此, 厦门大学信息学院史晓东教授团队着手尝试“古文字+人工智能”的跨界研究,耗时七年多,研发出了甲骨文输入法。
厦门大学信息学院教授 史晓东:从来的“从”,两个“人” ,这个就变成北了,两个人相背,这样背靠背就是“北”。
只需要输入一个甲骨文的偏旁部首,系统就会自动搜索到包含这一偏旁部首的所有甲骨字及其字形结构、意义、用法等。不仅如此,该系统还可以查询卜辞原文、推算近似字,就像一本便携、多功能的甲骨文“线上字典”,可以减少研究者查阅文献的时间,提高研究效率。
在此基础上,最近,史晓东教授团队又有了新的研究计划——“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”。该模型将此前使用的专用模型,替换为拥有更强语义理解能力和表达能力的多模态大模型。未来,他们将给AI“投喂”更多甲骨文卜辞、金文、大篆、小篆等汉字数据,训练多模态大模型进行深度学习,得到更多的汉字推演结果。
厦门大学信息学院教授 史晓东:原来都是孤立字的破解,其实一个字,应用在很多上下文,它们都是语境相关的,所以我们也想利用这方面的信息,来建立更好的模型,来加快甲骨文的破解。
记者了解到,项目将综合甲骨文的字形结构、语义关联、同音通假和聚类分析,开发出一套更加轻量的考释系统,未来,使用这套系统,不单可以手动输入查询,甚至还可以上传图片“一键识图 ” ,AI将给出卜辞原文和汉字候选结果,方便学者对照研究。
来源:厦门广电网