全球最大甲骨文多模态数据集宣布开源,它都集合了哪些成果?

全球最大甲骨文多模态数据集宣布开源,它都集合了哪些成果?

00:00
06:28

7月5日,在世界人工智能大会上,“数字甲骨共创中心”宣布将全球最大的甲骨文多模态数据集正式开源。

记者获悉,该数据集包含一万片甲骨的拓片、摹本,以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集,研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法,助推甲骨文研究加速数字化和智能化。

据介绍,数字甲骨共创中心由安阳师范学院、腾讯、中国社会科学院、厦门大学、郑州大学等多家单位共同发起建立,并吸纳了来自国外不少高校和研究机构的专业科研力量支持。

甲骨文是汉字源头,也是迄今为止中国发现的年代最早的成熟文字系统,它记录了商代政治、经济、军事、文化等诸多方面的内容,展示了中华民族的智慧和创造力,为古文字研究和传承、中华文明探源以及中国上古史体系的构建提供了第一手史料。

但甲骨文研究存在众多难点。甲骨自然损坏速度较快,保存、展示、利用不易,且出土甲骨都分散收藏于国内外。同时,甲骨文研究专业门槛高,近7成已发现甲骨文还尚未释读,也急需提升考释效率。近年来,随着AI技术的快速发展,探索AI与甲骨文研究相结合,成为了研究人员的解题思路。

记者从腾讯获悉,高质量的AI算法非常依赖高质量的甲骨文数据集。过往,业界的甲骨文数据集存在信息简陋、标注信息较简单以及单一数据集字数较少等问题,比如检测数据集,只能把字抠出来,不知道字是什么;字符识别数据集,只能认几百个字;因为专业知识缺乏,有些标注信息不完善等。这些也成为了甲骨文智能算法开发的一大掣肘。

此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果。

一方面,该数据集吸收了当前业界最先进的甲骨文研究资料,包括剑桥大学博士秦培超发布的镜元甲骨文字库,该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识;以及清华大学黄天树教授发布的《摹本大系》,得益于其具有大量甲骨片清晰字形,降低了标注的难度。

另一方面,AI相关技术的应用也为数据集的信息丰富提供了支撑。比如由腾讯优图实验室联合安阳团队开发的甲骨字检测模型,可以对甲骨片上的字进行一个初步的标注;字形降噪与匹配模型,为检索提供了最直接的方法;甲骨校重算法,可以实现拓片与大系摹本的配准,使得大系摹本可以直接辅助拓片的标注;同时双方联合打造的协同创新平台,也大大提升了数据标注的效率。

此外,数据集专业复查以甲骨文信息处理实验室的研究生为主力,充分融合了甲骨文知识和机器学习知识的专业知识,也大大提升了数据集在AI算法研究场景下的可用性。

会上,中国社会科学院学部委员宋镇豪表示,甲骨文是中华文明的重要瑰宝,甲骨文研究不仅有助于揭示中国上古信史,还能为现代汉字由来和汉语研究提供标志性依据。通过AI技术的应用,有望加快甲骨文探析进程,解决长期困扰学界的疑难问题。希望更多的科研机构和专家学者加入到这一伟大事业中,共同拓展甲骨文研究工作新天地。

安阳甲骨文信息处理教育部重点实验室负责人刘永革表示,甲骨文的研究对于中华文化的传承和发展具有重要意义。数字化和人工智能技术为甲骨文的破译带来了新的可能性和机遇。

腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声也提到,人工智能正在给包括甲骨文研究在内的科研场景带来新能量,以前所未有的方式推动科研工作的进展。“此次联合数字甲骨共创中心开源全球最大甲骨文多模态数据集,我们期待有更多技术团队能够携手共进,探索人工智能技术在更多场景落地,共同为甲骨文研究提供更多助力。”他说。

据悉,2022年腾讯SSV数字文化实验室、腾讯优图实验室与安阳实验室、厦门大学首度携手,共建甲骨文开放创新平台,用新一代数字科技助力甲骨文考释研究与传承活化,以可持续社会价值创新的方式实现“科技+甲骨文”的共创共益,融合智能化、网络化、数字化的科技理念实现甲骨文考释研究、展示传承、活化利用的模式转型升级。

2024年,合作团队发布了“数字甲骨国际共创计划”,依托“殷契文渊”研究平台和“了不起的甲骨文”活化平台及探元数字文化开放平台,邀请甲骨文相关收藏机构、研究机构、文化机构、教育机构和社会力量等共建共享、共创共益。

以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!