南京大学“数智项目”让AI读懂甲骨文

原题:南大“数智项目”让AI读懂甲骨文
众多文科项目迎来“数字新生”
5月16日,南京大学举办“数智赋能中华文明研究”成果展示会,人工智能古文字析解模型、中国思想家大模型、中华古城数字图谱工程项目等一批阶段性成果集中亮相。在人工智能(AI)的助力下,甲骨文破译、多民族文献翻译、古城保护等项目纷纷迎来“数字新生”。
大数据模型教会AI析解古文字
甲骨文等先秦文字的解读门槛极高,不仅文字资料浩如烟海,且不少是零散残缺的。大部分甲骨文字形无法通过字符检索的方式直接检索。“对于古文字学者而言,在其有生之年能考证出一个疑难的古文字,都是了不起的成就。”南大文学院助理研究员聂菲表示,人工智能技术的发展,让古文字学科迎来新的发展机遇,或许能对古文字学研究起到推动作用。
聂菲所在的“人工智能析解古文字”团队,通过训练AI捕捉人类专家书写古文字的动态路径数据,搭建模型,训练机器像人一样“思考”和理解古文字,从而解决传统识别方法的困境。“古文字因载体多样、时代跨度大,传统图像识别技术面临识别困难的瓶颈,识别工具遇到未训练过的字便会‘罢工’。于是我们在想,能不能让计算机像人类一样理解古文字的构形逻辑,这正是破解千年文字密码的关键一步。”
南大文学院古文字强基计划的优秀学生们,成了团队的最好助力。“我们邀请同学们手写古文字基础构件,计算机记录笔顺、笔势等动态数据,目前已录入万余条字形书写数据,让计算机能够成功模仿人类书写的笔势、笔顺和大致轮廓,未来将在笔画识别的准确性、位置关系等问题上做进一步探索。”
眼下,聂菲和团队的师生们正在搭建模型。她现场展示了机器写字的案例。例如古文字“牢”字,就像是一头牛被圈养在围栏中,而模型能精准复现“先写牛头,再画围栏”的笔顺,“成果说明,计算机已能成功模仿人类书写的笔势、笔顺和大致轮廓,基础构件的识读已初见成效,但在笔画识别的准确性、底层算法创新等问题上,仍有很大的进步空间。”
多民族文献翻译效率大大提升
在数智技术浪潮中,南大团队正在推进多民族文献智能处理功能,赋能数智人文时代历史研究新生态。
“长期以来,历史研究面临三重文献使用困境。”南京大学历史学院准聘助理教授金伯文的经历,让众多学者感同身受,“其一,低质量文献的认读焦虑——如扫描模糊的手稿、磨损严重的古籍,传统工具常因识别率低导致信息缺失;其二,跨语种文献的处理门槛——历史学者难以掌握多语言技能,所以当面对小语种文献时往往手足无措;其三,海量文献的检索困境——传统关键词检索难以精准匹配语义,导致核心议题相关文献的筛选效率低下。”
“大语言模型为破解这些难题提供了可能。”金伯文介绍,团队开发的数智多语种文献处理平台,基于大模型、增强识别技术,提升模糊手稿、破损古籍的识别率,同时支持多语种文献翻译,还可以自动扩展语种关键词,支持跨语种检索。
在他的演示下,一份清光绪年间的地契,被准确识别了出来。在语种方面,即使是波斯语、越南语等小语种,都能进行高效翻译。
南京大学铸牢中华民族共同体意识研究基地首席专家华涛教授表示,在中国民族史研究的多民族、多语种的中古史料中,大家应探索如何利用AI技术去辅助多语言资料的阅读、掌握、理解和分析。数智文献处理平台下一步可以加上更多非西方语言的开发,比如藏文、蒙古文、满文等民族语言和阿拉伯-波斯等东方语言。
数字图谱守护古城“记忆肌理”
南京大学地理与海洋学院副教授陈刚团队意识到,随着城市建设速度加快,旧城面貌变化巨大,老城格局与历史建筑风貌区难以识别,老城和历史建筑保护迫在眉睫。团队自去年启动“中华古城数字图谱建设工程”,开展中华古城历史地理信息基础平台建设,构建“一城一图”的全国古城数字档案。
“通过影像对比,解码上世纪六十年代至今城市空间的变迁。”陈刚展示了北京王府井东方广场1966年和如今的影像对比,高分辨率影像可清晰识别街巷等细微结构。团队通过遥感影像、卫星地图、现场走访等方式,摸排清楚各地古城的地形地势、路网分布、城市布局等情况,并依照相关信息绘制文化地图。
用数智技术激活文明基因
“这是一场以数智技术为舟楫、以文明传承为航向的时代对话。”南京大学中华民族现代文明研究院院长姚远感慨,研究院以国家战略需求为导向,肩负起解码中华文化基因、构建数智时代文明研究新范式的使命。例如,主动对接第四次全国文物普查与全国老城专项调查,为文化遗产保护提供数智支撑,推动中华文明国际传播。
南京大学党委副书记陈云松表示,南大打破学科壁垒,将人工智能、大数据等技术嵌入文明研究的核心领域,将技术创新与文化传承有机结合。“从甲骨文的千年密码到AI模型的智能解析,以科技之光照亮文明之源,以创新之力赓续中华文脉。”
来源:扬子晚报
分享让更多人看到
- 评论
- 关注