人民網
人民網>>江蘇頻道>>社會

南京大學“數智項目”讓AI讀懂甲骨文

2025年05月18日07:56 |
小字號

原題:南大“數智項目”讓AI讀懂甲骨文

眾多文科項目迎來“數字新生”

5月16日,南京大學舉辦“數智賦能中華文明研究”成果展示會,人工智能古文字析解模型、中國思想家大模型、中華古城數字圖譜工程項目等一批階段性成果集中亮相。在人工智能(AI)的助力下,甲骨文破譯、多民族文獻翻譯、古城保護等項目紛紛迎來“數字新生”。

大數據模型教會AI析解古文字

甲骨文等先秦文字的解讀門檻極高,不僅文字資料浩如煙海,且不少是零散殘缺的。大部分甲骨文字形無法通過字符檢索的方式直接檢索。“對於古文字學者而言,在其有生之年能考証出一個疑難的古文字,都是了不起的成就。”南大文學院助理研究員聶菲表示,人工智能技術的發展,讓古文字學科迎來新的發展機遇,或許能對古文字學研究起到推動作用。

聶菲所在的“人工智能析解古文字”團隊,通過訓練AI捕捉人類專家書寫古文字的動態路徑數據,搭建模型,訓練機器像人一樣“思考”和理解古文字,從而解決傳統識別方法的困境。“古文字因載體多樣、時代跨度大,傳統圖像識別技術面臨識別困難的瓶頸,識別工具遇到未訓練過的字便會‘罷工’。於是我們在想,能不能讓計算機像人類一樣理解古文字的構形邏輯,這正是破解千年文字密碼的關鍵一步。”

南大文學院古文字強基計劃的優秀學生們,成了團隊的最好助力。“我們邀請同學們手寫古文字基礎構件,計算機記錄筆順、筆勢等動態數據,目前已錄入萬余條字形書寫數據,讓計算機能夠成功模仿人類書寫的筆勢、筆順和大致輪廓,未來將在筆畫識別的准確性、位置關系等問題上做進一步探索。”

眼下,聶菲和團隊的師生們正在搭建模型。她現場展示了機器寫字的案例。例如古文字“牢”字,就像是一頭牛被圈養在圍欄中,而模型能精准復現“先寫牛頭,再畫圍欄”的筆順,“成果說明,計算機已能成功模仿人類書寫的筆勢、筆順和大致輪廓,基礎構件的識讀已初見成效,但在筆畫識別的准確性、底層算法創新等問題上,仍有很大的進步空間。”

多民族文獻翻譯效率大大提升

在數智技術浪潮中,南大團隊正在推進多民族文獻智能處理功能,賦能數智人文時代歷史研究新生態。

“長期以來,歷史研究面臨三重文獻使用困境。”南京大學歷史學院准聘助理教授金伯文的經歷,讓眾多學者感同身受,“其一,低質量文獻的認讀焦慮——如掃描模糊的手稿、磨損嚴重的古籍,傳統工具常因識別率低導致信息缺失﹔其二,跨語種文獻的處理門檻——歷史學者難以掌握多語言技能,所以當面對小語種文獻時往往手足無措﹔其三,海量文獻的檢索困境——傳統關鍵詞檢索難以精准匹配語義,導致核心議題相關文獻的篩選效率低下。”

“大語言模型為破解這些難題提供了可能。”金伯文介紹,團隊開發的數智多語種文獻處理平台,基於大模型、增強識別技術,提升模糊手稿、破損古籍的識別率,同時支持多語種文獻翻譯,還可以自動擴展語種關鍵詞,支持跨語種檢索。

在他的演示下,一份清光緒年間的地契,被准確識別了出來。在語種方面,即使是波斯語、越南語等小語種,都能進行高效翻譯。

南京大學鑄牢中華民族共同體意識研究基地首席專家華濤教授表示,在中國民族史研究的多民族、多語種的中古史料中,大家應探索如何利用AI技術去輔助多語言資料的閱讀、掌握、理解和分析。數智文獻處理平台下一步可以加上更多非西方語言的開發,比如藏文、蒙古文、滿文等民族語言和阿拉伯-波斯等東方語言。

數字圖譜守護古城“記憶肌理”

南京大學地理與海洋學院副教授陳剛團隊意識到,隨著城市建設速度加快,舊城面貌變化巨大,老城格局與歷史建筑風貌區難以識別,老城和歷史建筑保護迫在眉睫。團隊自去年啟動“中華古城數字圖譜建設工程”,開展中華古城歷史地理信息基礎平台建設,構建“一城一圖”的全國古城數字檔案。

“通過影像對比,解碼上世紀六十年代至今城市空間的變遷。”陳剛展示了北京王府井東方廣場1966年和如今的影像對比,高分辨率影像可清晰識別街巷等細微結構。團隊通過遙感影像、衛星地圖、現場走訪等方式,摸排清楚各地古城的地形地勢、路網分布、城市布局等情況,並依照相關信息繪制文化地圖。

用數智技術激活文明基因

“這是一場以數智技術為舟楫、以文明傳承為航向的時代對話。”南京大學中華民族現代文明研究院院長姚遠感慨,研究院以國家戰略需求為導向,肩負起解碼中華文化基因、構建數智時代文明研究新范式的使命。例如,主動對接第四次全國文物普查與全國老城專項調查,為文化遺產保護提供數智支撐,推動中華文明國際傳播。

南京大學黨委副書記陳雲鬆表示,南大打破學科壁壘,將人工智能、大數據等技術嵌入文明研究的核心領域,將技術創新與文化傳承有機結合。“從甲骨文的千年密碼到AI模型的智能解析,以科技之光照亮文明之源,以創新之力賡續中華文脈。”

來源:揚子晚報

(責編:耿志超、李闊)

分享讓更多人看到

返回頂部