人民網
人民網>>江蘇頻道

AI訓練數據成了搶手貨 全國首筆交易在南京完成

人民網記者 馬曉波
2025年12月30日07:10 | 來源:人民網-江蘇頻道
小字號

在江蘇箸境智能科技有限公司數據採集室內,工作人員輕輕彎肘、抬臂、向前抓取——每一個基礎動作,都被實時同步給一旁的機器人,轉化為一條條結構化的數據。這些數據包含視頻、關節角度與力矩參數,如同給機器注入了“肌肉記憶”。

近日,由這些數據匯聚而成的“具身智能數據集”在江蘇省數據交易所上架並完成交易,實現全國范圍內具身智能數據集數交所交易的“零突破”。產品上架即售出的背后,折射出人工智能產業正從“模型驅動”邁向“數據驅動”的深刻轉型。

這場靜默的數據交易,不僅標志著“具身智能數據”要素市場化邁出關鍵一步,也引出一個核心議題:當AI深度融入真實世界,什麼樣的數據才算“高質量”?誰願意為它買單?

在工作人員操控下,機器人練習抓、取、放等技能。人民網記者 馬曉波攝

在工作人員操控下,機器人練習抓、取、放等技能。人民網記者 馬曉波攝

數據筑基:從“手把手教”到“精准執行”

成立僅4個多月的江蘇箸境智能科技有限公司位於南京市玄武區,辦公節奏處於高速運轉狀態。在數據採集室中,機器人正用水瓶、抹布等物品反復練習抓、取、放等基礎家政動作。記者嘗試穿戴操作設備控制機器人疊放毛巾,才發現讓機器“精准疊好”並非易事——毛巾不時從機械指縫滑落,這雙“靈巧手”也像人類一樣,正通過持續學習和吸收數據不斷成長。

“這就像教幼兒園孩子寫字,需要老師手把手引導。機器人同樣需要人類的貼身‘指導’。”技術員王煊解釋道。機器人每完成一次任務,就產生一筆數據,而它對訓練數據的需求極大,通常需達到數萬條規模。數據量越大、覆蓋場景越全,模型的執行精度就越高。

此次完成交易的具身智能數據集,包含約2.5萬條結構化數據,覆蓋辦公、商超、餐飲、家政四大場景。每條數據時長約10秒,容量從幾十MB到上百MB不等,不僅包含機器人“視角”的實時畫面,還完整記錄了執行過程中各關節的電流、角度、力矩等參數,並附帶任務指令,結構清晰、可直接用於模型訓練。

“我們提供的,是經過深度清洗、嚴密標注的‘高濃度養分’。”王煊說,企業直接採購這類數據,省去了從零搭建採集環境、反復調試數據的漫長周期,大幅降低了試錯成本與不確定性,讓買方能以更高起點、更快速度推進AI模型在復雜環境中的能力迭代。

生態聚合:為何“高質量數據”成競爭焦點?

“高質量數據產品正成為市場競逐焦點,具備高價值應用、高知識密度與高技術含量的‘三高’特征。”江蘇省數據交易所相關負責人表示。在算法逐漸開源、算力持續擴容的背景下,數據集已成為AI模型迭代的核心燃料,更是AI與實體經濟深度融合不可或缺的基礎支撐。

江蘇大模型發展服務基地落地玄武。玄軒攝

江蘇大模型發展服務基地落地玄武。玄軒攝

作為數據要素資源大省,江蘇早在2023年就推出專項行動,從供需兩側精准發力:編制重點領域建設指南與數據標注產業圖譜,推進數聯網與可信數據空間試點,搭建公共服務平台,培育中小企業,精准對接供需。

南京市玄武區作為中國軟件名城的核心區,正著力構建數據要素產業生態,運營基礎設施,開展市場啟蒙與服務。截至2025年10月底,江蘇已在醫療、交通、工業、能源、文旅等重點領域形成321個高質量數據集,數據總規模超93PB——這一體量相當於9300萬部2小時時長的電影。

未來路徑:標准化、場景化、生態化​

面向未來,高質量數據集應“如何建”?標准化被視為關鍵路徑。玄武區通過落地江蘇國際數據港、江蘇省數據交易所、玄武大模型工廠等關鍵載體,成為數據要素流通的“核心樞紐”。

今年7月在數據港注冊成立的江蘇傳古科技有限公司,已在江蘇數交所上架一款兒童腸道菌群數據集並完成交易。“這些數據將用於改良益生菌飲料,其跨界價值可能連數據源頭方都未曾預料。”企業負責人趙博感慨道。這也揭示了AI發展的核心邏輯:未來的競爭力,源於數據與產業場景的深度融合與價值再造。

2025“數智未來”高質量數據集開發者創新大賽即將在南京舉行。玄軒攝

2025“數智未來”高質量數據集開發者創新大賽即將在南京舉行。玄軒攝

今年11月,全國數據標准化技術委員會“標准周”活動在南京舉行。國家數據局政策和規劃司負責人欒婕指出,標准化是銜接數據資源與實際應用的關鍵橋梁。

中國電子技術標准化研究院副院長范科峰透露,全國數標委已發布4項高質量數據集系列技術文件,旨在解決當前建設中的突出問題。

頂層設計也已同步明確。國家數據發展研究院院長胡堅波透露,我國正按照“1+3+5+N”思路推進高質量數據集建設:依托1個管理服務平台,從3個層次推進基礎設施化,通過5類建設主體,以N個典型場景為牽引,聚焦重點行業打造高質量數據集。

作為上述藍圖的前沿實踐,由南京市數據局、玄武區政府主辦的“數智未來”高質量數據集開發者創新大賽即將啟動。據主辦方相關負責人介紹,大賽將設醫療健康、能源管輸、衛星遙感、工程機械、鋼鐵行業五大專業賽道,以賽促建、以賽促用、以賽促生態,推動高質量數據集從“零散建設”轉向“體系化供給”。

從首筆具身智能數據交易的落地,到標准化體系的加速構建,江蘇正以數據為切口,探索一條數據要素價值釋放的可行路徑。當機器人逐步學會“疊毛巾”“抓水瓶”,當數據成為AI走進現實的“語言”,一場由數據驅動的智能革命,正在悄然成型。

(責編:龔世俊、李闊)

分享讓更多人看到

返回頂部