激活“沉睡”的萬億級數據,難在哪裡?
隨著人工智能產業蓬勃發展,數據作為關鍵生產要素的價值日益凸顯。據國家數據發展研究院數據,2024年全國數據產業規模達5.86萬億元,這片“萬億富礦”正成為數字經濟發展的新增長點。
不過,原始數據要轉化為驅動AI的“智能燃料”,必須經過高質量數據集的系統提煉。當前,數據集建設正面臨標准不一、加工低效、流通不暢等諸多難題。
11月3日,全國數據標准化技術委員會(以下簡稱“全國數標委”)2025年第二次“標准周”活動在江蘇省南京市舉行。活動期間,政府、科技企業與科研院所等多方代表聚焦數據產業發展關鍵領域,共同探討了高質量數據集建設的瓶頸和未來發展方向。

11月3日,全國數標委2025年第二次“標准周”活動在南京舉行。人民網 李昱辰攝
“萬億富礦”成色如何?
數據之於大模型,如同石油之於工業。海量原始數據需經系統“提純”,形成高質量數據集,才能有效驅動人工智能模型的優化升級。
國家數據局有關司局負責人表示,建設高質量數據集是推動人工智能創新發展、激活數據要素價值的關鍵舉措。當前,人工智能對高質量數據集的需求呈現從基礎認知、場景理解到行動規劃逐層遞進的態勢,本質是讓數據的供給精度追上人工智能的應用深度。
近年來,我國高質量數據集建設已成效初顯。國家數據局公開數據顯示,截至今年9月底,全國高質量數據集總體量超500PB﹔7個數據標注基地引進和培育標注企業362家,從業人員達8.5萬人,帶動數據標注相關產值163億元。
全國數標委委員、烽火通信戰略研究院院長陳剛表示,國家數據基礎設施建設是數字經濟時代的基石。“目前,我國可信數據空間已覆蓋20個行業領域、4個城市治理領域及900多個應用場景。”
市場的熱度在供需對接會上可見一斑。11月5日召開的全國高質量數據集和數據標注產業供需對接大會上,90余項合作項目達成,累計交易金額突破9億元,展現出數據要素市場的蓬勃活力。

全國高質量數據集和數據標注產業供需對接大會現場。人民網 劉益佳攝
“掘金”之路“卡”在何處?
盡管前景廣闊,但高質量數據集從實驗室走向產業應用的“最后一公裡”仍障礙重重。
日常工作中,南京市建鄴區數據局局長孫偉深切地感受到數據企業對於統一標准的渴望:“他們在收集、加工數據的過程中耗費了不少資源和精力,數據要素實現‘供得出、流得動、用得好、保安全’的前提是定標准。有了統一標准,更有利於集中發力挖掘數據價值。”
國家數據發展研究院院長胡堅波將核心挑戰概括為三點:應用導向不明、建設標准不統一、管理服務支撐缺位。“一些項目在建設前缺乏充分調研,脫離實際應用場景,建成后難以流通﹔部分數據集因機制、安全等因素‘層層加碼’,進一步限制了流通應用。”

胡堅波在全國高質量數據集和數據標注產業供需對接大會上發言。人民網 劉益佳攝
目前,標准缺失導致的數據“孤島”問題尤為突出。全國數標委委員,中國聯合健康醫療大數據有限責任公司執行董事、總經理陳曦表示,企業迫切希望從市場最急需的標准入手,通過行業標准與通用標准相結合,實現“1+1>2”的效果。
數據流通安全、配套支撐設施薄弱、生態建設緩慢等,也讓建設方與使用方均感到對接困難。
全國數標委委員,螞蟻集團副總裁、螞蟻密算科技有限公司董事長韋韜認為,傳統基於主體信任的數據安全體系已難以適應發展需求,安全風險成為數據供給與流通利用的首要顧慮。“數據匯聚安全合規風險高,導致行業普遍不敢供、不願供、不會供﹔同時,海量個人數據匯聚帶來的法律責任重大,安全事件頻發。”
蘇州柏川數據科技有限公司副總經理朱丹提到,數據生產正面臨採集能力滯后與存儲成本高的雙重挑戰。“一方面,傳感器發展滯后影響數據採集的廣度,具身智能所需的嗅覺、味覺等數據目前無法有效獲取﹔另一方面,隨著數據爆發式增長,如何降低存儲成本也是個重要課題。”
在資源應用領域,數據安全與合規性挑戰同樣不容忽視。上海庫帕思科技有限公司首席執行官黃海清提出:“當前合規監管機制不健全,數據版權存在爭議,企業甚至可能面臨‘數據投毒’威脅。”
所謂“數據投毒”,通俗來說,把AI比喻成人類,訓練數據就相當於食材,食材腐敗變質,最終訓練出來的AI模型就會出現認知誤差。有研究顯示,當訓練數據中混入0.01%的虛假文本時,大模型有害輸出率便會上升11.2%。
在醫療、金融等敏感領域,數據可用性與隱私安全的矛盾更為突出。江蘇省人民醫院副院長劉雲坦言,醫院雖有豐富的醫療數據,但合理使用數據的難度不亞於“走鋼絲”,“我們通過AI數據治理平台推進數據自動清洗,基於數據分類分級開展數據脫敏,但想要實現進一步共享還需要更多實踐。”

共建醫療健康高質量數據集產業基地合作簽約。主辦方供圖
如何破局?
面對多重挑戰,專家認為,破解“變現難”還需依托清晰的頂層設計、積極的政策補位與創新的技術實踐。
“江蘇數據交易所通過政府引導與市場機制相結合,構建起‘1+13’數據工作體系,實施‘359’區域數據運營方案,積累了區域一體化數據市場建設經驗,提供了江蘇的新范式。”江蘇數據交易所總經理韋志林介紹,江蘇公共數據授權運營採取“兩級主體、分級授權”模式,加快了公共數據資源的開發利用。
胡堅波提出“1+3+5+N”建設思路:依托一個管理服務平台,圍繞社會、重點行業與創新生態三大層面,聯動五類建設主體,實現N個典型場景的價值牽引。
目前,標准建設正在提速。全國數標委秘書處、中國電子技術標准化研究院副院長范科峰介紹,全國數標委已面向社會公開征集6個重點方向的標准驗証試點單位,在300余家單位開展了試點,形成了一批覆蓋能源、醫療、金融、政務等十余行業的典型案例。
數據是一項新業務,需要在不斷的實踐中探索出一條可行路徑。“安全是前提,但不能因過度強調安全而阻礙發展。”與會一名知名學者建議,應建立國家技術標准與免責機制,為數據流通提供“免責盾牌”,鼓勵醫院、政府等主體釋放更優質的數據資源。
出門問問創新科技有限公司首席技術官孫鵬飛提出了“產模結合”模式,“一方面,通過產品數據反哺大模型訓練,另一方面,能借助大模型增強產品競爭力,形成商業閉環。”

任奎在WG2數據治理標准工作組會議上發言。人民網記者 馬曉波攝
防范“數據投毒”,全國數標委委員、浙江大學計算機學院院長任奎建議,構建多元維度融合、安全價值對齊、越獄攻防強化的安全訓練語料,為AI模型注入內生安全基因。
據介紹,目前,浙江大學已與華為聯合發布DeepSeek-R1-Safe基礎大模型,在有害內容防御方面表現亮眼。
展望未來,2025年數據安全發展大會預測,到2030年我國數據產業規模將達7.5萬億元。當精准的供需對接成為常態,高質量數據集將推動人工智能與千行百業從“物理疊加”升華為“化學共生”。屆時,這片“數據富礦”將釋放更大價值。
分享讓更多人看到
- 評論
- 關注
































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量