崔向雨:高質量數據集是“數據要素×”“人工智能+”行動的“焊接點”
11月3日,由全國數據標准化技術委員會(以下簡稱“全國數標委”)主辦,全國數標委秘書處(中國電子技術標准化研究院)和江蘇省數據局承辦的全國數標委2025年第二次“標准周”活動在江蘇省南京市舉行。
活動期間,北京海天瑞聲科技股份有限公司副總裁、全國數標委委員崔向雨就“人工智能數據產業發展與高質量數據集構建路徑”議題進行了分享。

崔向雨在WG2數據治理標准工作組會議上發言。人民網記者 馬曉波攝
崔向雨介紹,人工智能大模型發展對高質量數據集要求是“更高更新”,全球相關研究機構數據顯示,過去15年間人工智能模型訓練數據集需求量每年以250%的速度增長。中國高度重視數據產業發展和高質量數據集的建設工作,發布了一系列支持數據產業和高質量數據集建設的政策文件。據不完全統計,全國有20多個省市積極培育和發展數據標注產業,為地方數字經濟發展提供新動能。“高質量數據集已是‘ 數據要素×’和‘人工智能+’行動的‘焊接點’。”
崔向雨認為,作為“人工智能+”行動落地的基礎支撐能力之一,高質量數據集建設應遵循總體規劃、分步實施、先易后難、先簡后繁的原則,要以工程化思維推動高質量數據集建設的智能化和平台化,生產流程上應包括結構設計、數據採集、存儲傳輸、加工標注、質檢審核、運營服務等6個步驟。從供給側挖掘數據價值、需求側支撐人工智能創新發展同時發力,錨定高質量數據集建設助推人工智能+行動落地。
“隨著數據要素市場培育加快,數據標注產業逐漸受到關注和重視。”崔向雨說,狹義上看,數據標注是指對未經處理的原始數據通過分類、標記、注釋等技術手段,對未經處理的文本、語音、圖像、視頻等數據進行添加說明、解釋分類或編碼並轉換為機器可識別信息的過程,為機器學習提供訓練數據集。整體上看,數據標注是一項工程化的解決方案。涵蓋數據生產的整個流程包括數據設計、數據採集、數據清洗、數據標注、數據質檢、數據驗收等所有環節。
根據《關於促進數據標注產業高質量發展的實施意見》,數據標注產業已成為對數據進行採集、篩選、清洗、分類、注釋、標記和質量檢驗等加工處理的一大新興產業。
分享讓更多人看到
- 評論
- 關注
































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量