中國網(wǎng)4月1日訊(記者 劉佳)20世紀中文信息處理技術(shù)解決了漢字進(jìn)電腦、上網(wǎng)絡(luò )的歷史性問(wèn)題,迎來(lái)從“鉛與火”到“光與電”的革命。時(shí)至今日,人工智能技術(shù)快速發(fā)展,中國如何加強數字中文建設,從而推動(dòng)中文信息處理技術(shù)創(chuàng )新發(fā)展?
在教育部3月31日舉行的新聞發(fā)布會(huì )上,中國網(wǎng)記者就此提問(wèn)北京大學(xué)王選計算機研究所所長(cháng)湯幟。他認為,要聚焦關(guān)鍵垂直領(lǐng)域建設語(yǔ)料基礎設施,構建支持大模型訓練的高質(zhì)量中文數據集,同時(shí)形成“技術(shù)突破—場(chǎng)景落地—生態(tài)繁榮”的良性循環(huán)。
中國網(wǎng)記者現場(chǎng)提問(wèn)。中國教育報記者 張勁松/攝
20世紀80年代,王選院士的團隊發(fā)明激光照排技術(shù),并結合漢字的編碼標準,突破了中文數字化的空間限制,讓承載中華文化的中文在全球互聯(lián)網(wǎng)空間獲得新生。當前,大語(yǔ)言模型技術(shù)對大規模高質(zhì)量語(yǔ)料提出前所未有的需求,賦予了數據中文化新的歷史內涵和使命任務(wù)。中文信息處理技術(shù)的發(fā)展從以往解決漢字輸入輸出的基礎性問(wèn)題,進(jìn)階到當先釋放語(yǔ)言文字數據要素價(jià)值的全方位突破。
湯幟認為,加強數字中文建設需從三個(gè)維度重塑發(fā)展格局,推動(dòng)中文信息處理技術(shù)發(fā)展進(jìn)入新階段:即從重要資源轉化到數據要素價(jià)值;從廣泛存在聚焦到關(guān)鍵領(lǐng)域應用;從基礎支撐提高到賦能全局發(fā)展。
湯幟表示,新形勢下,語(yǔ)言文字將實(shí)現從“靜態(tài)符號”向“動(dòng)態(tài)數字資產(chǎn)”,從“信息載體”向“生產(chǎn)要素”的轉型,要重點(diǎn)推動(dòng)語(yǔ)料庫、數據標注與評價(jià)等標準的研制,支持文本生成與理解、語(yǔ)言翻譯、情感分析等各種任務(wù)。
語(yǔ)言文字“日學(xué)而不察、日用而不覺(jué)”,廣泛存在于社會(huì )生產(chǎn)各個(gè)方面。新形勢下,語(yǔ)言文字將實(shí)現從符號存儲到智能建模的質(zhì)變,要聚焦關(guān)鍵垂直領(lǐng)域建設語(yǔ)料基礎設施,構建支持大模型訓練的高質(zhì)量中文數據集。
當前,人工智能技術(shù)發(fā)展迅速,語(yǔ)言文字信息處理技術(shù)創(chuàng )新應用正經(jīng)歷從“GB2312字符集”到“萬(wàn)億參數大語(yǔ)言模型”的范式變革。湯幟強調,新形勢下,語(yǔ)言文字將實(shí)現與信息技術(shù)的深度融合,要形成“技術(shù)突破—場(chǎng)景落地—生態(tài)繁榮”的良性循環(huán),打造數字化引領(lǐng)品牌,有力服務(wù)教育發(fā)展、助力科技創(chuàng )新、賦能文化傳承、推動(dòng)產(chǎn)業(yè)升級、促進(jìn)社會(huì )進(jìn)步。
編審:張艷玲 王月博
出品人:王曉輝
總監制:薛立勝
監制:蔡曉娟
制片人:王月博
主編:劉佳
編輯:韓雅潔 孫曉彤 仝選
技術(shù)支持:王岳
頁(yè)面設計:顧榕楠 張宇彤
推廣:王濤 倪靜靜 ?,?張運興 劉倩
《向Youngπ》系列可視化產(chǎn)品將聚焦中外“Z世代”群體,以青年的視角認識中國道路,以青年的思想理解中國的立場(chǎng),以青年的語(yǔ)言講好中國故事,為促進(jìn)人類(lèi)進(jìn)步事業(yè)提供新動(dòng)力。
聯(lián)系方式:86-10-88828193
86-10-88828221
電子郵件:caifang2024@126.com