從甲骨文到智能云——以數智之筆繪中文發(fā)展新卷
近日,教育部、國家語(yǔ)委、中央網(wǎng)信辦共同印發(fā)《關(guān)于加強數字中文建設 推進(jìn)語(yǔ)言文字信息化發(fā)展的意見(jiàn)》(簡(jiǎn)稱(chēng)《意見(jiàn)》),對加快推進(jìn)以信息化促進(jìn)語(yǔ)言文字事業(yè)高質(zhì)量發(fā)展,以數字化賦能語(yǔ)言文字更好服務(wù)現代化建設等作出了全面部署。
當敦煌藏經(jīng)洞的千年文書(shū)在數字世界中蘇醒,甲骨文的刻痕以數據躍動(dòng)永駐云端……數字中文,正以代碼為筆、算法為墨,在虛實(shí)交織中聯(lián)結過(guò)去與未來(lái)。
數智賦能語(yǔ)言文字高質(zhì)量發(fā)展
語(yǔ)言文字“日學(xué)而不察、日用而不覺(jué)”,廣泛存在于社會(huì )生產(chǎn)各個(gè)方面。
如今,中國已建成世界最大的規模語(yǔ)言資源庫和中國語(yǔ)言資源知識圖譜,集成120多種語(yǔ)言和方言資源。今年,全國語(yǔ)言文字使用情況調查將首次實(shí)施,打造集數據采集、傳輸、存儲、加工一體的集成化調查平臺,為深化教育綜合改革和綜合國力分析提供大數據支撐。
為加快推進(jìn)語(yǔ)言文字信息化,《意見(jiàn)》提出,將數字中文建設作為服務(wù)數字中國建設的重要任務(wù)和全面推進(jìn)語(yǔ)言文字信息化發(fā)展的突出重點(diǎn),著(zhù)力推進(jìn)中文數字化與數據中文化,完善新型中文服務(wù)體系構建與語(yǔ)言文字治理體系。
教育部語(yǔ)言文字信息管理司司長(cháng)劉培俊介紹,中國已發(fā)布100多項國家通用語(yǔ)言文字和民族語(yǔ)言文字信息化規范標準,為自然語(yǔ)言處理技術(shù)在人工智能、數字產(chǎn)品和信息產(chǎn)業(yè)領(lǐng)域的應用創(chuàng )新奠定規范基礎。
語(yǔ)言文字智慧化學(xué)習的廣泛開(kāi)展,有力服務(wù)了教育改革創(chuàng )新。比如,高水平開(kāi)展普通話(huà)水平測試,全面實(shí)現從人工到智能的普通話(huà)測試方式轉變,制發(fā)電子證書(shū)9000多萬(wàn)份。在廣東,已建成全國首個(gè)普通話(huà)水平測試智慧考場(chǎng),考場(chǎng)首創(chuàng )“隨到隨考”測試模式,大幅提升了普通話(huà)測試效率。
語(yǔ)言文明智能化傳播聯(lián)通世界,也有力服務(wù)了國際交流互鑒。通過(guò)數字賦能,書(shū)寫(xiě)在古籍里的文字實(shí)現“活化”,建成中華思想文化術(shù)語(yǔ)數據庫,面向國際傳播1200多條反映中華民族話(huà)語(yǔ)體系中最核心最本質(zhì)的思想文化術(shù)語(yǔ),并與40多個(gè)國家和地區開(kāi)展多語(yǔ)種數字版權合作。
“中國已建成集成化、智能化、國際化的全球中文學(xué)習平臺,用戶(hù)超1600萬(wàn)人,覆蓋190多個(gè)國家和地區,深度合作建立聯(lián)盟,中文學(xué)習聯(lián)盟云服務(wù)平臺提供3萬(wàn)門(mén)在線(xiàn)課程,與中外1600多家機構合作,推動(dòng)實(shí)現中文人人、時(shí)時(shí)、處處可學(xué)可用、易學(xué)易用?!眲⑴嗫≌f(shuō)。
建設新型國家語(yǔ)料庫
今年,教育部啟動(dòng)布局了新型國家語(yǔ)料庫的建設工作?!兑庖?jiàn)》明確,到2027年,初步建成國家關(guān)鍵語(yǔ)料庫和國家戰略語(yǔ)言資源信息庫。
新型國家語(yǔ)料庫為什么如此重要?又將在語(yǔ)言文字信息化工作中發(fā)揮何種作用?
“當前以深度求索(DeepSeek)等為代表的人工智能技術(shù)創(chuàng )新不斷取得突破性進(jìn)展,在這個(gè)大背景下,國家提出這樣一個(gè)戰略部署,建設新型國家語(yǔ)料庫,凸顯了其重要性、必要性和緊要性?!苯逃空Z(yǔ)言文字應用管理司副司長(cháng)王暉如是說(shuō)。
現階段,語(yǔ)言教育教學(xué)和研究領(lǐng)域存在多個(gè)語(yǔ)料庫,但很多語(yǔ)料庫還處于單一文本模式和領(lǐng)域應用階段。這些語(yǔ)料庫在建設的理念、技術(shù)和方法、規模,以及數據多樣性、時(shí)效性尤其是與人工智能相結合的大規模應用方面尚存在不足,難以滿(mǎn)足多元化、動(dòng)態(tài)化尤其是智能化的語(yǔ)言數據需求。
找準這一難點(diǎn),王暉介紹,建設新型國家語(yǔ)料庫立足人工智能時(shí)代大背景,突破傳統語(yǔ)料庫單一文本模式和領(lǐng)域應用壁壘,以大模型訓練及性能評測、智能計算為核心,以新質(zhì)態(tài)、多模態(tài)、多語(yǔ)言、大規模、全域性為突出特性,為通用領(lǐng)域和細分領(lǐng)域多場(chǎng)景應用及創(chuàng )新發(fā)展提供規范、可信、高質(zhì)量的語(yǔ)言文化語(yǔ)料資源。
“主要包括兩方面:一是規范引領(lǐng),主要是加強制度的供給,研制語(yǔ)料庫建設規范,突出價(jià)值導向、應用導向、創(chuàng )新導向,統籌質(zhì)量和安全,為語(yǔ)料庫建設提供基礎原則和方法指引。二是示范引導,成熟先上,開(kāi)發(fā)建設‘中華文脈新型語(yǔ)料庫’‘中華大閱讀體系語(yǔ)料庫’,以這兩個(gè)示范庫建設整體打造出標桿,‘中華文脈新型語(yǔ)料庫’也可以簡(jiǎn)單理解瞄準的是智慧教師,‘中華大閱讀體系語(yǔ)料庫’瞄準的是智慧學(xué)伴?!蓖鯐熣f(shuō)。
數字中文推動(dòng)產(chǎn)業(yè)升級
20世紀80年代,北京大學(xué)王選團隊發(fā)明激光照排技術(shù),并結合漢字編碼標準,突破了中文數字化的空間限制,讓承載中華文化的中文在全球互聯(lián)網(wǎng)空間獲得新生。那是一場(chǎng)從“鉛與火”到“光與電”的變革,而如今,大語(yǔ)言模型技術(shù)對大規模高質(zhì)量語(yǔ)料提出前所未有的需求,賦予了數據中文化新的歷史內涵和使命任務(wù)。
歷史階段不同,但機遇和挑戰相似。
北京大學(xué)王選計算機研究所所長(cháng)湯幟認為,當前,中文信息處理技術(shù)的發(fā)展從以往解決漢字輸入輸出的基礎性問(wèn)題,進(jìn)階到當先釋放語(yǔ)言文字數據要素價(jià)值的全方位突破。
《意見(jiàn)》提出,實(shí)施數字中文推動(dòng)產(chǎn)業(yè)升級行動(dòng)。支持語(yǔ)言文字信息技術(shù)新產(chǎn)品、新職業(yè)和新業(yè)態(tài)發(fā)展,鼓勵傳統語(yǔ)言產(chǎn)業(yè)數字化轉型升級,培育基于數字中文的新型語(yǔ)言產(chǎn)業(yè)。推動(dòng)語(yǔ)言資源、語(yǔ)言翻譯、智能機器人、中文內容服務(wù)等軟硬件產(chǎn)品研發(fā)應用,支持圍繞語(yǔ)音、語(yǔ)料、語(yǔ)言應用生態(tài)形成產(chǎn)業(yè)聚集,鼓勵創(chuàng )建語(yǔ)言產(chǎn)業(yè)應用示范品牌。
“新形勢下,語(yǔ)言文字將從實(shí)現‘靜態(tài)符號’向‘動(dòng)態(tài)數字資產(chǎn)’,從‘信息載體’向‘生產(chǎn)要素’的轉型,要重點(diǎn)推動(dòng)語(yǔ)料庫、數據標注與評價(jià)等標準的研制,支持文本生成與理解、語(yǔ)言翻譯、情感分析等各種任務(wù)?!睖珟帽硎?,人工智能發(fā)展迅速,語(yǔ)言文字信息處理技術(shù)創(chuàng )新應用正經(jīng)歷從“GB2312字符集”到“萬(wàn)億參數大語(yǔ)言模型”的范式變革,語(yǔ)言文字未來(lái)將實(shí)現與信息技術(shù)的深度融合,形成“技術(shù)突破—場(chǎng)景落地—生態(tài)繁榮”的良性循環(huán)。(記者 孫亞慧)