ChineseGLUE:為中文NLP模型定制的自然語言理解基準


來源:機器之心   時間:2019-10-23 15:00:06


機器之心整理

參與:張倩、鄭麗慧

GLUE 是一個用于評估通用 NLP 模型的基準,其排行榜可以在一定程度上反映 NLP 模型性能的高低。然而,現有的 GLUE 基準針對的是英文任務,無法評價 NLP 模型處理中文的能力。為了填補這一空白,國內關注 NLP 的熱心人士發布了一個中文語言理解測評基準——ChineseGLUE。ChineseGLUE 目前擁有八個數據集的整體測評及其基線模型,目前已經有 20多位來自各個頂尖機構的自愿者加入并成為了創始會員。

ChineseGLUE 的成員包括全國各地關注 NLP 的熱心專業人士,包括清華、北大、浙大等知名高校的畢業生。團隊的愿景是通過完善中文語言理解基礎設施,促進中文語言模型的發展,能夠作為通用語言模型測評的補充,以更好地服務中文語言理解、任務和產業界。

項目地址:https://github.com/chineseGLUE/chineseGLUE

GLUE 是什么?有什么用?

為了使自然語言理解技術(NLU)發揮最大作用,NLU 模型必須能夠處理多種任務或數據集。為此,來自紐約大學、華盛頓大學、DeepMind 等機構的研究者創建了一個多任務自然語言理解基準和分析平臺——GLUE(General Language Understanding Evaluation),用于評估 NLP 模型在現有的多個自然語言理解任務中的性能。

GLUE 是九種(英語)語言理解任務的集合,包括文本蘊涵、情感分析和語法判斷等。其設計目的是覆蓋足夠大的 NLP 領域。只有開發出足夠通用的工具,才能在這一基準上表現良好。GLUE 的最終目標是推動通用的、魯棒的自然語言理解系統的研究。

今年 4 月份,由于 BERT 等模型的出現,GLUE 基準在新模型的評估方面日漸乏力,研究者決定將其升級為 SuperGLUE。SuperGLUE 保留了兩項 GLUE 任務,另外又加入了其它五項新任務,提高了這一測試基準的難度。

雖然這一基準測試已經升級,但不變的一點是,它只支持英文任務。因此,我們亟需一個中文版的 GLUE 基準。

為什么需要 ChineseGLUE?

對于 ChineseGLUE 的創建初衷,項目作者給出了三點理由:

中文是一個大語種,有其自身特定及大量的應用。產業界的 NLP 模型需要解決大量中文任務,而中文是象形文字,有文字圖形;字與字之間沒有分隔符,不同的分詞 (分字或詞) 會影響下游任務。

相對于英文數據集來說,中文數據集大多是非公開或者缺失基準測評的,大多數論文所描述的模型都是在英文數據集上做的測試和評估,在中文領域的效果卻不得而知。

預訓練模型的相繼產生極大地促進了對自然語言的理解,但不少最先進的模型卻沒有中文版本,導致技術應用上的滯后。

所以,如果有一個中文任務的基準測試,包含一批大眾能廣泛使用和測評的數據集、適用中文任務的特點、能緊跟當前世界技術的發展,就能夠更好地緩解當前中文任務的一些問題,并促進相關應用的發展。

ChineseGLUE 都有什么?

ChineseGLUE 是一個中文語言理解測評基準,思路源于 GLUE,包括:

1)中文任務的基準測試,覆蓋多個不同程度的語言任務

一個包含若干句子或句子對語言理解任務的基準。當前,這些任務中使用的數據集是公開的,2019 年底前將收錄具備私有測試集的數據集。

2)公開的排行榜

一個用于性能跟蹤的公開排行榜。你可以提交跟這些任務相關的預測文件,每個任務都會被評估打分,最后會有一個總分。

排行榜會定期更新,并迅速擴大可公開使用和測評的數據集數量(cmrc2018 僅開發集結果)

TNEWS:文本分類;LCQMC:語義相似度;XNLI:自然語言推理;INEWS:情感分析;DRCD & CMRC2018:閱讀理解;cmrc2018 僅開發集結果。

3)基線模型,包含開始的代碼、預訓練模型

ChineseGLUE 任務的基線。基線應該是在 TensorFlow,PyTorch,Keras 和 PaddlePaddle 中可使用的。

4)語料庫,用于語言建模、預訓練或生成型任務

用于預訓練或語言建模研究的巨型原始語料庫,大約 10G(2019 年)。

2020 年上半年,至少具備 30G 的原始語料庫;到 2020 年底將包含充足的原始語料庫(例如 100G),它足夠大,以至于你不再需要那種用于通用語言建模的原始語料庫。

你可以將其用于常規用途或特定領域,甚至用于文本生成。當用于特定領域時,你可以選擇自己感興趣的語料庫。

數據集

ChineseGLUE 的目標是包含 8 個覆蓋不同任務的有代表性的數據集,包括:

1. LCQMC 口語化描述的語義相似度任務

輸入是兩個句子,輸出是 0 或 1。其中 0 代表語義不相似,1 代表語義相似。

2. XNLI 語言推斷任務

跨語言理解的數據集,給定一個前提和假設,判斷這個假設與前提是否具有蘊涵、對立、中性關系。

3.TNEWS 今日頭條中文新聞(短文本)分類

4.INEWS 互聯網情感分析任務

5.DRCD 繁體閱讀理解任務

臺達閱讀理解資料集 Delta Reading Comprehension Dataset (DRCD)屬于通用領域繁體中文機器閱讀理解資料集,本資料集期望成為適用于遷移學習之標準中文閱讀理解資料集。

數據格式和 squad 相同,如果使用簡體中文模型進行評測的時候可以將其繁轉簡 (本項目已提供)

6.CMRC2018 簡體中文閱讀理解任務

https://hfl-rc.github.io/cmrc2018/

數據格式和 squad 相同

7. CCKS2018 Task3 智能客服問句匹配

該數據集是自動問答系統語料,共有 100,000 對句子對,并標注了句子對相似度值,取值為 0 或 1(0 表示不相似,1 表示相似),并按 70:20:10 比例分割成訓練集、開發集和測試集。數據中存在錯別字、語法不規范等問題,但更加貼近工業場景。

8. MSRANER 命名實體識別

該數據集共有 5 萬多條中文命名實體識別標注數據(包括人名、地名、組織名),分別用 nr、ns、nt 表示,其他實體用 o 表示。

9. 還在添加中

讀者如果有定義良好的數據集,可以和創建團隊聯系。

數據集下載地址:https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

或使用命令:

排行榜及各任務對比

TNEWS 短文本分類:

XNLI 自然語言推理:

注:ALBERT-xlarge,在 XNLI 任務上訓練暫時還存在有問題。

LCQMC 口語化描述的語義相似度匹配:

INEWS 互聯網情感分析:

DRCD 繁體閱讀理解:

CMRC2018 閱讀理解 (暫時只有開發集結果):

CCKS2018 Task3 智能客服問句匹配:

基線模型代碼

1、數據集整體下載,解壓到 glue 文件夾里

cd glue

wget

https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

lcqmc 數據集,請從以下鏈接申請或搜索網絡 :http://icrc.hitsz.edu.cn/info/1037/1146.htm

2、訓練模型

a. 將預訓練模型下載解壓到對應的模型中 prev_trained_model 文件夾里。以 bert 和 albert 為例子:

b. 修改 run_classifier.sh 指定模型路徑

c. 運行各個模型文件夾下的 run_classifier.sh 即可

sh run_classifier.sh

3、詳見:基準模型-模型訓練

https://github.com/chineseGLUE/chineseGLUE/tree/master/baselines

語料庫:語言建模、預訓練或生成型任務

可用于語言建模、預訓練或生成型任務等,數據量超過 10G,主要部分來自于 nlp_chinese_corpus 項目。

當前語料庫按照【預訓練格式】處理,內含有多個文件夾;每個文件夾有許多不超過 4M 大小的小文件,文件格式符合預訓練格式:每句話一行,文檔間空行隔開。

包含如下子語料庫(總共 14G 語料):

新聞語料: 8G 語料,分成兩個上下兩部分,總共有 2000 個小文件。

社區互動語料:3G 語料,包含 3G 文本,總共有 900 多個小文件。

維基百科:1.1G 左右文本,包含 300 左右小文件。

評論數據:2.3G 左右文本,含有 811 個小文件,合并 ChineseNLPCorpus 的多個評論數據,清洗、格式轉換、拆分成小文件。

可以通過上面這兩個項目,清洗數據并做格式轉換獲得語料;也可以通過郵件申請獲得單個項目的語料。

本文為機器之心整理,轉載請聯系本公眾號獲得授權。

------------------------------------------------

  版權及免責聲明:凡本網所屬版權作品,轉載時須獲得授權并注明來源“環球光伏網”,違者本網將保留追究其相關法律責任的權力。凡轉載文章,不代表本網觀點和立場。

延伸閱讀

最新文章

光大國際預中標樂陵市生活垃圾焚燒發電及擴建PPP項目 光大國際預中標樂陵市生活垃圾焚燒發電及擴建PPP項目

精彩推薦

產業新聞

ChineseGLUE:為中文NLP模型定制的自然語言理解基準 ChineseGLUE:為中文NLP模型定制的自然語言理解基準

熱門推薦

黑龙江时时彩500彩票网