CLUE:A Chinese Language Understanding Evaluation Benchmark。中文语言理解测评基准
英语有GLUE、SuperGLUE,各种预训练模型,如BERT,在其上进行评估;CLUE类比GLUE,应该是中文第一个大规模的语言评估基准。
CLUE:(1)该评估基准覆盖了9种句子分类、机器阅读理解任务,不同的困难水平、不同的大小和形式;(2)提供了一个大的预训练中文语库,214G文本,约760亿中文词语;(3)提供了一个语言学家创建的诊断评估数据集;(4)提供了友好的工具、自动评估在线排行榜。
首先,中文是一个大语种,有其自身的特定、大量的应用。
如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。
中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。
其次,相对于英文的数据集,中文的公开可用的数据集还比较少。
很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
再次,语言理解发展到当前阶段,预训练模型极大的促进了自然语言理解。
不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。
那么,如果有一个中文任务的基准测试,包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展, 能缓解当前中文任务的一些问题,并促进相关应用的发展。
开源地址:https://github.com/CLUEbenchmark/CLUE
下面9个。
214G文本,约760亿中文词语。包括下面三个子语库:
CLUECorpus2020-small:14G
CLUECorpus2020:100G
CLUEOSCAR:100G
也提供了下面几个模型的开源代码,评测结果如下:
下面9中语言类型: