NLP 常用模型和数据集高速下载

楔子

由于大部分 NLP 的模型和数据集都在国外，导致国内下载速度实在感人😭。好在有很多 NLP 的框架内置了很多数据集，都是国内链接，亲测下载速度很快，本文汇总一下一些我见到的国内链接，文末感谢这些平台提供的存储和下载服务。

正文

模型

模型	文件名称	下载链接
	`bert-base-cased`	下载
	`bert-base-chinese`	下载
	`bert-base-uncased`	下载
	`bert-chinese-wwm-ext`	下载
BERT	`bert-chinese-wwm`	下载
	`bert-large-cased-wwm`	下载
	`bert-large-cased`	下载
	`bert-large-uncased-wwm`	下载
	`bert-large-uncased`	下载

数据集

数据集	文件名称	下载链接
中文情感分析	`ChnSentiCorp`	下载
语义相似度	`LCQMC`	下载
问答匹配	`NLPCC_DPQA`	下载
中文命名实体识别	`MSRA_NER`	下载
英文多标签分类数据集	`Toxic`	下载
抽取式英文阅读理解	`SQUAD`	下载
抽取式中文阅读理解	`CMRC2018`	下载
抽取式繁体阅读理解	`DRCD`	下载
英文数据集集合	`GLUE`	下载
跨语言自然语言推理	`XNLI`	下载
今日头条中文新闻短文本分类	`TNews`	下载
互联网情感分析	`INews`	下载
智能客服中文问句匹配	`BQ`	下载
中文长文本分类	`IFLYTEK`	下载
中文长文本分类	`THUCNEWS`	下载

词向量

词向量	文件名称	下载链接
	`glove.6B.50d`	下载
	`glove.6B.100d`	下载
GloVe	`glove.6B.200d`	下载
	`glove.6B.300d`	下载
	`glove.42B.300d`	下载
	`glove.840B.300d`	下载

数据集下载代码

有些时候想在代码里面直接下载数据集，这里给一份参考的代码：

# 下载文件包并解压，解压文件夹在当前文件夹的datasets目录下
# 注意：datasets目录不需要新建，重复执行代码会自动检查文件是否存在，不会重复下载
file = tf.keras.utils.get_file(
        fname="cmrc2018.tar.gz",
        origin="https://bj.bcebos.com/paddlehub-dataset/cmrc2018.tar.gz",
        extract=True,
        cache_dir='.',
    )
# 文件路径
train_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_train.json')
eval_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_dev.json')

感谢

fastnlp 提供的模型和词向量，more 😘
paddlehub 提供的数据集，more😘

Tips

如果还有其他的国外文件需要下载，国内下载很慢，可以尝试使用 kaggle 的 notebook 先下载到 kaggle，然后再下载到本地，亲测有效😄。