0%

NLP 常用模型和数据集高速下载

楔子

由于大部分 NLP 的模型和数据集都在国外,导致国内下载速度实在感人😭。好在有很多 NLP 的框架内置了很多数据集,都是国内链接,亲测下载速度很快,本文汇总一下一些我见到的国内链接,文末感谢这些平台提供的存储和下载服务。

正文

模型

模型 文件名称 下载链接
bert-base-cased 下载
bert-base-chinese 下载
bert-base-uncased 下载
bert-chinese-wwm-ext 下载
BERT bert-chinese-wwm 下载
bert-large-cased-wwm 下载
bert-large-cased 下载
bert-large-uncased-wwm 下载
bert-large-uncased 下载

数据集

数据集 文件名称 下载链接
中文情感分析 ChnSentiCorp 下载
语义相似度 LCQMC 下载
问答匹配 NLPCC_DPQA 下载
中文命名实体识别 MSRA_NER 下载
英文多标签分类数据集 Toxic 下载
抽取式英文阅读理解 SQUAD 下载
抽取式中文阅读理解 CMRC2018 下载
抽取式繁体阅读理解 DRCD 下载
英文数据集集合 GLUE 下载
跨语言自然语言推理 XNLI 下载
今日头条中文新闻短文本分类 TNews 下载
互联网情感分析 INews 下载
智能客服中文问句匹配 BQ 下载
中文长文本分类 IFLYTEK 下载
中文长文本分类 THUCNEWS 下载

词向量

词向量 文件名称 下载链接
glove.6B.50d 下载
glove.6B.100d 下载
GloVe glove.6B.200d 下载
glove.6B.300d 下载
glove.42B.300d 下载
glove.840B.300d 下载

数据集下载代码

有些时候想在代码里面直接下载数据集,这里给一份参考的代码:

1
2
3
4
5
6
7
8
9
10
11
# 下载文件包并解压,解压文件夹在当前文件夹的datasets目录下
# 注意:datasets目录不需要新建,重复执行代码会自动检查文件是否存在,不会重复下载
file = tf.keras.utils.get_file(
fname="cmrc2018.tar.gz",
origin="https://bj.bcebos.com/paddlehub-dataset/cmrc2018.tar.gz",
extract=True,
cache_dir='.',
)
# 文件路径
train_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_train.json')
eval_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_dev.json')

感谢

  • fastnlp 提供的模型和词向量,more 😘
  • paddlehub 提供的数据集,more😘

Tips

如果还有其他的国外文件需要下载,国内下载很慢,可以尝试使用 kaggle 的 notebook 先下载到 kaggle,然后再下载到本地,亲测有效😄。

支持一根棒棒糖!