楔子
由于大部分 NLP 的模型和数据集都在国外,导致国内下载速度实在感人😭。好在有很多 NLP 的框架内置了很多数据集,都是国内链接,亲测下载速度很快,本文汇总一下一些我见到的国内链接,文末感谢这些平台提供的存储和下载服务。
正文
模型
模型 |
文件名称 |
下载链接 |
|
bert-base-cased |
下载 |
|
bert-base-chinese |
下载 |
|
bert-base-uncased |
下载 |
|
bert-chinese-wwm-ext |
下载 |
BERT |
bert-chinese-wwm |
下载 |
|
bert-large-cased-wwm |
下载 |
|
bert-large-cased |
下载 |
|
bert-large-uncased-wwm |
下载 |
|
bert-large-uncased |
下载 |
数据集
数据集 |
文件名称 |
下载链接 |
中文情感分析 |
ChnSentiCorp |
下载 |
语义相似度 |
LCQMC |
下载 |
问答匹配 |
NLPCC_DPQA |
下载 |
中文命名实体识别 |
MSRA_NER |
下载 |
英文多标签分类数据集 |
Toxic |
下载 |
抽取式英文阅读理解 |
SQUAD |
下载 |
抽取式中文阅读理解 |
CMRC2018 |
下载 |
抽取式繁体阅读理解 |
DRCD |
下载 |
英文数据集集合 |
GLUE |
下载 |
跨语言自然语言推理 |
XNLI |
下载 |
今日头条中文新闻短文本分类 |
TNews |
下载 |
互联网情感分析 |
INews |
下载 |
智能客服中文问句匹配 |
BQ |
下载 |
中文长文本分类 |
IFLYTEK |
下载 |
中文长文本分类 |
THUCNEWS |
下载 |
词向量
词向量 |
文件名称 |
下载链接 |
|
glove.6B.50d |
下载 |
|
glove.6B.100d |
下载 |
GloVe |
glove.6B.200d |
下载 |
|
glove.6B.300d |
下载 |
|
glove.42B.300d |
下载 |
|
glove.840B.300d |
下载 |
数据集下载代码
有些时候想在代码里面直接下载数据集,这里给一份参考的代码:
1 2 3 4 5 6 7 8 9 10 11
|
file = tf.keras.utils.get_file( fname="cmrc2018.tar.gz", origin="https://bj.bcebos.com/paddlehub-dataset/cmrc2018.tar.gz", extract=True, cache_dir='.', )
train_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_train.json') eval_path = os.path.join(".", 'datasets/cmrc2018/cmrc2018_dev.json')
|
感谢
- fastnlp 提供的模型和词向量,more 😘
- paddlehub 提供的数据集,more😘
Tips
如果还有其他的国外文件需要下载,国内下载很慢,可以尝试使用 kaggle 的 notebook 先下载到 kaggle,然后再下载到本地,亲测有效😄。