论文阅读 - 20190924

论文 1

《SANVis: Visual Analytics for Understanding Self-Attention Networks》

简介

这一篇文章是关于 Self-Attention 可视化的，可视化的网络有 Transformer 和 BERT。里面有一幅 Transformer 的图很好，贴过来。

论文 2

《BERT Meets Chinese Word Segmentation》

简介

这篇论文介绍 BERT 用于中文分词任务的。里面提到一点有趣的地方在于，BERT 后面接 Softmax 和 CRF 层的最终效果差不多，但是 SoftMax 更快。
模型结构

实验结果
注意这个是只使用 BERT 的第一层做特征提取的效果，这里 CRF 要比 SoftMax 好。

这个是不同层做特征提取的效果，可以看到微调 12 层的时候 SoftMax 和 CRF 效果差不多。

论文结果

BERT 可以稍微提高 CWS 任务的性能。就 Softmax 分类器来说，MSR 数据集和 PKU 数据集 F1 分数分别有 + 0.3 和 + 0.4 提高。
充分训练的时候，CRF 和 Softmax 达到相同的性能。但是由于 Softmax 预测时间更短，因此更受欢迎。
随着模型尺寸的增加，BERT 的性能逐渐提高。