0%

论文阅读 - 20190924

论文 1

《SANVis: Visual Analytics for Understanding Self-Attention Networks》

简介

这一篇文章是关于 Self-Attention 可视化的,可视化的网络有 Transformer 和 BERT。里面有一幅 Transformer 的图很好,贴过来。

论文 2

《BERT Meets Chinese Word Segmentation》

简介

这篇论文介绍 BERT 用于中文分词任务的。里面提到一点有趣的地方在于,BERT 后面接 Softmax 和 CRF 层的最终效果差不多,但是 SoftMax 更快。
模型结构

实验结果
注意这个是只使用 BERT 的第一层做特征提取的效果,这里 CRF 要比 SoftMax 好。

这个是不同层做特征提取的效果,可以看到微调 12 层的时候 SoftMax 和 CRF 效果差不多。

论文结果

  • BERT 可以稍微提高 CWS 任务的性能。就 Softmax 分类器来说,MSR 数据集和 PKU 数据集 F1 分数分别有 + 0.3 和 + 0.4 提高。
  • 充分训练的时候,CRF 和 Softmax 达到相同的性能。但是由于 Softmax 预测时间更短,因此更受欢迎。
  • 随着模型尺寸的增加,BERT 的性能逐渐提高。

论文 3

《Enriching BERT with Knowledge Graph Embeddings for Document Classification》

简介

这篇文章是一个比赛的方法,这个比赛是进行文档分类,但是还有一些其他的数据(作者,ISBN 等等),因此要做特征的融合,作者提出的融合方法很简单,如下:

论文 4

《Subword ELMo》

简介

这篇文章主要使用 Subword 提升 ELMo 的性能,思路很简单。这里主要看一下网络结构。

稍微扩充一下 Highway Network, 论文 , 公式如下,其中:

流程图

对比 ResNet

支持一根棒棒糖!