今天上午 10 点突然接到面试的电话,面完之后感觉不怎么好,还是总结一下吧。
Pool 的作用
池化层是一个采样的过程。
Word2Vec 的损失函数
ElMo 的损失函数
预训练部分
在 EMLo 中,他们使用的是一个双向的 LSTM 语言模型,由一个前向和一个后向语言
模型构成,目标函数就是取这两个方向语言模型的最大似然。
前向部分
反向部分
合起来部分如下,也就是损失函数
微调部分(用于下游任务)
在进行有监督的 NLP 任务时,可以将 ELMo 直接当做特征拼接到具体任务模型的
词向量输入,具体来说就是把这个双向语言模型的每一中间层进行一个求和得到动态的词向量表示。
提取词向量的过程如下:对于第 K 个 Token, 使用 L 层的双向 ELMo 可以得到的表示如下:
对于下游任务来说,得到表示就是各层双向 LSTM 的表示的加权和