0%

面试公司 投递时间 投递方式 面试情况
云从科技 2019 年 8 月 2 日 moka 等待面试
B 站 2019 年 8 月 2 日 moka 等待面试
快手 2019 年 8 月 2 日 官网内推 等待面试
斗鱼校招提前批 2019 年 8 月 4 日 官网内推 等待面试
字节跳动秋招 2019 年 8 月 5 日 官网内推 等待面试
顺丰 2019 年 8 月 5 日 官网内推 等待面试
百度提前批 2019 年 8 月 5 日 邮箱投递 等待面试

论文 1

《 3R: Reading - Ranking - Recognizing for Multi-Passage Reading Comprehension》

简介

ITAIC 2019 的一篇文章。本文主要用来解决的是 Multi-passage reading comprehension 问题。

模型结构

文章提出了阅读 - 排序 - 识别三段式模型,分别为:

  • 段落提取模块:提取所有与问题相关的段落
  • 阅读理解模块:阅读每个提取出来的相关段落,抽取出候选答案。其中阅读理解模块基于 BERT。
  • 答案排序模块:提出两种答案排序策略,分别是 question-to-answer verify 和 answer-to-answer verify

这三个模块完成后,还增加了 no answer recognition section,来判断是否有问题的答案。

阅读全文 »

论文 1

《SANVis: Visual Analytics for Understanding Self-Attention Networks》

简介

这一篇文章是关于 Self-Attention 可视化的,可视化的网络有 Transformer 和 BERT。里面有一幅 Transformer 的图很好,贴过来。

阅读全文 »

记得有一幅漫画我看见过几次,漫画上画的是三个人:第一个人在凡间地上鸟语花香,第二个人站在一摞书上,伸入云霄看见满世界压抑的乌云,第三个人则站在更高的一摞书上,看到了九霄层云之上的灿烂千阳。
不读书的人,无所得无所失,反正就那样凑合着过;开始读书的人,可能会感受到繁杂阴暗的痛苦;而咬牙读下去的人,终能圆融贯通,看到金光乍现。

uAEKFP.png

2019 年的夏天很快的过去了。今天是中秋,在古代诗歌中中秋都是思念的代名词,虽然逢人便道中秋快乐,但是自己却快乐不起来呢。
从 6 月底到现在陆陆续续找了快 3 个月的工作,属实有点累了。每逢一个休息日都想要静静的躺着。这段时间焦虑,等待,兴奋以及各种失败,其实蛮痛苦的。希望自己能挺过这段时间,有个好的结尾吧。
晚上没吃月饼,心里好怀念小时候的五仁月饼,但是也不想故意去买个吃了,就让这段时间安静的溜走吧,仿佛从来没有来过一样。

最大匹配算法

基于词典的双向匹配算法的中文分词算法的实现。
例子:[我们经常有意见分歧]
词典:[我们,经常,有,有意见,意见,分歧]

前向最大匹配

先设定扫描的窗口大小 maxLen(最好是字典最长的单词长度),从左向右取待切分汉语句的 maxLen 个字符作为匹配字段。查找词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来,并将窗口向右移动这个单词的长度。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。

后向最大匹配

该算法是正向的逆向算法,区别是窗口是从后向左扫描,若匹配不成功,则去掉第一个字符,重复上述的匹配步骤。

双向最大匹配

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较,从而决定正确的分词方法。定义的匹配规则如下:

  1. 如果正反向匹配算法得到的结果相同,我们则认为分词正确,返回任意一个结果即可。
  2. 如果正反向匹配算法得到的结果不同,则考虑单字词、非字典词、总词数数量的数量,三者的数量越少,认为分词的效果越好。我们设定一个惩罚分数(score_fmm /score_bmm = 0),例如:正向匹配中单字词数量多于反向匹配,则正向匹配的分值 score_fmm += 1。其他两个条件相同。可以根据实际的分词效果调整惩罚分数的大小,但由于没有正确分词的数据,因此惩罚分数都设为 1。最后比较惩罚分数,返回较小的匹配结果。