当前位置: 首页 > news >正文

文山壮族苗族自治州网站建设_网站建设公司_企业官网_seo优化

网站做交叉连接,网络营销的平台有哪些,商用网站开发计划书,小制作手工小学生论文笔记--ERNIE: Enhanced Language Representation with Informative Entities 1. 文章简介2. 文章概括3 文章重点技术3.1 模型框架3.2 K-Encoder(Knowledgeable Encoder)3.3 预训练任务3.4 微调 4. 文章亮点5. 原文传送门6. References 1. 文章简介 标题#xff1a;ERNIE:… 论文笔记--ERNIE: Enhanced Language Representation with Informative Entities 1. 文章简介2. 文章概括3 文章重点技术3.1 模型框架3.2 K-Encoder(Knowledgeable Encoder)3.3 预训练任务3.4 微调 4. 文章亮点5. 原文传送门6. References 1. 文章简介 标题ERNIE: Enhanced Language Representation with Informative Entities作者Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu日期2019期刊ACL 2. 文章概括 文章提出了ERNIE(Enhanced Language Representation with Informative Entities)一种可以将外部知识融合进入预训练模型的方法。数值实验表明ERNIE可以提升一些知识驱动的下游任务的表现且在其它NLP任务上效果基本持平SOTA。 3 文章重点技术 3.1 模型框架 给定token序列 { w 1 , … , w n } \{w_1, \dots, w_n\} {w1​,…,wn​}其中 n n n为序列长度令 { e 1 , … , e m } \{e_1, \dots, e_m\} {e1​,…,em​}表示对应的实体序列其中 m m m为实体数。一般来说 m n mn mn这是因为不是每个token都可以映射为知识图谱(KG)中的实体(entity)且一个实体可能对应多个token比如bob dylan两个token对应一个实体Bob Dylan。记所有token的词表为 V \mathcal{V} VKG中所有实体的集合为 E \mathcal{E} E。如果对 v ∈ V v\in\mathcal{V} v∈V存在与其对应的实体 e ∈ E e\in\mathcal{E} e∈E则我们用 f ( v ) e f(v)e f(v)e表示这种对齐关系。特别地针对上述多个token对应单个实体的情况我们将实体对齐给第一个token例如句子中出现bob dylan…时 f ( bob ) Bob Dylan f(\text{bob}) \text{Bob Dylan} f(bob)Bob Dylan。   如下图所示ERNIE的整体框架分为两部分1) T-Encoder(Textual encoder)用于捕捉基本的词义和句法信息2) K-Encoder(Knowledgeable encoder)用于将外部知识融合进入模型。记T-Encoder的层数为 N N NK-Encoder的层数为 M M M。   具体来说给定输入序列 { w 1 , … , w n } \{w_1, \dots, w_n\} {w1​,…,wn​}和对应的实体序列 { e 1 , … , e m } \{e_1, \dots, e_m\} {e1​,…,em​}T-encoder层首先将token序列、segment序列和位置序列输入得到词汇和句法层面的特征 { w 1 , … , w n } T-Encoder ( { w 1 , … , w n } ) \{\bold{w}_1, \dots, \bold{w}_n\} \text{T-Encoder}(\{w_1, \dots, w_n\}) {w1​,…,wn​}T-Encoder({w1​,…,wn​})其中T-Encoder结构和BERT[1]相同基本架构为Transformer的Encoder层。   然后将上述特征传入到K-Encoder层。K-Encoder还会接受外部知识信息首先我们会通过TransE生成 { e 1 , … , e m } \{e_1, \dots, e_m\} {e1​,…,em​}对应的预训练实体嵌入 { e 1 , … , e m } \{\bold{e}_1, \dots, \bold{e}_m\} {e1​,…,em​}然后将该嵌入同上述特征 { w 1 , … , w n } \{\bold{w}_1, \dots, \bold{w}_n\} {w1​,…,wn​}一起输入K-Encoder层从而得到融合外部知识的输出嵌入 { w 1 o , … , w n o } , { e 1 o , … , e m o } K-Encoder ( { w 1 , … , w n } , { e 1 , … , e m } ) \{\bold{w}_1^o, \dots, \bold{w}_n^o\},\{\bold{e}_1^o, \dots, \bold{e}_m^o\} \text{K-Encoder}(\{\bold{w}_1, \dots, \bold{w}_n\},\{\bold{e}_1, \dots, \bold{e}_m\}) {w1o​,…,wno​},{e1o​,…,emo​}K-Encoder({w1​,…,wn​},{e1​,…,em​})上述输出嵌入后续可用来作为特征参与下游任务。 3.2 K-Encoder(Knowledgeable Encoder) 如上图所示K-Encoder包含堆叠的聚合器每个聚合器包含token和实体两部分输入。在第 i i i个聚合器中输入为来自上层聚合器的嵌入 { w 1 ( i − 1 ) , … , w n ( i − 1 ) } \{\bold{w}_1^{(i-1)}, \dots, \bold{w}_n^{(i-1)}\} {w1(i−1)​,…,wn(i−1)​}和实体嵌入 { e 1 ( i − 1 ) , … , e m ( i − 1 ) } \{\bold{e}_1^{(i-1)}, \dots, \bold{e}_m^{(i-1)}\} {e1(i−1)​,…,em(i−1)​}然后将token和实体嵌入分别传入到两个多头自注意力机制MH-ATTs得到各自的输出 { { w ~ 1 ( i ) , … , w ~ n ( i ) } MH-ATT ( { w 1 ( i − 1 ) , … , w n ( i − 1 ) } ) { e ~ 1 ( i ) , … , e ~ m ( i ) } MH-ATT ( { e 1 ( i − 1 ) , … , e m ( i − 1 ) } ) \begin{cases}\{\bold{\tilde{w}}_1^{(i)}, \dots, \bold{\tilde{w}}_n^{(i)}\} \text{MH-ATT}(\{\bold{w}_1^{(i-1)}, \dots, \bold{w}_n^{(i-1)}\})\\ \{\bold{\tilde{e}}_1^{(i)}, \dots, \bold{\tilde{e}}_m^{(i)}\} \text{MH-ATT}(\{\bold{e}_1^{(i-1)}, \dots, \bold{e}_m^{(i-1)}\})\end{cases} {{w~1(i)​,…,w~n(i)​}MH-ATT({w1(i−1)​,…,wn(i−1)​}){e~1(i)​,…,e~m(i)​}MH-ATT({e1(i−1)​,…,em(i−1)​})​。然后模型通过将每个token与其对应的实体进行拼接将外部实体信息融合进入嵌入。具体来说针对一个有与之对应的实体的token假设 e k f ( w j ) e_kf(w_j) ek​f(wj​)则 h j σ ( W ~ t ( i ) w ~ j ( i ) W ~ e ( i ) e ~ k ( i ) b ~ ( i ) ) \bold{h}_j \sigma(\bold{\tilde{W}}_t^{(i)} \bold{\tilde{w}}_j^{(i)} \bold{\tilde{W}}_e^{(i)} \bold{\tilde{e}}_k^{(i)} \bold{\tilde{b}}^{(i)}) hj​σ(W~t(i)​w~j(i)​W~e(i)​e~k(i)​b~(i))为整合了实体和token信息的隐藏层输出 w j ( i ) σ ( W t ( i ) h j b ~ t ( i ) ) e k ( i ) σ ( W e ( i ) h j b ~ e ( i ) ) \bold{w}_j^{(i)} \sigma (\bold{W}_t^{(i)} \bold{h}_j \bold{\tilde{b}}_t^{(i)})\\\bold{e}_k^{(i)} \sigma (\bold{W}_e^{(i)} \bold{h}_j \bold{\tilde{b}}_e^{(i)}) wj(i)​σ(Wt(i)​hj​b~t(i)​)ek(i)​σ(We(i)​hj​b~e(i)​)表示当前聚合器的输出嵌入其中 σ \sigma σ为GELU激活函数。对于没有与之对应实体的token只需要把上述涉及 e e e的部分拿掉即可 h j σ ( W ~ t ( i ) w ~ j ( i ) b ~ ( i ) ) w j ( i ) σ ( W t ( i ) h j b ~ t ( i ) ) \bold{h}_j \sigma(\bold{\tilde{W}}_t^{(i)} \bold{\tilde{w}}_j^{(i)} \bold{\tilde{b}}^{(i)})\\\bold{w}_j^{(i)} \sigma (\bold{W}_t^{(i)} \bold{h}_j \bold{\tilde{b}}_t^{(i)}) hj​σ(W~t(i)​w~j(i)​b~(i))wj(i)​σ(Wt(i)​hj​b~t(i)​) 3.3 预训练任务 为了将知识融合进入语言表达文章提出了一种新的预训练任务dEA(denoising entity auto-encoder)随机掩码一些token-entity的对齐然后让模型给予对齐的tokens来预测被掩码的实体。具体来说给定输入序列 { w 1 , … , w n } \{w_1, \dots, w_n\} {w1​,…,wn​}和对应的实体序列 { e 1 , … , e m } \{e_1, \dots, e_m\} {e1​,…,em​}通过下述公示预测token w i w_i wi​对应的实体分布 p ( e j ∣ w i ) exp ⁡ ( linear ( w i o ) ⋅ e j ) ∑ k 1 m exp ⁡ ( linear ( w i o ) ⋅ e k ) p(e_j|w_i) \frac {\exp (\text{linear}(\bold{w}_i^o) \cdot \bold{e}_j)}{\sum_{k1}^m \exp (\text{linear}(\bold{w}_i^o) \cdot \bold{e}_k)} p(ej​∣wi​)∑k1m​exp(linear(wio​)⋅ek​)exp(linear(wio​)⋅ej​)​。   考虑到实际对齐过程中可能存在一些错误我们增加如下策略15%的时间用随机的实体替代当前实体使得模型纠正token-实体对齐错误的情况 215%的时间将token-实体对齐进行掩码使得模型可以纠正当实体对齐为被识别到的情况 3其余时间保持token-实体对齐不变从而使得模型学习到token和实体之间的对齐方法。   最终ERNIE使用MLM、NSP和上述dEA三种训练目标。 3.4 微调 类似于BERT我们使用[CLS]的嵌入作为句子的最终嵌入表示来进行分类。针对关系分类任务我们增加[HD]和[TL]表示head/tail实体的开头和结尾针对实体抽取任务我们增加[ENT]表示实体位置。 4. 文章亮点 文章提出了一种可以将外部信息融合至预训练的ERNIE模型。实验表明ERNIE可以有效地将KG中的信息注入到预训练模型从而使得模型在处理实体提取、关系分类等需要外部知识的任务时更加出色且实验证明外部知识可以帮助模型充分利用少量的训练集。 5. 原文传送门 ERNIE: Enhanced Language Representation with Informative Entities 6. References [1] 论文笔记–BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [2] 百度ERNIE论文笔记–ERNIE: Enhanced Representation through Knowledge Integration
http://www.ihoyoo.com/news/10071.html

相关文章:

  • 建站助手网站开发微信授权登录
  • 桐乡 网站建设有关于网站建设的参考文献
  • 廊坊哪里能够做网站手机优化师下载
  • 网站建设大学建设企业网站需要多少钱
  • 网站推广服务算中介吗龙港网
  • 外包做网站的要求怎么写网站设计 价格
  • 智能建站开发哪家网站建设专业
  • 沧州做网站的公司做个公司网站
  • 网站开发私活如何在百度上发广告
  • 应用最广网站建设技术免费软件网站大全
  • 上海公司网站建设以子wordpress菜单标题属性
  • 国内品牌设计公司jsp网站seo优化
  • 正版素材网站单位网页制作
  • 网站发展的方向网站建设里怎么写文章
  • 沈阳建网站公司有哪些做海报的网站
  • 网站设计建设价格建筑设计单位
  • seo的特点是什么怎么做好seo推广
  • 攻击网站的方法廊坊seo排名收费
  • 黑龙江高端网站建设网站一般用什么语言写
  • 口腔医院网站建设做地方分类信息网站需要什么资质吗
  • 企业网站设计的基本内容包括哪些男女做爰网站19
  • 青岛做网站哪个公司好wordpress 首页预览
  • 做网站多少钱一个月品牌建设和品牌打造对企业的意义
  • 微信网站建设方案pptseo推广排名
  • 容易做的网站东莞阳光网招标平台
  • 在线手机网站预览购买的域名是永久的吗
  • 园林建设网站息烽做网站公司有哪些
  • 纪梵希网站设计分析重庆最新消息今天
  • 什么是网站的权重新闻发布的网站
  • 3D动漫做爰网站公司网站建设 阜阳