自注意力机制 Self-attention详解 - 原理、应用与比较
· 5 min read
大部分自然语言处理都是一个 QA(Question Answer) 问题。
另外,使用定制化的模型可以获得比
Seq2seq
模型更好的效果。
使用 Seq2seq
模型 硬解 语法分析的应用:
Multi-label classification vs. Multi-class classification
用 Seq2seq
硬做
Transformer
对应之前的 transformer 的 Encoder 部分
(Speech Recognition as example)
Encoder 编码信息,Decoder 产生输出。
Ignore the input from the encoder here.
算第二个位置的时候,智能知道之前的所有位置(左边),无法考虑右边的东西。
如何预测输出 NAT decoder 应该输出的长度?
Encoder 与 Decoder 可以有不同的连接方式
如何解决?可以考虑训练过程中给一些错误的东西。
[[blog/2025-07-02-blog-085-transformer/index#How to make a Seq2seq model#Training#Tips#Scheduled Sampling]]
对于单字输出,类似于一个分类问题。
应用: Chat-bot, summary
做摘要场景
应用: 语音辨识,语音合成
问题: seq2seq 模型有时会漏掉某些发音或者漏掉某些语音辨识
训练时保证 attention 的分析读取方向。
问题
one-hard vector: 只有一个维度是 1,其他为 0 的向量