从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)_哔哩哔哩_bilibili
自注意力的qkv输入是同一个,交叉注意力的q输入不一样,类似于参考书