Bin_Nong

4 个月前
zh
示例
1Default Sample
我们来讲一下这个attention机制是怎么工作的啊。就是在transformer里面啊,这个self-attention呢,主要是通过这个query和key的计算来得到相关性的。那么这个scaling factor呢,就是用来防止这个数值太大的。
描述
总点赞数
0
总标记数
0
总分享数
0
总使用数
6

探索相关模型