Bin_Nong

3ヶ月前
zh
サンプル
1Default Sample
我们来讲一下这个attention机制是怎么工作的啊。就是在transformer里面啊,这个self-attention呢,主要是通过这个query和key的计算来得到相关性的。那么这个scaling factor呢,就是用来防止这个数值太大的。
説明
いいね数
0
マーク数
0
共有数
0
使用回数
6

関連モデルを探す