Bin_Nong

3 months ago
zh
Samples
1Default Sample
我们来讲一下这个attention机制是怎么工作的啊。就是在transformer里面啊,这个self-attention呢,主要是通过这个query和key的计算来得到相关性的。那么这个scaling factor呢,就是用来防止这个数值太大的。
Description
Total Likes
0
Mark Count
0
Shared Count
0
Task Count
6

Explore Related Models