注意力机制

First-Principle 上关于「注意力机制」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

快手Keye2.0模型引入DSA动态稀疏注意力机制

量子位（RSS） · 2026-05-31T09:37:21.896Z

快手公司发布Keye2.0模型，该模型首次将DSA（动态稀疏注意力）机制引入多模态领域，旨在提升复杂推理任务的效率和性能，标志着多模态AI在强化推理方面的重要进展。

字节跳动提出混合深度注意力机制MoDA

字节 Seed：Research Papers（网页内嵌数据） · 2026-05-31T09:37:23.269Z

字节跳动Seed团队在arXiv上发表论文，提出了名为‘混合深度注意力’（MoDA）的新机制。该机制允许大语言模型的每个注意力头同时关注当前层的序列KV对和前几层的深度KV对，旨在解决模型加深时浅层特征信息被稀释的问题。

相关作者