大语言模型

First-Principle 上关于「大语言模型」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

CoSPlay：测试时通过自生成代码与单元测试的协作自我博弈

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:19.587Z

论文提出CoSPlay框架，无需真实标签测试用例和训练，在测试时通过协作自我博弈联合优化LLM生成的代码和单元测试，共同进化并选择最终代码。

字节跳动提出混合深度注意力机制MoDA

字节 Seed：Research Papers（网页内嵌数据） · 2026-05-31T09:37:23.269Z

字节跳动Seed团队在arXiv上发表论文，提出了名为‘混合深度注意力’（MoDA）的新机制。该机制允许大语言模型的每个注意力头同时关注当前层的序列KV对和前几层的深度KV对，旨在解决模型加深时浅层特征信息被稀释的问题。

相关作者