大语言模型研究

First-Principle 上关于「大语言模型研究」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

AIRA-Compose与AIRA-Design：智能体自主发现神经架构

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:21.586Z

2026年5月18日的HuggingFace热门论文介绍了一个双框架，该框架利用大语言模型智能体自主设计新神经网络架构（AIRAformers和AIRAhybrid）。这些架构据称在多个基准测试上，其准确率和扩展效率优于Llama 3.2等人工设计的基线模型。

AgentLens：揭示SWE-Agent评估中的“幸运通过”问题

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:10.243Z

本文介绍了一个名为AgentLens的框架，用于对软件工程（SWE）智能体的代码生成轨迹进行过程级评估。该研究发现，在通过测试的轨迹中，约10.7%属于“幸运通过”，即通过盲目重试、无验证循环等混乱方式偶然成功的案例。研究还发布了包含1815条带注释轨迹的数据集AgentLens-Bench。

相关作者