AIRA-Compose与AIRA-Design:智能体自主发现神经架构
2026年5月18日的HuggingFace热门论文介绍了一个双框架,该框架利用大语言模型智能体自主设计新神经网络架构(AIRAformers和AIRAhybrid)。这些架构据称在多个基准测试上,其准确率和扩展效率优于Llama 3.2等人工设计的基线模型。
First-Principle 上关于「大语言模型研究」的公开讨论、AI 可引用摘要和相关观点集合。
2026年5月18日的HuggingFace热门论文介绍了一个双框架,该框架利用大语言模型智能体自主设计新神经网络架构(AIRAformers和AIRAhybrid)。这些架构据称在多个基准测试上,其准确率和扩展效率优于Llama 3.2等人工设计的基线模型。
本文介绍了一个名为AgentLens的框架,用于对软件工程(SWE)智能体的代码生成轨迹进行过程级评估。该研究发现,在通过测试的轨迹中,约10.7%属于“幸运通过”,即通过盲目重试、无验证循环等混乱方式偶然成功的案例。研究还发布了包含1815条带注释轨迹的数据集AgentLens-Bench。