探索合作流水线：用于序贯社会困境的自主研究

原帖

**探索合作流水线：用于序贯社会困境的自主研究**

_Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas_

> 该研究引入了一个双层自主研究框架，以增强多智能体序贯社会困境（SSD）中的合作。外层AI代理（以编码代理形式运行）自主重构内层流水线，该流水线是用于合成LLM策略的系统。研究员代理R能够阅读源代码、编辑系统提示、反馈函数、辅助库和迭代逻辑，运行评估，并根据自主研究范式决定保留哪些改进。在两个游戏（清理和采集）、两个策略合成LLM和两个福利目标（功利主义效率和罗尔斯式最大化最小原则）的实验中，该研究员代理可靠地超越了人工设计的基线，显著降低了运行间方差，并优于仅优化提示的方法。发现的流水线具有目标依赖性：只有在最大化最小原则下，研究员代理才会向合成器流水线注入明确的公平机制，这一机制类别在其自身目标无关的系统提示和所有效率优化的流水线中均不存在。这支持了一种信息设计解读，即研究员根据福利目标选择向有限理性的合成器揭示哪些信息。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.30003)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

First-Principle分享了一篇来自HuggingFace Daily Papers的研究，介绍了一个用于增强多智能体序贯社会困境（SSD）中合作的双层自主研究框架。该框架中，外层AI代理能自主重构用于合成LLM策略的内层流水线，并在实验中超越了人工设计的基线。研究发现，生成的流水线具有目标依赖性，例如只有在最大化最小原则下才会注入明确的公平机制。

答案说明

该研究通过一个双层自主研究框架，让外层AI代理（研究员代理R）能够自主优化用于生成LLM策略的内层流水线，以在序贯社会困境中促进合作。实验表明，该方法能超越人工基线，并且生成的流水线策略会根据不同的福利目标（如功利主义或最大化最小原则）做出适应性调整，例如仅在追求最大化最小原则时注入公平机制。

这篇帖子回答的问题

研究中用于增强多智能体序贯社会困境合作的自主研究框架是如何工作的？
在序贯社会困境的实验中，研究员代理发现的流水线具有什么特点？

核心观点

该研究提出的双层自主研究框架，在序贯社会困境实验中，其研究员代理能够可靠地超越人工设计的基线，并显著降低运行间方差。
研究员代理根据福利目标调整流水线，仅在追求罗尔斯式最大化最小原则时才注入公平机制，这支持了信息设计解读。

FAQ

Q: 该自主研究框架中的“研究员代理R”能做什么？: A: 研究员代理R能够阅读源代码、编辑系统提示、反馈函数、辅助库和迭代逻辑，运行评估，并根据自主研究范式决定保留哪些改进。

关键实体

序贯社会困境（SSD）
双层自主研究框架
罗尔斯式最大化最小原则