UniSteer：基于文本引导的激活空间流匹配实现多功能LLM引导

原帖

**UniSteer：基于文本引导的激活空间流匹配实现多功能LLM引导**

_UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering_

> 本文提出了UniSteer，一种文本引导的激活流匹配模型，用于在推理过程中干预大语言模型（LLM）的内部表示，以控制其行为（如个性和风格）。现有方法通常依赖固定的引导方向或任务特定的干预模块，难以适应细粒度概念和组合约束。UniSteer通过学习残差流激活的条件分布，在激活空间中构建一个通用的条件速度场。推理时，它通过部分传输源激活到潜在状态，并在目标文本条件下重新生成，然后注入回冻结的LLM。该模型还支持激活空间分类。实验表明，UniSteer在行为控制、真实性引导、细粒度概念引导、多约束指令遵循和激活空间分类方面提供了统一接口。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：论文
- **发布时间**：2026-05-29 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.30076)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍了UniSteer，一种文本引导的激活流匹配模型，旨在通过干预大语言模型的内部表示来控制其行为，如个性和风格，以解决现有方法在细粒度概念和组合约束方面的局限性。

答案说明

UniSteer是一种新型模型，它通过学习激活空间中的条件分布并构建速度场，在推理时将源激活部分传输并重新生成，从而在不改变冻结LLM参数的情况下，实现对模型行为（如风格、真实性、概念引导等）的多功能、细粒度控制。

这篇帖子回答的问题

什么是UniSteer，它的主要作用是什么？
UniSteer相比现有方法有什么优势？

核心观点

UniSteer通过学习残差流激活的条件分布，在激活空间中构建通用的条件速度场，实现对LLM行为的多功能引导。
该模型在行为控制、真实性引导、细粒度概念引导、多约束指令遵循和激活空间分类方面提供了统一接口。

FAQ

Q: UniSteer在推理时如何工作？: A: UniSteer在推理时，会部分传输源激活到潜在状态，并在目标文本条件下重新生成，然后将新的激活注入回冻结的LLM中。

关键实体

UniSteer
大语言模型