**大型语言模型在在线影响力活动中的红队测试**

_How Far Will They Go? Red-Teaming Online Influence with Large Language Models_

> 该研究引入了一个红队测试框架,用于衡量开源大型语言模型(LLM)在政治话题上的表达范围(Overton Window),并量化简单的自然语言越狱技术如何扩大这一范围。研究评估了来自10个模型家族、5个国家的30多个开源LLM,发现其政治表达存在系统性不对称:开源LLM通常更倾向于生成左倾社交媒体内容,模型尺寸越大表达范围反而收缩,且尽管开源生态系统中各国代表不均,但仍存在显著地区差异。越狱技术的效果在不同模型家族间差异巨大,这促使研究者提出了一个工作流程来识别有效的越狱技术组合。该框架为审计开源LLM的政治可操纵性、帮助未来研究者设计更强的反制措施提供了实用工具。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-26 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.22880)