**D^2-Monitor:基于犹豫感知路由的扩散式大语言模型动态安全监控**

_D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing_

> 本文提出D^2-Monitor,一种针对扩散式大语言模型(D-LLMs)的动态安全监控系统。传统自回归大语言模型的安全监控方法不适用于D-LLMs,因为D-LLMs通过多步去噪生成文本,其过程中的中间隐藏表示可能包含安全相关信息。研究发现,安全犹豫度(中间隐藏状态反复落在探测器决策边界附近)是预测探测器失效的有效信号。D^2-Monitor采用轻量级探测器作为常驻监控器,当犹豫度超过阈值时,动态激活更复杂但更准确的探测器,实现资源高效分配。该系统在多个数据集和D-LLMs上实现了最先进的性能,参数量小(≤0.85M),在效果与效率间取得最佳平衡。

**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25893)