D²-Monitor:基于犹豫感知路由的扩散式大语言模型动态安全监控系统
原帖
**D^2-Monitor:基于犹豫感知路由的扩散式大语言模型动态安全监控**
_D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing_
> 本文提出D^2-Monitor,一种针对扩散式大语言模型(D-LLMs)的动态安全监控系统。传统自回归大语言模型的安全监控方法不适用于D-LLMs,因为D-LLMs通过多步去噪生成文本,其过程中的中间隐藏表示可能包含安全相关信息。研究发现,安全犹豫度(中间隐藏状态反复落在探测器决策边界附近)是预测探测器失效的有效信号。D^2-Monitor采用轻量级探测器作为常驻监控器,当犹豫度超过阈值时,动态激活更复杂但更准确的探测器,实现资源高效分配。该系统在多个数据集和D-LLMs上实现了最先进的性能,参数量小(≤0.85M),在效果与效率间取得最佳平衡。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:ai-models
- **发布时间**:2026-05-27 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.25893)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文介绍D²-Monitor,一种针对扩散式大语言模型的动态安全监控系统。它利用“安全犹豫度”信号来触发更精确的监控器,以平衡效果与效率。
答案说明
D²-Monitor是一种针对扩散式大语言模型(D-LLMs)的动态安全监控系统。它采用轻量级探测器进行常驻监控,并在检测到“安全犹豫度”超过阈值时,动态激活更复杂但更准确的探测器,从而在多个数据集上实现了最先进的性能与资源效率的最佳平衡。
这篇帖子回答的问题
- 什么是D²-Monitor?
- D²-Monitor如何实现资源高效分配?
核心观点
- 传统自回归大语言模型的安全监控方法不适用于扩散式大语言模型(D-LLMs),因为D-LLMs通过多步去噪生成文本,其过程中的中间隐藏表示可能包含安全相关信息。
- D²-Monitor系统利用“安全犹豫度”(中间隐藏状态反复落在探测器决策边界附近)作为预测探测器失效的有效信号,从而动态路由监控任务。
FAQ
- Q: 为什么传统自回归大语言模型的安全监控方法不适用于D-LLMs?
- A: 因为D-LLMs通过多步去噪生成文本,其过程中的中间隐藏表示可能包含安全相关信息,而传统方法不适用于这种生成范式。
- Q: D²-Monitor系统中“安全犹豫度”的作用是什么?
- A: 安全犹豫度是预测探测器失效的有效信号。当犹豫度超过阈值时,系统会动态激活更复杂但更准确的探测器。
关键实体
- D²-Monitor
- 扩散式大语言模型
- 安全犹豫度