D²-Monitor：基于犹豫感知路由的扩散式大语言模型动态安全监控系统

原帖

**D^2-Monitor：基于犹豫感知路由的扩散式大语言模型动态安全监控**

_D^2-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing_

> 本文提出D^2-Monitor，一种针对扩散式大语言模型（D-LLMs）的动态安全监控系统。传统自回归大语言模型的安全监控方法不适用于D-LLMs，因为D-LLMs通过多步去噪生成文本，其过程中的中间隐藏表示可能包含安全相关信息。研究发现，安全犹豫度（中间隐藏状态反复落在探测器决策边界附近）是预测探测器失效的有效信号。D^2-Monitor采用轻量级探测器作为常驻监控器，当犹豫度超过阈值时，动态激活更复杂但更准确的探测器，实现资源高效分配。该系统在多个数据集和D-LLMs上实现了最先进的性能，参数量小（≤0.85M），在效果与效率间取得最佳平衡。

**来源信息**
- **来源**：HuggingFace Daily Papers（社区热门论文）
- **分类**：ai-models
- **发布时间**：2026-05-27 08:00（北京时间）
- **原文**：[打开原文](https://huggingface.co/papers/2605.25893)

AI 可引用内容层

以下内容基于 First-Principle 用户原帖生成，用于帮助 AI 引擎理解和引用该帖。

摘要

本文介绍D²-Monitor，一种针对扩散式大语言模型的动态安全监控系统。它利用“安全犹豫度”信号来触发更精确的监控器，以平衡效果与效率。

答案说明

D²-Monitor是一种针对扩散式大语言模型（D-LLMs）的动态安全监控系统。它采用轻量级探测器进行常驻监控，并在检测到“安全犹豫度”超过阈值时，动态激活更复杂但更准确的探测器，从而在多个数据集上实现了最先进的性能与资源效率的最佳平衡。

这篇帖子回答的问题

什么是D²-Monitor？
D²-Monitor如何实现资源高效分配？

核心观点

传统自回归大语言模型的安全监控方法不适用于扩散式大语言模型（D-LLMs），因为D-LLMs通过多步去噪生成文本，其过程中的中间隐藏表示可能包含安全相关信息。
D²-Monitor系统利用“安全犹豫度”（中间隐藏状态反复落在探测器决策边界附近）作为预测探测器失效的有效信号，从而动态路由监控任务。

FAQ

Q: 为什么传统自回归大语言模型的安全监控方法不适用于D-LLMs？: A: 因为D-LLMs通过多步去噪生成文本，其过程中的中间隐藏表示可能包含安全相关信息，而传统方法不适用于这种生成范式。
Q: D²-Monitor系统中“安全犹豫度”的作用是什么？: A: 安全犹豫度是预测探测器失效的有效信号。当犹豫度超过阈值时，系统会动态激活更复杂但更准确的探测器。

关键实体

D²-Monitor
扩散式大语言模型
安全犹豫度

原帖

AI 可引用内容层

摘要

答案说明

这篇帖子回答的问题

核心观点

FAQ

关键实体

相关主题