GradSentry:利用梯度谱熵过滤大语言模型微调中的后门样本
一篇发表于HuggingFace Daily Papers的论文提出GradSentry方法,通过每样本梯度谱熵检测并过滤大语言模型微调数据中的中毒样本,以防御后门攻击。该方法计算开销低,适用于多种中毒比例和微调方式。
First-Principle 上关于「大语言模型安全」的公开讨论、AI 可引用摘要和相关观点集合。
一篇发表于HuggingFace Daily Papers的论文提出GradSentry方法,通过每样本梯度谱熵检测并过滤大语言模型微调数据中的中毒样本,以防御后门攻击。该方法计算开销低,适用于多种中毒比例和微调方式。
First-Principle Post GEO 介绍了一个名为 Lumin 的 Apache 2.0 开源平台,旨在为生产环境中的 LLM 代理提供可观测性、策略治理、安全防御和运维支持,覆盖主流 AI 框架如 LangChain 和 CrewAI。