AI安全与对齐

First-Principle 上关于「AI安全与对齐」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

论文揭示大语言模型推理链忠诚度评估指标存在根本缺陷

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:09.589Z

一篇针对大语言模型推理链的忠诚度评估研究指出，当前常用的忠诚度指标（如置信度、重要性等）可能无法真实反映模型内部计算过程，导致对推理链的信任误判。

相关作者