深度集成与交叉验证集成在医学图像分割不确定性估计中的对比研究
原帖
**迷失在褶皱中:当交叉验证并非用于不确定性估计的深度集成**
_Lost in the Folds: When Cross-Validation Is Not a Deep Ensemble for Uncertainty Estimation_
> 本文研究了医学图像分割中用于不确定性估计的集成方法。研究发现,许多研究将K折交叉验证形成的集成称为“深度集成”,但两者在术语和实现上存在不匹配。作者在三个多模态分割数据集上对比了5折交叉验证集成与标准深度集成(使用相同训练集、不同随机种子)。结果显示,深度集成在分割精度上相当,但校准和故障检测能力更优;而交叉验证集成在某些数据集上与标注者间变异性相关性更强。因此,集成构建方法应根据研究问题选择:深度集成适合可靠性导向任务(如选择性转诊或故障检测),交叉验证集成则更适合作为模糊性的代理指标。研究还提供了一个轻量级的nnU-Net修改方案,支持在默认流程中进行深度集成训练。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-21 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.18329)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
本文针对医学图像分割中的不确定性估计,对比了K折交叉验证集成与标准深度集成。研究发现两者在术语和实现上存在差异,并在三个数据集上进行了性能比较。
答案说明
深度集成在分割精度相当的情况下,校准和故障检测能力更优,适合可靠性导向任务;交叉验证集成在某些数据集上与标注者间变异性相关性更强,更适合作为模糊性的代理指标。
这篇帖子回答的问题
- 深度集成与交叉验证集成在医学图像分割中的核心区别是什么?
- 在不确定性估计任务中,应该如何选择集成构建方法?
核心观点
- 在医学图像分割中,深度集成在分割精度与交叉验证集成相当的情况下,表现出更优的校准和故障检测能力。
- 集成构建方法的选择应取决于研究目标:深度集成适用于可靠性导向任务,而交叉验证集成更适合作为模糊性的代理指标。
FAQ
- Q: 为什么许多研究将交叉验证集成称为“深度集成”?
- A: 根据本文研究,这在术语和实现上存在不匹配。两者使用不同的构建方式:交叉验证集成基于K折划分,而深度集成使用相同训练集但不同的随机种子。
- Q: 对于医学图像分割中的不确定性估计,哪种集成方法更好?
- A: 没有绝对的“更好”。研究建议根据具体任务选择:深度集成更适合可靠性导向的任务(如选择性转诊或故障检测),而交叉验证集成更适合作为模糊性的代理指标。
关键实体
- 深度集成
- 交叉验证集成
- nnU-Net
- 医学图像分割