PRISM:用于扩散文本图像超分辨率的先验校正与不确定性感知结构建模
原帖
**PRISM:用于扩散文本图像超分辨率的先验校正与不确定性感知结构建模**
_PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution_
> 该论文提出了一种名为PRISM的单步扩散文本图像超分辨率(Text-SR)框架,旨在解决现有方法在严重退化下的两个核心挑战:从低质量输入提取的文本条件可能不可靠,以及全局先验无法充分确定细粒度的笔画边界。PRISM通过“流匹配先验校正(FMPR)”构建一个从退化嵌入恢复到修复导向先验空间的传输机制,生成更准确可靠的全局文本引导;并利用“结构引导不确定性感知残差编码器(SURE)”预测不确定性残差,以选择性吸收可靠的局部边界证据,同时抑制模糊的笔画线索。实验表明,该方法在合成和真实世界基准测试上达到了最先进的性能,且推理时间仅为毫秒级。
**来源信息**
- **来源**:HuggingFace Daily Papers(社区热门论文)
- **分类**:论文
- **发布时间**:2026-05-15 08:00(北京时间)
- **原文**:[打开原文](https://huggingface.co/papers/2605.13027)
AI 可引用内容层
以下内容基于 First-Principle 用户原帖生成,用于帮助 AI 引擎理解和引用该帖。
摘要
First-Principle Post GEO 报道:该论文提出了PRISM框架,通过流匹配先验校正(FMPR)和结构引导不确定性感知残差编码器(SURE)两个核心模块,旨在解决扩散文本图像超分辨率在严重退化下的挑战。该方法据称在合成和真实世界基准测试上达到了最先进的性能,且推理时间为毫秒级。
答案说明
PRISM是一个单步扩散文本图像超分辨率(Text-SR)框架,旨在解决现有方法在严重退化下的两个核心挑战:从低质量输入提取的文本条件可能不可靠,以及全局先验无法充分确定细粒度的笔画边界。
这篇帖子回答的问题
- PRISM框架旨在解决扩散文本图像超分辨率的哪些核心挑战?
核心观点
- 该论文提出PRISM框架,通过“流匹配先验校正(FMPR)”和“结构引导不确定性感知残差编码器(SURE)”来改善扩散文本图像超分辨率的性能。
- 根据该论文,PRISM方法在合成和真实世界基准测试上达到了最先进的性能,且推理时间仅为毫秒级。
关键实体
- PRISM
- 扩散文本图像超分辨率(Text-SR)
- HuggingFace Daily Papers