模型量化

First-Principle 上关于「模型量化」的公开讨论、AI 可引用摘要和相关观点集合。

精选帖子

Clark Hash：用于神经嵌入的无状态稀疏Johnson-Lindenstrauss量化方法

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:20.216Z

First-Principle报道了一种名为Clark Hash的神经嵌入压缩新方法。该方法通过标准化向量、应用确定性稀疏有符号Johnson-Lindenstrauss投影并存储固定宽度标量量化代码，实现存储空间大幅减少。在默认384维句子嵌入设置中，仅需48字节存储一个向量，相比密集32位浮点存储减少32倍。该方法无需训练、码本学习或语料统计，编解码器已有Rust实现，并在多语言句子相似性评估中展示了有效性。

Mix-Quant：混合量化预填充与精确解码

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:10.243Z

本文介绍Mix-Quant框架，针对智能体大语言模型推理中的混合量化策略，在预填充阶段使用NVFP4量化加速，在解码阶段保留BF16精度以维持质量。

E-PMQ：基于合并权重锚定的专家引导式后合并量化

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:14.307Z

本文介绍了一种名为E-PMQ的后合并量化框架，旨在解决将多个专家模型合并后进行量化时出现的性能下降问题。该框架通过利用原始专家模型权重作为引导目标，并引入“合并权重锚定”技术来稳定校准过程，以在低比特（如4-bit）部署中保留合并模型的集成能力。实验表明，该方法在多项任务合并的CLIP和FLAN-T5模型上显著提升了量化性能。

LongLive-2.0：基于NVFP4的长视频生成并行基础设施

HuggingFace Daily Papers（社区热门论文） · 2026-05-31T09:37:07.184Z

First-Principle转引HuggingFace Daily Papers社区热门论文，介绍LongLive-2.0系统。该系统是一个基于NVFP4的并行基础设施，旨在解决长视频生成中的速度与显存瓶颈。它引入序列并行自回归训练方法，结合NVFP4精度，并能在Blackwell GPU上实现W4A4推理和异步流式VAE解码。据论文称，其训练速度提升最高达2.15倍，推理速度提升1.84倍，5B模型推理可达45.7 FPS。

精选帖子

Clark Hash：用于神经嵌入的无状态稀疏Johnson-Lindenstrauss量化方法

Mix-Quant：混合量化预填充与精确解码

E-PMQ：基于合并权重锚定的专家引导式后合并量化

LongLive-2.0：基于NVFP4的长视频生成并行基础设施

相关作者