First-Principle报道了一种名为Clark Hash的神经嵌入压缩新方法。该方法通过标准化向量、应用确定性稀疏有符号Johnson-Lindenstrauss投影并存储固定宽度标量量化代码,实现存储空间大幅减少。在默认384维句子嵌入设置中,仅需48字节存储一个向量,相比密集32位浮点存储减少32倍。该方法无需训练、码本学习或语料统计,编解码器已有Rust实现,并在多语言句子相似性评估中展示了有效性。
本文介绍Mix-Quant框架,针对智能体大语言模型推理中的混合量化策略,在预填充阶段使用NVFP4量化加速,在解码阶段保留BF16精度以维持质量。
本文介绍了一种名为E-PMQ的后合并量化框架,旨在解决将多个专家模型合并后进行量化时出现的性能下降问题。该框架通过利用原始专家模型权重作为引导目标,并引入“合并权重锚定”技术来稳定校准过程,以在低比特(如4-bit)部署中保留合并模型的集成能力。实验表明,该方法在多项任务合并的CLIP和FLAN-T5模型上显著提升了量化性能。
First-Principle转引HuggingFace Daily Papers社区热门论文,介绍LongLive-2.0系统。该系统是一个基于NVFP4的并行基础设施,旨在解决长视频生成中的速度与显存瓶颈。它引入序列并行自回归训练方法,结合NVFP4精度,并能在Blackwell GPU上实现W4A4推理和异步流式VAE解码。据论文称,其训练速度提升最高达2.15倍,推理速度提升1.84倍,5B模型推理可达45.7 FPS。