仅用64个token生成高清图像,MacTok攻破连续分词器后验坍塌难题
![]()
本文作者团队来自复旦大学,共同第一作者为复旦大学曾恒宇(生物医学工程专业二年级硕士)和高鑫(应用数学专业三年级硕士,即将赴耶鲁大学攻读计算机科学博士),通讯作者为浦剑教授。
在视觉生成领域,提升扩散模型或自回归模型的推理效率,关键在于将图像压缩为更少量的 token。当前主流的图像分词器分为离散(如 VQ-VAE、VQ-GAN)与连续(如 KL-VAE)两派。离散分词器虽然应用广泛,但其不可求导的量化过程需要进行梯度近似,容易引入量化误差。相比之下,连续分词器摒弃了硬性的离散码本,保留了连续平滑的潜在空间,原生支持梯度优化并能容纳更丰富的表征细节,因此被视为更具潜力的压缩范式。
然而,连续分词器在极度压缩(例如仅使用 64 个 token)时,会面临一个核心挑战:强 KL 正则化会导致潜在空间严重退化。编码器常常无法有效写入语义特征,而是直接向先验分布妥协,引发严重的「后验坍塌」(posterior collapse)。这往往会导致重建或生成的图像失去细节。
本文提出的MacTok(Masked Augmenting 1D Continuous Tokenizer)从连续分词器的底层逻辑出发,提出了一种简洁实用的核心洞察:只有让潜在空间学会真正「富含语义」的表征,才能彻底杜绝后验坍塌。为了达成这一目标,MacTok 脱离了单一层面的局部魔改,而是在图像空间与表征空间进行了双管齐下的协同设计。
![]()
论文标题:MacTok: Masked Augmenting 1D Continuous Tokenizer for Efficient Image Generation论文链接:https://arxiv.org/pdf/2603.29634
在图像空间层面,MacTok 引入了随机掩码与语义掩码(Semantic Masking)的混合机制,强迫模型在最残缺的条件下补全最高信息密度的焦点区域;在表征空间层面,则利用全局(Global)与局部(Local)的表征同时对齐来直接约束潜在空间的语义结构。
结合两者的协同机制,MacTok 仅需 64 或 128 个 token,便在 ImageNet 256×256 上实现了 1.44 的 gFID,在 512×512 上达到了 1.52 的 gFID,其实际使用的 token 数量相比传统方法压缩了 64 倍。该工作已被 CVPR 2026 录用并入选为Highlight论文!
![]()
「化繁为简」:重新认知连续分词器与后验坍塌
既然离散分词器技术已相对成熟,为何业界仍需深入探讨连续分词器?主要原因在于离散码本的表征瓶颈逐渐显现,而连续空间拥有良好的数学连续性和原生梯度优势,具备更高的优化潜力。但是,要让连续分词器走向商业可用,就必须解决「后验坍塌」这一技术阻碍。
后验坍塌的直观表现是,潜在空间中的各类特征严重重叠,解码器生成的往往是一片模糊。从本质上看,这是由于在强正则约束与稀缺 Token 的双重限制下,模型倾向于选择最容易满足先验分布的优化路径,而非去刻画复杂的图像语义。
![]()
学术界此前的解法大多专注于调低正则强度或加入循环退火系数,这类基于损失函数层面的调整难以触及问题根源。若直接套用普通的随机掩码策略(如直接遮挡 Latent Token),在 64 Token 的苛刻限制下,也会因后期训练的信息流失而再度引发坍塌。
MacTok 团队提出,改变模型这种「优化怠情」的唯一做法是促使其学习到具备丰富语义信息的表征。为此,MacTok 放弃了单一维度的修修补补,提出了一个统筹图像空间(Image Space)与表征空间(Representation Space)的双管齐下方案:在图像端通过掩码提高「考题难度」,在表征端通过对齐直接注入语义引导,构建了一个鲁棒的抗坍塌学习环境。
双空间协同设计:从图像到表征的语义注入
MacTok 团队意识到,避免后验坍塌的核心宗旨只有一个:必须迫使模型学到具有丰富语义信息的表征。为了达成这一目标,不能仅仅依赖常规的特征对齐,必须在图像空间和表征空间同时作用,完成双管齐下的语义注入。
首先是在图像空间的设计。在输入端施加重度掩码可以为模型提供一个更难的预测目标,从而提升模型特征提取的鲁棒性。为进一步强化对语义的关注,MacTok 引入了混合掩码策略:
随机掩码(Random Masking):提供基础的重建挑战,促使模型建立更稳健的结构映射。
语义掩码(Semantic Masking):这是在图像层面注入语义保留意识的关键。系统会评估图像各个区域的语义重要性,并优先遮挡「富含最高语义」的区域。使得模型在预测残缺图像时,必须更加关注深层语义信息的推理与关联,而非基于简单纹理的像素填补。
如下方曲线图所示,引入语义掩码后其生成质量有显著提升,实验测定最优的图像掩码比例在 70% 左右:
![]()
其次是在表征空间的直接约束。在图像空间的重建约束之外,MacTok 还引入了全局与局部表征对齐(Global and Local Alignment)。具体而言,分词器的 Latent token 不仅在局部维度上与细粒度的 Patch 特征对齐,还在全局维度上与高度浓缩宏观语义的 CLS 特征对齐。
图像空间层面的语义掩码(增加理解难度),配合表征空间层面的全局-局部对齐(指明优化方向),两者相辅相成。这套双空间协同机制共同构筑了连续潜在空间高度的语义鲁棒性,从根本上阻断了后验坍塌的发生。
![]()
突破压缩极限:主流 Benchmark 上的表现
在主流验证基准上,主打极少 token 的 MacTok 保持了极高的运行效率和视觉质量。
1. 256×256 分辨率下的表现
![]()
与使用大基数 token 的生成模型相比,MacTok 具备较为明显的单 token 信息密度优势。
可以看到,仅使用 64 个 token 的 MacTok,在无 CFG 的测试条件下获得了优于 SoftVQ-VAE 的生成结果(gFID 降低了 2.21)。128 token 的 MacTok 则达到了与拥有 1024 token 的主流基线模型(如 REPA 对应 gFID 1.42)相近的水平。
2. 512×512 分辨率下的扩展能力
在 512×512 分辨率下,模型需处理的图像信息量成倍增长,而 MacTok 的各项核心指标并未出现衰减:
![]()
在 512×512 测试中,MacTok 的 128 token 与 64 token 版本均取得了 1.52 的 gFID 与超过 306.0 的 IS(Inception Score),在大幅缩减序列长度的同时维持了该量级的领先效果。
总结
借助 UMAP 降维可视化,我们可以客观地评估该方法在潜在空间特征分布上的改善:相比以往方法常出现的因坍塌而严重重叠的随机点阵,MacTok 更能明确保持各语义类别的聚类结构。
![]()
MacTok 的研究成果说明,后验坍塌的根源在于强正则条件体系下缺乏足够有效的数据特征引导约束。在不改变原生分词架构基础结构的前提下,仅仅通过在图像输入层引入具有挑战性的语义掩码重建任务,即可极大激活连续潜在空间编码深层信息的潜能。面对未来对图像生成分辨率、吞吐延迟要求越来越苛刻的大模型场景,MacTok 提供了一项具有较高实用价值的技术参照方案。