发布时间:2026-02-17 作者:admin
今日,美团LongCat团队正式推出并开源了图像生成模型LongCat-Image。该模型依托高性能的架构设计、系统化的训练策略与数据工程,在参数规模仅为6B的情况下,于文生图及图像编辑的核心能力层面,成功实现了对更大参数规模模型效果的逼近。
LongCat-Image 运用文生图与图像编辑同源的架构设计,搭配渐进式学习策略,在仅 6B 的精简参数规模下,达成了指令遵循精准度、生图质量与文字渲染能力的高效协同增强。特别是在单图编辑的可控性和文字生成的汉字覆盖度上具备独特优势。
亮点一:图像编辑高度可控
LongCat-Image 在图像编辑领域的多个重要基准测试中(如 GEdit-Bench、ImgEdit-Bench)均达到开源 SOTA 水平,实现性能突破的背后在于一套紧密协同的训练范式和数据策略。为有效继承文生图模型的知识和美感,同时避免文生图后训练阶段收窄的状态空间对编辑指令多样性的限制,基于文生图 Mid-training 阶段模型进行初始化,并采用指令编辑与文生图多任务联合学习机制,深化对复杂多样化指令的理解。此外通过预训练阶段的多源数据及指令改写策略,以及 SFT 阶段引入人工精标数据,最终实现了指令遵循精准度、泛化性和编辑前后视觉一致性的共同提升。
亮点二:中文文字生成实现精准覆盖
为解决中文文本渲染这一行业难题,LongCat-Image借助课程学习策略来增强字符覆盖范围与渲染精准度:预训练环节依托千万级合成数据学习字形,可覆盖通用规范汉字表的8105个汉字;SFT阶段导入真实世界的文本图像数据,以提升在字体、排版布局方面的泛化性能;RL阶段整合OCR与美学双重奖励模型,进一步提高文本的准确性以及与背景融合的自然程度。另外,通过对prompt里指定要渲染的文本采用字符级编码方式,显著减轻模型的记忆压力,让文字生成的学习效率得到大幅提升。凭借这一能力的支持,能够有效满足海报设计、商业广告制作等场景中复杂笔画结构汉字的渲染需求,同时也能应对古诗词插图、对联、门店招牌、文字Logo等设计场景下的生僻字渲染任务。
此外,LongCat-Image借助系统性的数据筛选机制与对抗训练框架,有效增强了生成图像的纹理细节表现与真实感。在预训练及中期训练环节,团队对AIGC数据进行严格过滤,以此规避模型陷入“塑料感”纹理的局部最优困境;进入SFT阶段后,所有训练数据均经过人工精细筛选,确保与大众审美偏好对齐;而在RL阶段,项目创新性地引入AIGC内容检测器作为奖励模型,通过其输出的对抗信号反向引导模型学习真实世界中的物理纹理、光影变化与材质质感。
客观基准评测
全面的客观基准测试充分验证了LongCat-Image的核心竞争力:在图像编辑任务中,它在ImgEdit-Bench取得4.50分、在GEdit-Bench中英文分别获得7.60分与7.64分,这些成绩不仅达到开源领域的SOTA水平,还已逼近头部闭源模型的表现;在文字渲染方面,其在ChineseWord评测中以90.7分的成绩大幅领先所有参与评测的模型,实现了常用字与生僻字的全量精准覆盖;而在文生图任务上,GenEval 0.87分、DPG-Bench 86.8分的表现,让它在生图基础能力上相比头部开源和闭源模型依然具备强劲的竞争力。
综合主观评测
在评估模型的通用能力时,我们始终把用户的真实体验置于核心位置。为此,我们运用业界广泛认可的主观评价方式,针对 LongCat-Image 在“文本生成图像”和“图像编辑”这两大关键应用场景中的表现,开展了全面且系统的评估工作。
在文生图领域,我们运用大规模人工主观评分(MOS)机制,重点围绕文本-图像对齐、视觉合理度、视觉真实度、美学质量这四个核心维度展开评估。结果显示,LongCat-Image在视觉真实度上相较于主流的开源与闭源模型均有出色表现,同时在文本-图像对齐和视觉合理度方面达到了开源模型中的SOTA水准。 而在图像编辑方面,我们采用了严格的并列对比评估(Side-by-Side, SBS)方法,聚焦于综合编辑质量与视觉一致性这两个直接影响用户体验的关键维度。评测数据表明,尽管LongCat-Image与Nano Banana、Seedream 4.0等商业模型相比仍存在一定差距,但已显著超越了其他开源方案。
为了打造一个更透明、开放且协作的开源生态,我们已将文生图的多阶段模型(包括Mid-training与Post-training阶段)以及图像编辑模型进行全面开源,致力于为前沿研究到商业落地的全链路提供无缝支持。我们始终相信,技术的真正突破离不开社区的集体智慧。在此诚挚邀请所有开发者体验模型、参与共建,让我们携手基于这一高效能模型,开拓视觉生成领域的更多可能性。
发布于 2026-03-10 16:05:18
发布于 2026-03-10 16:05:14
发布于 2026-03-10 16:04:40
发布于 2026-03-10 16:04:34
发布于 2026-03-10 16:04:30
发布于 2026-03-10 16:03:55