
OpenAI的GPT-4O在理解图像,生成和编辑任务时表现出一流的表现。流行的体系结构想象力是:令牌→[自动回归模型]→[建模模型]→图片像素这种混合体系结构结合了自动进度模型的好处和扩散。 Salesforce Research,马里兰大学,弗吉尼亚大学,纽约大学和华盛顿大学的研究人员还采用了自动估计 +扩散框架(统一的多模型BLIP3-O)。纸张标题:Blip3-o:一个开放统一的多模型模型-Architection,培训和数据论文的家族:https://arxiv.org/pdf/2505.09568v1github代码:https://github.com/jiuuaichen //huggingface.co/datasets/blip3o/blip3o/blip3o-crefin-long-preftion指令细微调:https://huggingface.co/datasets/blip3o/blip the自动型自动型型号连续的中间中间fea为了估计图像的真实表示形式,这两个关键问题:真实特征资源(地面真实功能):带有带有VAE或剪辑的连续特征的图像?特征对齐:使用MSE损失,或使用流量匹配来对齐预测和真实特征?多模式状态下图像生成的研究人员将检查两个图像 - 编码 - 参数:vae:低级别像素特征的ICODE图像,以提高重建质量。但是,当VAE编码更高的分辨率输入时,它会形成更长的onevector,从而增加了训练期间的计算负担。剪辑 +扩散:首先以高语义特征映射图像,然后通过扩散模型重建真实图像。在实际操作中,将首先使用剪辑获得图像功能,然后将基于夹子功能训练扩散模型以重新形成图像。这种方法的优点是,无论TH的图像的分辨率如何E细化,每个图像都可以编码为连续矢量的固定长度(例如向量长度64)。这种编码方法可能具有更好的图像压缩率。但是需要进一步的训练才能使扩散模型适应不同的夹子编码器。对于通过自回旋模型和VAE/剪辑提供的特征所预测的视觉特征,训练目的有两种类型:MSE:计算正方形误差流动目标的含义。有三个设计选项:剪辑 + MSE:在不可预测的表示形式和真实表示的剪辑(例如EMU2和SEEDX)之间缩小MSE。形成图片时,自回归模型形成视觉特征。基于此视觉功能,使用扩散模型来读取图片。剪辑 +流量匹配:使用匹配损耗的列车变压器扩散,以根据自回归模型预测的视觉特征来预测真实的剪辑表示。形成图片时,自回归的moDEL形成视觉特征。基于此视觉功能,变压器扩散会生成剪辑功能,然后使用Manswer一个扩散模型根据此剪辑功能读取图片。整个过程涉及两个传播过程,这是第一次形成剪辑功能,第二次形成真实图片。 VAE +流量匹配:使用流匹配损耗训练变压器扩散,以根据自回旋模型预测的视觉特征来预测真实的VAE表示。形成图片时,自回归模型形成视觉特征。基于此视觉特征,变压器扩散生成了由VAE解码器生成的VAE特征。标题:在单个多模式模型中,图像生成有三种设计解决方案。所有方案都使用自动进度 +扩散的框架,但与图像生成的组成部分有所不同。对于溪流损失的一体,请保持自回归模型冻结,只有微调图像生成模块(变压器扩散)以保持模型语言功能。下图比较了在相同设置下这三个解决方案的性能,证明匹配的夹流 +可以在立即对齐,图像差异和视觉质量之间实现最佳平衡。标题:对各种研究人员方案的比较发现了图形示例,当一代集成到统一模型中时,自回归模型学习语义水平(剪辑)而不是像素(VAE)特征(VAE)。同时,使用匹配流程作为目标训练可以更好地获得图像分布,从而导致样本差异更丰富,视觉质量更好。扩散过程有两个阶段。与阶段的传统扩散模型相比,图像的产生分为两个阶段。自回旋模型的第一阶段和变压器扩散是导致DEVE的原因语义特征的收益。在第二阶段,使用轻型扩散模型来完成低级特征,从而大大降低了训练压力。通过剪辑编码器对图像和生成的统一理解,理解图像的图像和生成具有相同的语义空间,实现了两者的统一性。研究人员使用顺序训练而不是早期融合,因为:自回归模型可以冻结以保持理解其形象的能力;所有正在实践训练的人都集中在图像生成模块中,以防止多任务之间的干扰。标题:早期融合会同时更新理解和发电模块,顺序训练(晚期融合)首先独立匹配“理解”,然后冻结脊柱,只有火车“化妆”。 BLIP3-O:基于上述比较的统一的多模型模型,研究人员选择了匹配的夹 +流量Y-STEP训练(晚期集成)以4B和8B参数图像字符(标题)形成Blip3-or:均由QWEN-2.5-VL-7B结构形成,平均为120个令牌;为了增强对简短信号的适应,另外约10%(6m)短字幕(20令牌)4B参数开放模型资源:纯25m开放图形源和文本对,以及〜10%(3M)短字幕的适当存储器指导:GPT-4O生成高质量的高质量示例的60k,高质量的改进及时提高及时的及时及时的动力学。所有代码,模型和数据都单独打开。欢迎尝试!标题:BLIP3-O可视化样本研究人员发现,该模型可以快速适应GPT-4O样式,并提供了以下说明和视觉质量的提高。字幕:图像理解性能字幕:图像生成的基线性能和手动评估结论本文有系统地探讨了结合自动估计和扩散体系结构的统一的多模型建模E第一次,评估三个关键维度:图像表示(剪辑功能与VAE功能),训练目标(流程匹配与MSE)和训练策略(与SIM SIM转晚融合相比,早期融合)。实验结果表明,嵌入流量损失的夹子的整合不仅有助于训练速度,而且还提高了发电的质量。基于这些发现,本文介绍了Blip3-O,一系列高级统一的多模型模型,并通过Blip3O-60K 60,000指令设置的数据,这大大改善了即时的对齐效果和视觉美感。研究人员还积极对模型进行模型研究,包括图像图像编辑,视觉对话和连续的视觉推理。