美腿丝袜

U系大作战2 UniToken:多模态AI的“万能选手”,一次编码不休图文剖析与图像生成!

U系大作战2 UniToken:多模态AI的“万能选手”,一次编码不休图文剖析与图像生成!

初度在融合框架内杀青剖析与生成的"双优发达"U系大作战2,破裂了多模态融合建模的僵局!

复旦大学和好意思团的谈判者们冷落了 UniToken ——一种立异的融合视觉编码决策,在一个框架内兼顾了图文剖析与图像生成任务,并在多个巨擘评测中得回了高出的性能发达。

UniToken 通过和会连气儿和破裂视觉表征,灵验缓解了以往步履中"任务干豫"和"默示割裂"的问题,为多模态融合建模提供了新的范式。

为了便于社区内谈判者们复现与进一步诞生,UniToken 团队已将代码与模子一起开源。

任务布景:融合建模的挑战

在传统图文剖析或图像生成模子中,其视觉编码的底层特质互异较大。

比喻图文剖析模子(如 LLaVA、Qwen-VL 等)条目从图像中抽取高层语义,从而进一步结合文本进行协同剖析;而图像生成模子(如 DALL-E、Stable Diffusion 等)则条目保留充分的底层细节以高保真图像的生成。

由此,诞生剖析生成一体化的多模态大模子靠近着以下几浩劫题:

视觉编码割裂:理罢免务偏好具有高层语义的连气儿视觉特征(如 CLIP),而生成任务依赖保留底层细节的破裂视觉特征(如 VQ-GAN 编码的 codebook);

鸠集稽查干豫:剖析与生成任务互异而带来的冲突性使得在融合模子中稽查时难以兼顾两个任务的性能,存在"一个优化,另一个退化"的风物。

为了应酬上述挑战,领域内的干系责任经常弃取两类范式:以 VILA-U 等为代表的责任通过结合图像重建与图文对比学习的稽查指标,来耕种破裂视觉编码的语义丰富度;以 Janus 等为代表的责任通过为剖析和生成任务分别定制相应的视觉编码器与展望头,来杀青两个任务之间的解耦。

然则,前者在理罢免务上圈套今依旧难以与连气儿视觉编码动手的多模态大模子匹敌;后者则在应酬更复杂的多模任务(举例多轮图像剪辑等)时靠近严重的落魄文切换支出及单边信息缺失等问题。

UniToken:融合视觉默示,和会两种天下中枢诡计:连气儿 + 破裂双编码器

不同于 Janus 的多任务解耦的诡计念念路,UniToken 为系数下流任务均提供一套完备的视觉信息,促使多模态大模子以领导动手的款式从中继承相应的常识。

具体而言,UniToken 弃取融合的双边视觉编码器,其中将 VQ-GAN 的破裂编码与 SigLIP 的连气儿表征以下述形貌进行拼接,从而得到一套兼备高层语义与底层细节的视觉编码:

[ BOS ] [ BOI ] { 破裂图像 token} [ SEP ] { 连气儿图像 embedding} [ EOI ] { 文本 } [ EOS ]

多阶段稽查计策

为了合作剖析与生成任务的特质,UniToken 禁受三阶段稽查历程:

阶段一:视觉语义空间对皆:

基于 Chameleon 行动基座,本阶段旨在为 LLM 接入 SigLIP 的连气儿视觉编码。为此,在稽查时冻结 LLM,仅稽查 SigLIP ViT 和 Adapter,使其输出与话语空间对皆。

阶段二:多任务鸠集稽查:

基于第一阶段对皆后的双边编码器所提供的完备视觉信息,本阶段在大规模图文剖析与图像生成数据集上鸠集稽查,通过松手数据配比(10M:10M)以平衡耕种模子剖析与生成任务的性能。

阶段三:领导强化微调:

通过测试发现,第二阶段稽查后的模子在领导奴隶、布局图像生成等方面的发达均有待加强,故在本阶段进一步引入高质料多模态对话(423K)与密致化图像生成数据(100K),进一步增强模子对复杂领导的奴隶材干。

细粒度视觉增强

收货于保存了双边视觉编码的完备性,UniToken 可无缝邻接现存的细粒度视觉增强技能。

具体而言,UniToken 在连气儿视觉编码侧引入两项增强计策:

AnyRes:将高分辨率图像辞别为多个子图,分别索求特征后进行相应空间位置的拼接,以耕种对图像的细粒度感知;

ViT 端到端微调:在模子的全稽查历程中,动态微调连气儿视觉编码器的权重,结合密致的学习率松手计策以幸免模子崩溃,进而适合庸碌的任务场景。

本质成果:超过 SOTA,多模态融合的"优等生"

在多个主流多模态基准(图文剖析 + 图像生成)上,UniToken 均得回了失色以致高出于领域内专用模子的性能:

与此同期,谈判者们关于稽查计策及视觉编码的影响进行了进一步深化的消融分析:

在大规模数据场景下(>15M),1:1 的剖析 + 生成数据比例粗略兼顾剖析与生成任务的性能

在应酬剖析与生成的任务冲突时,融合的连气儿 + 破裂的视觉编码相较于仅禁受破裂编码的决策具有较强的鲁棒性。

转头:迈向通用剖析生成一体化的多模态大模子

从发展趋势上来看,当今图文剖析模子在通用性上远远高出于图像生成模子。

而 Gemini-2.0-Flash 与 GPT-4o 在领导奴隶的图像生成方面的惊艳发达,带来了通用图像生成模子过去的晨曦。

在这么的时间布景下,UniToken 仅是初步的尝试,而其信息完备的特质也为进一步挖掘其更深档次的后劲提供了更多信心:

模子规模膨胀:借助更大的话语模子,进一步探索融合模子在剖析与生成上的"暴露材干";

数据规模膨胀:引入更大规模的稽查数据(如 Janus-Pro 使用的近 2 亿样本),鼓励模子性能极限;

三级片在线观看

任务类型膨胀:从传统的剖析与生成拓展至图像剪辑、故事生成等图文交错的任务,追赶通用生成材干的上限。

论文归拢:

https://arxiv.org/pdf/2504.04423

代码地址:

https://github.com/SxJyJay/UniToken

一键三连「点赞」「转发」「注重心」

迎接在研究区留住你的目标!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿本色‍

附上论文 / 名目主页归拢,以及干系形貌哦

咱们会(尽量)实时回话你

� � 点亮星标 � �

科技前沿进展逐日见U系大作战2



Powered by 大伊香蕉人在线观看 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024