当前位置:首页 > 休闲 > 无需标注图像,RL自我进化框架VisPlay突破视觉推理难题

无需标注图像,RL自我进化框架VisPlay突破视觉推理难题

2025-12-11 08:17:39 [知识] 来源:南宁市某某包装机械厂




在 Vision-Language Model 领域,无需提升其复杂推理能力通常依赖于耗费巨大的标注人工标注数据或启发式奖励。这不仅成本高昂,图像突破推理张掖市某某洗涤用品有限公司且难以规模化。自进

最新研究 VisPlay 首次提出了一个自进化强化学习框架,化框使 VLM 能够仅通过海量的视觉未标注图像数据进行自我演化和能力提升。

VisPlay 将基础 VLM 分解为「提问者」和「推理者」两大角色,难题通过迭代的无需自我进化机制协同进化,并结合 GRPO 算法和创新的标注张掖市某某洗涤用品有限公司多样性/难度奖励,平衡了问题的图像突破推理复杂度和答案的质量。



  • Title:VisPlay: Self-Evolving Vision-Language Models from Images
  • Paper:https://arxiv.org/abs/2511.15661
  • Github:https://github.com/bruno686/VisPlay

实验证明,自进VisPlay 在 Qwen2.5-VL 和 MiMo-VL 等主流模型上实现了持续的化框性能提升,尤其在视觉推理、视觉组合泛化和幻觉减少方面效果显著,难题展示了一条可扩展、无需低成本的多模态智能进化新路径。



引言:

VLM 推理能力的「数据困境」

近年来,Vision-Language Model(VLM)在感知任务上取得了不小的进展,但在更复杂的视觉推理上仍然吃力。主流的提升方式如指令微调(SFT)或强化学习(RL)都绕不开一个核心难题:依赖高质量标注数据。尤其是强化学习,需要精准且可验证的奖励信号,而这些往往要靠耗时费力的人工标注或针对具体任务设计复杂的规则。

随着模型规模越来越大,人工标注的成本和速度已经逐渐跟不上模型演化的需求,这也成为进一步提升能力的主要瓶颈。在这样的背景下,研究者开始尝试「自进化」(Self-Evolving)的思路,让模型能通过自我生成、自我修正以及从自身经验中持续学习,从而实现自主的能力迭代。

VisPlay:

基于自我进化的自进化框架

为解决上述挑战,由来自伊利诺伊大学厄巴纳-香槟分校、华盛顿大学圣路易斯分校、马里兰大学、新加坡国立大学的研究团队提出的 VisPlay 框架,首次将自进化强化学习应用于 VLM,并实现仅依赖未标注图片进行自主学习。

VisPlay 的核心理念是自我进化(Self-Evolving):它从一个基础预训练 VLM 出发,将其在训练过程中分解成两个相互作用的角色。

Image-Conditioned Questioner(提问者)

负责根据输入的图片生成具有挑战性、但又可被回答的视觉问题。具体来说,VisPlay 设计了一种精妙的奖励机制来指导自我进化的质量,分别是难度奖励(Difficulty Reward)和多样性奖励(Diversity Reward)。

前者鼓励提问者生成更复杂的、需要深层次推理才能解决的问题;后者确保生成的问题类型和涉及的知识点足够广泛,防止模型陷入狭窄的知识或推理路径,从而实现更强大的组合泛化能力。

通过这种奖励机制,VisPlay 有效解决了自进化模型中常见的「答案质量低」和「问题重复度高」的问题,真正实现了从量变到质变的能力飞跃。

Multimodal Reasoner(推理者)

负责基于图片和提问者的问题,生成「白银级响应」(Silver Responses,即伪标注答案)。这里我们采用回答的准确性作为训练信号。



实验结果:

全方位的能力突破

研究团队将 VisPlay 应用于包括 Qwen2.5-VL 和 MiMo-VL 在内的多个主流 VLM 模型家族,并在八个主流基准数据集上进行了广泛评估,涵盖:通用视觉理解(如 MM-Vet)、跨模态推理(如 MMMU)、视觉数学推理(如 MathVerse)以及幻觉检测(HallusionBench)。



关键发现:

持续稳定的性能提升:在所有测试模型和基准上,VisPlay 都实现了一致且显著的准确率增益,证明了该框架的泛化性和有效性。

强大的组合泛化能力:模型在训练中未见过的复杂推理组合上表现出更强的鲁棒性。

有效抑制「幻觉」:VisPlay 通过自我进化生成的高质量问答对,有效帮助模型识别和修正错误的视觉-语言关联,显著减少了模型产生「幻觉」现象的概率,这是一个困扰 VLM 的重大问题。

VisPlay 的成功证明了仅依赖海量非结构化图片来持续提升 VLM 推理能力的可行性,为未来开发更智能、更自主的多模态系统指明了方向。

(责任编辑:娱乐)

推荐文章
  • 俄罗斯一架安

    俄罗斯一架安   当地时间12月9日,俄罗斯国防部一架安-22运输机在俄罗斯伊万诺沃州乌沃茨科耶水库附近坠毁,机上共有7名机组人员。  据紧急救援部门的消息,飞机残骸已在水中被发现,事故发生时该飞机正在进行维修后的 ...[详细]
  • 谁说赵今麦没有CP感,只能演小孩?

    谁说赵今麦没有CP感,只能演小孩? 脸疼敌不过好嗑,这CP我真上头!《度华年》接档《墨雨云间》, “今夕赫夕”接棒“菲常箫张”。酷,今年的古偶赛道你强得可怕! !开播前:没有一点CP感。开播后:包办婚姻也有爱情!!!麦麦牛牛太好嗑了!! ...[详细]
  • 中汽协:6月汽车销售255.2万辆 同比下降2.7%

    中汽协:6月汽车销售255.2万辆 同比下降2.7% 版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车7月10日报道7月10日,中汽协发布6月汽车产销数据。数据显示,6月,汽车产销分别完成250.7万辆和255.2万辆,环比分别增长5.7%和5 ...[详细]
  • 能从6岁背到60岁的双肩包,City不City?

    能从6岁背到60岁的双肩包,City不City? New Jeans在做周边这件事情上绝对是认真的,这次的日专《Supernatural》和一直称自己是New Jeans粉丝的村上隆合作了周边,New Jeans × Takashi Murakami ...[详细]
  • “大衣+毛衣”今年冬天又火了,这样穿时髦又高级!

    “大衣+毛衣”今年冬天又火了,这样穿时髦又高级! 越简单越高级,越普通越时髦......真正的时尚不是繁杂,而是回归平凡。毛衣配大衣,冬天里最常见的组合,虽然普通,但却有随性的精彩。能将普通的衣服穿得出彩,也是一种难能可贵的能力。因为内心丰盈,所以更 ...[详细]
  • 公安部:截至6月底全国新能源汽车保有量达2472万辆

    公安部:截至6月底全国新能源汽车保有量达2472万辆   【智车派新闻】根据公安部最新发布的统计数据,截至2024年6月底,全国机动车保有量已攀升至4.4亿辆,其中汽车占据主导地位,达到3.45亿辆。尤为引人注目的是,新能源汽车保有量迅猛增长,达到247 ...[详细]
  • 40岁正是最优雅的年纪,试试这些高级穿搭,穿出来的贵妇感

    40岁正是最优雅的年纪,试试这些高级穿搭,穿出来的贵妇感 40岁正是女人最好的年纪,要是不想自己美貌颜值水平下滑,那么就更需要将重点放在衣服的搭配与选择上,即使是日常造型,也能够拥有贵妇般的高级与优雅,让你看起来美的毫不费力。一、衣服质感很重要1、大面积印花 ...[详细]
  • 采用纯视觉智驾方案 小鹏P7+预计四季度上市

    采用纯视觉智驾方案 小鹏P7+预计四季度上市 版权声明:本文版权为网易汽车所有,转载请注明出处。网易汽车7月10日报道 随着今日何小鹏对新车的官宣,此前对代号F57的产品猜测也尘埃落定。新车命名为P7+,一方面是小鹏P7的产品延续,而“+”则代表 ...[详细]
  • 图赫尔:这是一个很困难的小组;现在考虑选人还太早

    图赫尔:这是一个很困难的小组;现在考虑选人还太早 2026年世界杯分组抽签结果出炉,英格兰与克罗地亚、加纳和巴拿马同组,抽签结束后,英格兰队主帅图赫尔在混合区接受了媒体的采访。谈抽签结果一个有意思的小组,一个困难的小组,我想首场比赛也很难。我们还有巴 ...[详细]
  • 小鹏、蔚来都在转战纯视觉方案,特斯拉:谁还有梦想

    小鹏、蔚来都在转战纯视觉方案,特斯拉:谁还有梦想 都知道,特斯拉一直以摄像头作为纯视觉方案来做的智驾模块,被不少车评人以及车企抨击:你除了是为了省成本还能是作甚。但是,随着特斯拉FSD的落地,大家发现好像纯视觉方案确实还挺牛逼,虽然说没有“遥遥领先” ...[详细]