
深圳商报·读创客户端记者 曹欣
想象一下,你只需对AI轻声说一句“把海报中的鸟移进红框中”,它便能心领神会,不仅精准定位目标,还能不着痕迹地完成修改,仿佛它真正理解了画面背后的语境与你的意图。这曾是多模态AI领域孜孜以求的“高阶智能”,如今,正由国产模型UniWorld-V2将其变为触手可及的现实。
近日,深圳南山科技园的创新浪潮再添重磅成果——兔展智能与北京大学联合研发的UniWorld-V2图像编辑模型正式发布。这款搭载全球首个视觉强化学习框架的AI模型,在GEdit-Bench测试中以7.83分刷新行业纪录,综合性能超越OpenAI旗下GPT-Image-1等顶尖闭源模型。从为AI建立全新“教学模式”到攻克中文场景技术难关,从开源生态挑战闭源壁垒到清北智力集群赋能南山AI产业,UniWorld-V2的诞生不仅标志着中国视觉大模型进入“精准理解”新纪元,更折射出深圳作为全球创新高地的硬核实力。
图源:UniWorld-V2 官方项目强化学习重构AI教学,让机器“越用越聪明”
传统图像编辑模型常面临“指令理解偏差”的困扰。例如,当用户要求“给红框内的猫戴上圣诞帽”时,AI可能误以为需要为画面中所有动物添加配饰;而修改艺术字体时,又容易出现笔画错乱、语义失真的情况。“问题的核心在于,模型缺乏持续学习和精准反馈的能力,就像学生只听一遍课,却没有课后练习。”兔展智能首席科学家、北京大学博士生导师袁粒博士一针见血地指出。
为解决这一痛点,UniWorld-V2引入了一套全新的AI“教学模式”——基于UniWorld-R1强化学习框架,构建了一个“练习-批改-订正”的闭环学习系统。与传统监督学习的“填鸭式”训练不同,新框架让AI学会“主动思考”:它在执行任务时会生成多个备选结果,再由内置的“AI裁判”——一个强大的多模态大模型——对每个结果进行实时评判,从语义一致性和视觉合理性等维度筛选出最优解。
袁粒博士以实际案例进一步解释:“比如用户提出‘把海报中的鸟移进红框中’,模型会先尝试几种不同的修改方案,再由‘裁判’选出最贴合指令的一个,并在这次‘练习’中记住正确的理解逻辑。”通过这样持续的“教学互动”,模型得以不断积累经验,越来越精准地把握用户意图。这套“越用越聪明”的机制,在实际测试中展现出显著优势。在ImgEdit测试集中,UniWorld-V2以4.49分的成绩名列前茅;在红框控制任务中,它也能精准理解空间限制,完成“将鸟移出红框”这类高难度操作,错误率远低于同类模型。
正如兔展智能CEO董少灵所总结的:“我们不是在训练一次性执行命令的机器,而是在培养能不断积累经验、越用越聪明的AI伙伴。”
“更懂中文”的顶尖模型,填补文化场景技术空白
对于AI模型而言,理解中文尤其是复杂书法艺术,曾是公认的技术难题。UniWorld-V2凭借深耕中文场景的技术积累,在这一领域实现了从“能处理”到“精通”的跨越。在“海报编辑”示例中,模型能精准理解指令,并渲染出“月满中秋”和“月圆人圆事事圆”等笔画复杂的艺术中文字体,效果清晰、语义准确。
图源:UniWorld-V2 官方项目这种“懂中文”的能力源于对中文数据与语境的专门优化。袁粒博士在采访中表示:“强化学习阶段我们使用了专门设计的中文语境数据,这是国外模型难以复制的优势。”兔展智能CEO董少灵在演示中也展示了一个典型案例:将一张成都特色海报中的“成都伴手礼”改为“深圳伴手礼”,并将图中的熊猫、古建筑等元素替换为深圳的平安大厦、三角梅、黑脸琵鹭等,UniWorld-V2精准完成了任务,而国际主流模型在中文理解和细节控制上均出现错误。
更值得关注的是模型“越用越聪明”的特性。通过用户交互反馈机制,UniWorld-V2能持续学习新的中文表达习惯和视觉偏好。袁粒博士这样比喻:“就像老中医越老越有经验,我们的AI也在与用户的互动中不断成长。”这种自适应学习能力,使其在电商、金融、文创等专业领域的应用价值持续提升。
推动技术普惠,以开源拥抱未来
在AI大模型领域,“闭源vs开源”的争论从未停歇。UniWorld-V2选择以开源姿态挑战闭源巨头,将完整模型代码、训练框架及数据集在GitHub与Hugging Face等平台公开发布。更重要的是,团队通过算法与工程优化,显著提升了模型的部署效率,使更多企业能够以可接受的成本应用这一前沿技术。
UniWorld-V2 的SOTA表现这一开源策略不仅推动了技术普惠,更构建了活跃的开发者生态。兔展智能CEO董少灵在采访中阐释了开源的深层价值:“开源是领先的一种方法,它能吸引更多聪明人参与,推动整个领域的发展。”北京大学UniWorld团队负责人也指出:“我们开源的不仅是代码,更是一种协作创新的模式。”
这种开放协作的理念正逐步转化为产业影响力。截至目前,UniWorld-V2已成功应用于跨境电商等垂直领域,帮助多家企业实现商品图像内容的智能化生成与编辑,在降本增效的同时,也为模型在真实场景中的持续进化提供了宝贵数据。
顶尖智力南山亮剑,深圳AI迈向全球创新之巅
UniWorld-V2的诞生,是南山“智力集群”效应的生动注脚。兔展智能与北京大学的合作模式,代表了“企业出题,高校答题”的创新实践。CEO董少灵在采访中阐释:“我们与北大新生代的年轻老师共同创业,背靠背整合成一个团队,这种模式极大激发了创新活力。”
作为深圳AI产业的核心集聚区,南山已形成从基础研究、技术研发到产业应用的完整生态链。董少灵认为:“南山给了创新企业最肥沃的土壤——这里有腾讯、华为等龙头企业的带动,有深创投等资本的支持,更有政府对科研攻关的持续投入。我们承担的国家级重大人工智能科技攻关项目,就得到了南山科创局的全方位保障。”
这种生态优势正在加速转化为全球竞争力。UniWorld-V2在中文理解、商品图像编辑等领域的优势,使其在出海企业中备受青睐。而兔展智能基于该模型开发的商用工具,已帮助多家企业打开国际市场。
展望未来,UniWorld-V2的迭代仍在加速。袁粒博士透露:“下一步我们将在春节前推出V2.5版本,重点提升空间立体感知能力,让模型能够解决立体几何问题。”
从UniWorld-V2的精准编辑到深圳AI产业的蓬勃发展,一个由中国智慧引领的视觉革命已然来临。在南山这片充满活力的土地上,顶尖智力与产业实践的碰撞,正书写着全球AI创新的新篇章。
举报/反馈配配查提示:文章来自网络,不代表本站观点。