最近,Zhiyuan Research Institute发布了浮雕的脑robobrain 2.0 32B版本和交叉主体和大脑协作框架Roboos 2.0独立版本。
Robobrain 2.0作为“通用体现的大脑”整合了真实的物理环境的理解和计划,在时空认知能力方面取得了突破,并且已经在许多权威性实质性的智能基准上创造了记录。先前发布的7B版具有紧凑,有效的模型结构。它的轻巧设计完美地适应了边缘设备的部署需求,并且可以在低资源环境中稳定运行。同时,主流开放和闭合源型号的性能仍然很强。
作为世界上第一个体现的智能SaaS开源框架,Roboos 2.0创新集成了MCP协议和无服务器体系结构,以实现轻量级部署,并在智能大脑和异质本体论之间开放协作路径。
独立的产品线和Roboskill技能商店同时推出了,并且通过深入集成,可以实现机器人技能模块的智能匹配和一单击的适应功能。标准化界面有效地消除了制造商和硬件之间适应过程的差异。
同时启动开箱即用的镜像,支持“三线说明”的快速部署,并充分授权开发人员有效地构建智能机器人系统。
具体的大脑与交叉主体的大脑合作框架之间的双引擎连接将有效地将机器人从“独立智能”促进“独立智能”到“集团智能”,加速从实验室到实验室的智能技术,并形成一个开放的,有效的,有效的,智能的,智能的,智能,智能的合作智能生态系统。
Robobrain 2.0突破了三个功能瓶颈
在处理真实的物理环境时,当前主流AI模型中有三个核心瓶颈:空间理解准确性不足,依赖时间依赖的建模以及缺乏长链推理能力。
Robobrain 2.0在这三个关键能力中取得了全面的突破,从而显着提高了其复杂体现任务的理解和执行能力。
空间理解:准确的点定位和边界框预测:根据复杂的说明在图像中定位对象或区域的能力。了解空间关系:了解对象之间的相对位置和方向。空间推理:支持基于场景图的实时构建和更新,以执行复杂的三维空间推理。时间建模:长期计划:能够执行多步计划以支持长期目标实现的能力。闭环交互:支持基于反馈的动态调整,以适应动态环境。多代理协作:能够协调多个代理的行为并完成复杂的任务。长链推理:链条推理:能够执行多步推理以支持复杂任务的分步解决方案。因果逻辑:从复杂指令中提取因果逻辑并与环境状态保持一致的能力。决策透明度:能够生成推理过程的详细说明,支持决策的透明度和解释性。
Robobrain功能概述图
Robobrain 2.0采用模块化编码器架构,该体系结构实现了复杂体现任务的感知,推理和计划的统一。
与关注通用静态视觉问答(VQA)的传统视觉模型(VLM)不同,Robobrain 2.0专注于体现的推理任务,例如空间感知,时间建模和长链因果推理,同时保持强大的通用VQA能力。
该体系结构将高分辨率图像,多视图输入,视频框架,语言说明和场景图编码为统一的多模式标记序列,以进行全面处理。
Robobrain 2.0模型体系结构图
Robobrain 2.0刷新性能基准
Robobrain 2.0依赖于全面且多样化的多模式数据集,集成了高分辨率图像,多视频视频序列,场景图,3D场景数据和复杂的自然语言指令,以使机器人充分授权机器人在体现的环境中感知,推理并起作用。
该多模式数据集侧重于三个核心领域,并为复杂的物理方案提供了强有力的支持。
一般的多模式理解:整合标准的视觉问答,区域级查询,OCR视觉问答和多回合的视觉对话,以优化语言表达的多样性和语义一致性。通过丰富的视觉互动数据,该模型的理解和响应能力得到了提高,并适应了从简单的问答到多轮对话的各种情况。空间感知:支持高精度对象定位,边界框的预测和对象功能识别,涵盖复杂的室内和室外视觉场景以及3D空间推理,帮助机器人准确地分析对象关系,空间属性和场景上下文,应对诸如遮挡和多次视频变化,并满足高级和互动的定位,并应对挑战。时间建模:将支持通过多模式数据,远程任务计划,闭环反馈机制和多代理协作,并将增强模型的任务分解,动作序列预测和实时互动能力,以确保在复杂的物理场景中保持持续的决策,灵活的决策和有效的任务执行。 Robobrain 2.0使机器人能够在具有出色的多模式感知,良好的空间推理和强大的长期计划能力的体现环境中进行互动推理,多代理协作和高效的任务计划,从而有助于在复杂的物理场景中智能感知和决策。
Robobrain 2.0培训数据集
Robobrain 2.0采用了三阶段的进步训练过程。
阶段1:在第一阶段的基础时空学习,Robobrain 2.0专注于在空间感知和时间理解中构建其基本能力。该模型通过大规模的多模式数据集进行培训,这些数据集涵盖了密集注释的图形数据,视频问答以及参考识别理解任务。在训练的这个阶段,该模型可以处理静态图像和视频流,掌握对象的基本空间关系和运动事件,为随后的更复杂的任务奠定了坚实的基础。
第2阶段:在第二阶段体现的时空增强,Robobrain 2.0通过引入高分辨率的多视图图像,第一人称视频数据以及导航和交互任务,进一步增强了在体现任务中的时空建模功能。该模型学会了处理长时间的时空信息的序列,在动态环境中支持多代理协调,长期计划和自适应决策。这个训练的阶段使该模型能够更好地将历史视觉信息与当前的说明相结合,从而在动态的互动环境中实现了更连贯的长期计划和强大的场景理解。
第3阶段:在第三阶段的体现环境中,Robobrain 2.0在体现环境中的链条推理进一步提高了其在复杂的体现任务中的推理能力,通过监督微调和加强微调。该模型是使用多轮推理示例培训的,这些示例涵盖了长期任务计划,操作预测,闭环互动,时空理解和多机器人协作等任务。在训练的这个阶段,该模型可以生成推理链,支持复杂任务的分步推理和决策,从而在体现的情况下实现更有效,准确的推理和计划能力。
Robobrain 2.0采用FlageValmm框架来充分验证空间和时间推理能力。
空间推理:在九个基准测试中,包括眨眼(83.95),CV-BENCH(85.75),其中2Place(73.59),Robobrain-32b/7b-2.0反复赢得了SOTA,可以准确地实现对象定位,界定框预测和空间参考,超过基础,使巨型和GPT-14O和GPT-14O和GPT-14o。时间推理:在多机器人计划(80.33)中,EGO-Plan2(57.23),Robobench(72.16),出色的远程计划,闭环反馈和多机构协作功能,领导了QWEN2.5-VL,Claude和其他型号。
Robobrain 2.0-32b在空间和时间推理基准上取得了最佳性能,例如闪烁空间,机器人空间,ref-Spatial-Bench,其中2Place,Egoplan2和多机器人计划
Robobrain 2.0 7b模型分别以83.95和85.75点的速度高位眨眼和CV基础基准。 Robobrain 2.0 32b型号在Robospatial,Ref-Spatial Bench,SAT上取得了SOTA的突破
Robobrain 2.0 7b型号在多机器人计划中以81.50分的成绩赢得了最高位置; Robobrain 2.0 32B紧随其后的是80.33点; Robobrain 2.0 32B超过了自我Plan2(57.23分),显着领先GPT-4O和其他基线; Robobrain 2.0 7b模型在Robobench中得分72.16分,双重模型以出色的性能刷新了性能上限。
Robobrain 2.0和Roboos 2.0双引擎
实现具体的团体智能
依靠Roboos 2.0的多主体计划功能,Roboos 2.0是一个基于交叉主体的协作框架Robobrain 2.0,已经实现了多代理协作执行任务,支持了超级市场,厨房和家庭等多种场景的部署。
Roboos 2.0是一个跨主页上的大脑协作框架,是世界上第一个基于体现的智能SaaS平台的开源框架,并支持无服务的一站式轻型机器人本体论部署。同时,Roboos 2.0也是世界上第一个支持MCP的跨主页体现的大脑协作框架,旨在在体现智能领域建立“应用商店”生态系统。
Roboos 2.0实现了一种自适应注册机制,以优化云中大脑推理部署和小脑技能,从而大大降低了发展阈值。在典型的情况下,相关代码的数量仅是传统手动注册方法的1/10。
Roboos 2.0框架(SaaS+MCP模式)。 Roboos是用于多机器人协作的“脑脑型”分层系统,其中包括三个核心组件:(a)基于云计算的具体脑模型,负责高级认知和多机构协作; (b)分布式的小脑模块组,专门研究机器人专业技能执行; (c)实时共享记忆机制,以增强环境状况意识能力
与1.0相比,Roboos 2.0具有针对端到端推理链接的系统级优化,总体性能提高了30,整个链接的平均响应延迟低于3ms,而端云通信的效率则高27倍。在功能级别上,已经添加了多主体时空记忆场景图共享机制,以支持动态环境中的实时感知和建模。同时,引入了一个多核任务监视模块,以实现对任务的闭环反馈,从而有效地提高了机器人任务执行的稳定性和成功率。
Roboos多机器协作实现过程包括四个关键阶段:首先,复杂的任务是通过分层任务分解逐步拆卸的,然后基于网络拓扑结构动态分配子任务,然后分布式智能群集并行分配每个子任务,并最终通过实时的共享内存机构进行动态更新环境和任务进展。
基于Roboos 2.0协作框架,Robobrain 2.0可以完全利用Robobrain 2.0的强大空间理解,时机计划和闭环推理能力,同时从全球开发人员创建的相同机器人的小脑技能下,单击一个单击整个小脑和小小的大脑之间的无缝集成。
Robobrain 2.0可以通过像素级空间来理解,从而支持下游小脑模型的高精度捕获,处理和放置。同时,根据对任务执行状态的实时感知调整执行计划,适应动态环境的变化,并实现闭环反馈机制。
Robobrain 2.0和Roboos 2.0是完全开源的
建立一个具体的智能生态系统
目前,Robobrain 2.0和Roboos 2.0已完全开源,所有模型权重,培训代码和评估基准都可以使用。
Robobrain 2.0:
页面:https://superrobobrain.github.iogithub:https://github.com/flagopen/robobrain2.0arxiv:3https://arxiv.org/abs/2507.02029Checkpoint-7b:3https://huggingface.co/baai/baai/bbaai/bbaai/bbaai-bbrarect.0-bbrarect.0-bbrarect.0-02-0-bbrarcrain.0-bbraren.0-bbrare https://huggingface.co/baai/robobrain2.0-7bcheckpoint-32b:https://Huggingface.co/baai/robobra in 2.0-32 Brobobrain2.0 flagrolease flagrolease多chip镜像: https://HuggingFace.co/flagrelease/robobrain2.0-7b-flagoshttps://Huggingface.co/flagrelease/robobrain2.0-32b-flagos3https://hugging.co/flagragrealease/robobrabrease/robobrobrease/robobrobrain/robobrobrease/robobobrain/robobobrain2.0-7b-flagos-2.0-2.0-7bascendroboboos-2.00:0.00:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:0:
页面:https://flagopen.github.io/roboosgithub:https://github.com/flagopen/roboosgithub Stand-Alone LightWeight版本:3https://github.com/flagopen/roboos/roboos/roboos/roboos/tree/tree/stand-andandalonegithub skill sticker:333https://github.comkiv:33https://gillarxiv: https://arxiv.org/abs/2505.03673Robobrain 2.0和Roboos 2.0在全球社交媒体和技术社区引发了广泛的激烈讨论。
目前,Zhiyuan研究所与全球20多家机器人公司建立了战略合作伙伴关系,并邀请了全球开发人员,研究人员和行业合作伙伴加入Robobrain 2.0和Roboos 2.0的开源社区,以建立一个开放且繁荣的实性智能生态系统。
用户评论
莫阑珊
我简直不敢相信!《GPT-4 遭狂轰滥炸?》的标题看着就很劲爆,没想到文章内容也深得我心。作为一个AI爱好者,我一直对这类技术充满期待,希望它能真正有突破性的进展。这个“智源重磅开源全球最强具身智能大脑” 感觉真厉害啊!
有18位网友表示赞同!
黑夜漫长
看完这篇文章我对GPT-4的印象彻底 cambió! 我一直觉得GPT-4已经很强大,但没想到它居然还有这么多不足被指出!文章里说的那些痛点 really resonating with me,尤其是在安全性和可解释性方面。
有14位网友表示赞同!
▼遗忘那段似水年华
感觉这篇《10项评测痛打GPT-4o!智源重磅开源全球最强具身智能大脑》比较吹牛皮,就说“全球最强” ,这个也太夸张了吧,没有对比就没有伤害, 究竟有多强?文章里至少得给出一些具体的例子啊。
有12位网友表示赞同!
来自火星球的我
真的期待看到这个"全球最强具身智能大脑" 的实际应用!想想以后机器人能更加像人类一样思考和行动,真是太令人激动了! 这篇文章让我更相信AI技术发展日新月异的趋势。
有10位网友表示赞同!
封锁感觉
虽然我对GPT-4没有过多了解,但对于“智源重磅开源” 这种理念我很赞同。 我希望更多的人都能分享这方面的知识,共同推动人工智能技术的进步。
有19位网友表示赞同!
优雅的叶子
标题写的挺吸引人的,感觉很有料,结果文章里内容反而比较肤浅。 文章只是简单地列举了一些GPT-4 的缺陷,并没有深入分析其原因和解决方法。
有20位网友表示赞同!
陌颜
我一直觉得AI技术的发展应该更加注重伦理和可控性方面的考量,这个 "全球最强具身智能大脑" 让人担心会引发更多伦理争议。 文章里也提到了这个观点,看来我并不孤单!
有14位网友表示赞同!
ゞ香草可樂ゞ草莓布丁
这篇《10项评测痛打GPT-4o!智源重磅开源全球最强具身智能大脑》 让我对“具身智能”这个概念有了更深刻的理解。以前总觉得AI 应该像人类一样,拥有躯体和感官。现在看来,这并不是简单的模仿,而是更高层次的认知和发展。
有16位网友表示赞同!
摩天轮的依恋
我觉得文章里有些观点比较主观,没有给出足够的证据支撑。“全球最强” 这种说法太绝对了,还需要更科学、更客观的评价标准。
有11位网友表示赞同!
打个酱油卖个萌
虽然文章标题说的很吸引人,但我觉得内容还是有些枯燥。缺乏一些生动的案例和数据支撑,容易让人感到抽象和乏味。
有10位网友表示赞同!
信仰
我对 GPT-4的缺点一直有感触,这个“全球最强具身智能大脑” 似乎给了我一个新的视角。希望它能真正弥补这些缺陷,创造出更加安全、可控且有益的人工智能系统。
有19位网友表示赞同!
太易動情也是罪名
如果说GPT-4就像一台大型的计算器,那么这个“全局最强具身智能大脑” 就更像是有思想和情感的人类! 这篇文章让我对未来的AI充满了期待和遐想。
有6位网友表示赞同!
情如薄纱
看完文章我最大的感受是: 技术发展真是太快了节奏, 之前还记得GPT-3的出现,现在已经是GPT-4o时代了, “全球最强具身智能大脑” 这听起来就有点科幻的感觉!
有17位网友表示赞同!
一笑抵千言
这篇写得很棒,把GPT-4 和这个"全球最强具身智能大脑" 的对比写的很清晰,让我更清楚地了解各自的优缺点。 文章也提到了相关研究机构,方便我进一步学习。
有7位网友表示赞同!
玩味
我很希望这个“全球最强具身智能大脑” 能实现真正的人工智能,不再局限于简单的指令执行,能够像人类一样思考、感受和创造。期待这方面的突破!
有10位网友表示赞同!
何年何念
文章的标题太吸引人了,忍不住点了进来看看,但内容确实有点偏重技术细节,我感觉理解起来还是比较困难, 希望下次能加入更多有趣的故事或案例来更容易吸引读者。
有9位网友表示赞同!
◆残留德花瓣
我觉得“智源开源” 的理念真的很重要,这样才能真正推动人工智能技术的进步和发展,让每个人都能参与到这个激动人心的时代中来!
有11位网友表示赞同!