2024年11月5日,智源专题北京智源人工智能研究院主办的举办具身“智源论坛·2024具身与世界模型专题峰会”在智源大厦举行,智源研究院理事长黄铁军、世界术创WhatsApp%E3%80%90+86%2015855158769%E3%80%91the%20crane%20resort%20and%20residences%20barbados智源研究院院长王仲远、模型智源研究院副院长林咏华出席大会。产学促技智源具身多模态大模型研究中心负责人、研共业应用北京大学研究员仉尚航,新产智源具身智能研究中心负责人、智源专题北京大学助理教授、举办具身银河通用创始人王鹤,世界术创Google DeepMind研究科学家,模型谷歌RT1、产学促技2,研共业应用SayCan作者Ted Xiao以及来自清华大学、新产香港大学、智源专题康奈尔大学、UC Berkeley、英国曼彻斯特大学、WhatsApp%E3%80%90+86%2015855158769%E3%80%91the%20crane%20resort%20and%20residences%20barbados大湾区大学(筹),中国科学院等知名高校和研究机构的学者专家,加速进化、傅利叶、乐聚机器人、星尘智能等具身智能头部企业的创始人、CEO围绕具身智能和世界模型的前沿方向、技术实践进行了主题分享与深度探讨。
?
具身智能的发展,无论是硬件稳定性,数据采集与仿真,具身大小脑模型分层架构或者端到端技术路线,还是终端使用场景,都面临诸多挑战,需要产学研深度协同与广泛联动。智源研究院院长王仲远在开幕式致辞中表示,智源研究院将依托多模态大模型技术优势资源,联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业,建设具身智能创新平台,重点开展数据、模型、场景验证等研究,共同打造具身智能创新生态。
智源具身多模态大模型研究中心创新地设计了面向机器人具身基础模型的快慢系统框架,快系统能够高效快速的预测末端执行器位姿,慢系统则是在面对复杂和错误行为时更加深入地思考和纠错,不断提升机器人大脑的能力。为了实现该快慢系统框架,智源探索了具身端到端以及大小脑分层结构的不同技术路线,进行开放世界泛化物体操作,并基于大脑模型进行语义理解与常识推理,实现零样本物体导航。无论是端到端模型还是分层结构,最终都是为了让机器人能更好地理解物理世界规律,更好地与环境交互,更好地执行时序上的准确行为。因此,智源同时提出了四维世界模型Robo4D,为世界模型构建四维时空,以解决机器人在开放世界中任务操作的物体泛化以及场景泛化等问题。相关研究被国际旗舰会议NeurIPS 2024、ICML 2024接收。
智源具身多模态大模型研究中心利用世界模型预测机器人与环境交互后的未来事件,从而生成准确的行为,提前预测行为是正确还是失败。智源设计的世界模型的技术路径是,首先将世界模型启动和响应模态设置为视频模态,给定关于动作的语言指令和当前机器人的状态去生成机器人执行完动作后的完整视频。针对给定的任务,模型可以完整预测任务执行的过程,从物理世界中学习规律,生成视频之后,通过模型将视频转换成机器人的行动。其中,任务到视频生成以及视频到行动的过程,利用了智源原生多模态世界模型Emu3将理解和生成大一统的技术思路,形成自我反思的思维链。
?
智源具身多模态大模型研究中心负责人仉尚航认为,近期的一系列工作展现出具身基础模型的广泛前景,中心将继续探索具身多模态大模型与大数据构建,践行机器人领域的Scaling Law。实现真实世界的四维时空世界模型是迈向机器人整体AGI的重要一步。四维世界模型将作为机器人的世界基础模拟器,同时具备时间与空间智能,拥有长短期记忆与物理概念学习等能力,与真实物理世界进行交互并从中得到反馈。
智源具身多模态大模型研究中心在近期的研究中将世界模型从二维拓展至四维,采用先验引导的3D Gaussian Splatting算法,基于单一视角的视频片段生成四维世界空间。采用多轮世界空间映射模型将不同位置的世界空间映射到视频域,最终应用于下游任务,生成式数据提升了机器人操作的泛化性。
?
智源具身智能研究中心负责人、北京大学助理教授、银河通用创始人王鹤在特邀报告中强调,空间智能要注重三维信息的使用,否则对空间几何的理解非常有限,还需注重交互智能,而交互智能背后所需的大量数据应该用合成数据替代真实世界的数据采集,才能达到大模型所需要的数据规模,实现真正的泛化性。
目前,智源具身智能研究中心展开了一系列技能的泛化研究和具身端到端大模型的训练研究。首先把二维真实世界看到的二维图像升维到三维,用扩散模型预测视差。并自研了大规模动作数据的仿真合成技术,覆盖了桌面物体摆放、桌面纹理、光照等各种空间形态和位置关系,在仿真器中对光线折射和反射进行仿真并进行渲染。目前团队最新的进展是完成了10亿规模的灵巧抓取数据集DexGraspNet 2.0,覆盖了基于各种物体的大规模的抓取标签生成,在这样的大规模数据上训练的灵巧手抓取模型率先实现了泛化场景真机成功率90%以上。
在端到端模型研发方面,团队训练了全球首个基于视频流的端到端导航大模型NaVid,无需建图,也不依赖于深度信息和里程计信息等其它传感器信号,完全依靠机器人摄像头采集的单视角RGB视频流,通过Sim2Real的方式,实现在真实世界室内场景甚至是室外场景的zero-shot真机泛化。近期,智源在导航大模型加入了三维模态,提出了端到端空间导航大模型NaVid-4D,该模型在一系列有更高要求的自然语言指令导航任务中实现了进一步突破。
?
大会期间,智源研究院院长王仲远主持具身智能技术与应用发展前沿展望圆桌讨论,清华大学自动化系教授,加速进化联合创始人赵明国,智源具身智能研究中心负责人、北京大学助理教授、银河通用创始人王鹤、傅利叶创始人兼CEO顾捷,乐聚机器人创始人冷晓琨,中科院自动化所研究员王鹏,UC Berkeley潘家怡,围绕具身智能的本体形态、数据、泛化能力、产业落地前景等议题分享了最新的思考与观察。
?
此外,下午的空间智能和世界模型圆桌讨论由智源研究院副院长林咏华主持,清华大学机械工程系助理研究员陈睿,清华大学电子工程系副教授代季峰,星尘智能创始人兼CEO来杰,香港大学助理教授李弘扬 ,北京通用人工智能研究院研究科学家黄思远,分别就机器人的世界模型技术路线、关键技术要点以及面临的核心挑战等问题进行了不同视角的解读。
?
在闭幕致辞中,智源研究院理事长黄铁军指出,智能是环境的产物。人类智能来源于对环境的适应演化以及对世界的抽象。智能应该是大大小小各种形态的,不能变成一个完全统一的智能。具身智能的发展是必然趋势,无论是人形还是其他形态的机器人,未来需要庞大的产业群配套,促进具身智能的关键部件与材料,软件与硬件协同发展。
雷峰网(公众号:雷峰网)
本書首發來自呼來喝去網,第一時間看正版內容!
曼联小将海文手球未判,赖斯进球助阿森纳扳平
03月10日,英超第28轮比赛继续火热进行,曼联坐镇主场迎来了阿森纳的挑战。在比赛进行到第74分钟时,场上出现了争议一幕。当时,阿森纳的赖斯抓住机会,成功破门为球队扳平了比分。然而,在赖斯进球之前,回
前TVB演员张国强晒片场吃盒饭:我这个年纪还有工作 多好
近日,68岁的前TVB演员张国强,在小红书分享了自己片场吃盒饭的视频。视频中,他西装革履地坐在片场露天摆放的凳子上吃盒饭,一边吃一边唱《一生何求》,并感慨道:“我这个年纪还有工作,没被淘汰
别纠结试管胚胎筛查怎么做的了,先了解下通过率再说
试管婴儿胚胎筛查主要就是通过胚胎活组织检查,从胚胎中取出一个或两个细胞,然后对胚胎进行筛选以验证其是否存在遗传异常,如果其中一个呈现染色体异常,这个胚胎就不能移植。该技术的通过率大约为50%-80%,
长寿的女性会有哪些特征?女性日常如何保养利于长寿?医生告知
目前,很多女性由于生活、工作等各方面的压力都非常大,再加上会出现一些错误的生活习惯,很容易使其健康受到影响,患上各种疾病的风险也会特别高。所以对于女性来讲,一定要注意生活各方面的调理,才能达到避免生病
视频丨儿童流感如何防护和治疗?抓住“黄金48小时”很关键
流感多发,孩子这类易感人群,该如何更好地防护和治疗?上午8点,北京儿童医院三层的内科、呼吸科诊室门口已经有患儿和家长在等候就诊了。记者看到,一些患儿家长拿着挂号单直接来到分诊台进行检查开单。护士详细询
反复出现胸痛时,可能是这5种疾病的表现,一定不要掉以轻心
胸痛是一种比较多见的临床症状,尤其是对于患有一些慢性心血管疾病人群来讲,在日常生活当中偶尔会出现胸口疼痛现象。但这种疼痛并不非常明显,只是在情绪过于激动或者是劳动力过强时,才会发生这种胸痛。只要患者适
1 新华视点|多地进入流感高发期,如何应对?
作者:
58715字
“办公室好多人都中招了”“孩子班级里请假同学超过十个了”……连日来,浙江杭州市民的对话常常围绕近期的“流感话题”。中国疾控中心监测数据显示,哨点医院门急诊流感样病例呼吸道样本检测阳性的病原体中,流感病
1 武汉同济医院取卵流程一文说清,想安心试管资料要齐全
作者:
69字
在武汉同济医院取卵前夫妻双方需要先携带身份证以及结婚证进行审核,只有证件齐全才能进入最终的取卵环节。如果要做无痛取卵,需在术前禁食水6-8个小时。另外,在取卵之前生殖科会有一个书面的说明交到病人手上,
1 第三代试管胚胎筛查有没有风险速览,不影响质量别瞎担心
作者:
5字
目前第三代试管胚胎筛查风险是比较小的,一般来说三代试管所使用到的医疗设备都是比较先进的,所以一般不会对胚胎造成什么损伤,也不会影响到其质量。通常一个囊胚中有上百个细胞,而pgs采样只会从中取出5-6个
1 枣庄男科医院哪家比较好又正规呢?不妨点击来看看
作者:
82962字
枣庄开设男科以及泌尿外科的医院不少,正规有枣庄华医堂医院、滕州博仕男科医院、枣庄金楯医院、北京中医药大学枣庄医院等。对于有前列腺增生、射精障碍、早泄、弱精、少精、前列腺肿瘤,以及男性不育等疾病的患者可
1 曼联尴尬纪录:英超28轮竟未尝2连胜!
作者:
8字
体育3月10日讯今天凌晨,英超联赛第28轮的一场比赛引人关注,曼联与阿森纳以1-1握手言和。值得一提的是,根据赛后数据显示,曼联在本赛季的前28场英超比赛中,竟然从未取得过连续两场胜利。这一尴尬纪录确
1 佰澳朗德dha吃法说明强势来袭,是不是用水吞服一看便知
作者:
6297字
佰澳朗德dha的吃法非常简单,一般孕妇可以直接服用,可以挤出放调羹里或挤到食物上服用,也可以直接用水吞服。通常备孕及孕期孕妇0-10周,每天1粒,孕期10-36周及哺乳期,每天2-3粒或遵医嘱。一般佰
1 别纠结试管胚胎筛查怎么做的了,先了解下通过率再说
作者:
63字
试管婴儿胚胎筛查主要就是通过胚胎活组织检查,从胚胎中取出一个或两个细胞,然后对胚胎进行筛选以验证其是否存在遗传异常,如果其中一个呈现染色体异常,这个胚胎就不能移植。该技术的通过率大约为50%-80%,
1 BLACKPINK续约金额高达400亿韩元 约2.16亿元人民币
作者:
9字
近日,据韩媒方面的消息表示,女团BLACKPINK续约YG金额或达400亿韩元。据韩媒分析,根据YG公开的报告书,BLACKPINK团体与YG续约的金额或达400亿韩元约合2.16亿人民币),这个金额
1 满足美好生活需要、拉动经济增长 服务消费升级有哪些实招?
作者:
937字
央视网消息:9月16日商务部发布了《关于扩大服务消费的若干政策措施》。国家统计局最新数据显示,2025年前8个月,我国服务消费增势稳定。服务零售额同比增长5.1%,快于商品零售额增速。服务消费已成为满
1 沈腾马丽称中国影史票房最高男女主演
作者:
159字
据灯塔专业版微博3月23日消息,电影《飞驰人生2》正在热映,助力演员沈腾主演电影票房超334.99亿元,成为中国影史主演电影票房最高男演员!另据猫眼电影,沈腾也同时成为中国影史票房最高主演。沈腾主要主