
腾讯机器人要做什么、不做什么,张正友一次讲清楚了|WAIC2025
腾讯机器人要做什么、不做什么,张正友一次讲清楚了|WAIC2025腾讯一口气发布3个具身模型,包括动态感知、规划、感知行动联合模型,分别对应人类的左脑、右脑和小脑。
腾讯一口气发布3个具身模型,包括动态感知、规划、感知行动联合模型,分别对应人类的左脑、右脑和小脑。
在复杂的开放环境中,让足式机器人像人类一样自主完成「先跑到椅子旁,再快速接近行人」这类长程多目标任务,一直是 robotics 领域的棘手难题。传统方法要么局限于固定目标类别,要么难以应对运动中的视觉抖动、目标丢失等实时挑战,导致机器人在真实场景中常常「迷路」或「认错对象」。
一年一度的世界人工智能大会现场探展,我们被这个「闲不住」的人形机器人圈粉了。2025 年行至过半,人工智能领域的前沿热点屡屡破圈,其中具身智能(Embodied AI)及其载体在国内格外受到了关注,尤其是人形机器人。
这大概是大家玩得最开心的一届WAIC。在上海世博展览馆里,你能看到:机器狗托着AI眼镜“哒哒哒”走,机器人被绑了绳子“遛”机器狗,人们给自己绑上感应器,小心翼翼“遥操”着机器人搭积木、玩迷宫。
一年一度的 WAIC 在明天就要开始了,在正式开展之前,我跟随官方的 city walk 路线探访了一番。 我探访的这条「AI+智慧生活路线」一共有三个目的地:上海发那科机器人有限公司、上海腾讯滨江大厦、模速空间的智能产品体验中心。
机器人能通过普通视频来学会实际物理操作了! 来看效果,对于所有没见过的物品,它能精准识别并按照指令完成动作。
如何让机器人从看懂世界,到理解意图,再到做出动作,是具身智能领域当下最受关注的技术重点。 但真机数据的匮乏,正在使对应的视觉-语言-动作(VLA)模型面临发展瓶颈。
你有没有想过,有一天你可能会对着手机屏幕吐露最深的心事,而屏幕另一端的不是人类治疗师,而是一个AI聊天机器人?听起来很奇怪对吧?但如果我告诉你,这个机器人可能比你见过的任何治疗师都更了解你,24小时随时在那里倾听,永远不会评判你,而且正在帮助成千上万的人走出心理困境,你还会觉得奇怪吗?
我们知道,训练大模型本就极具挑战,而随着模型规模的扩大与应用领域的拓展,难度也在不断增加,所需的数据更是海量。大型语言模型(LLM)主要依赖大量文本数据,视觉语言模型(VLM)则需要同时包含文本与图像的数据,而在机器人领域,视觉 - 语言 - 行动模型(VLA)则要求大量真实世界中机器人执行任务的数据。
这也太惊人了吧?!