
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架
机器人视觉语言导航进入R1时代!港大联合上海AI Lab提出全新具身智能框架你对着家里的机器人说:“去厨房,看看冰箱里还有没有牛奶。”
你对着家里的机器人说:“去厨房,看看冰箱里还有没有牛奶。”
MyShell 自从进入 ShellAgent 的框架阶段,由于深度融合了 ComfyUI 生态,图像视频流的 Agent 迎来了井喷式的爆发。上个月据说上新了 150+个,竞争确实有点激烈了。但其实图像视频流的能力并不代表 ShellAgent 所能做的全部可能性,仍然有大量值得探索的场景等待创作者去尝试。
基础模型严重依赖大规模、高质量人工标注数据来学习适应新任务、领域。为解决这一难题,来自北京大学、MIT等机构的研究者们提出了一种名为「合成数据强化学习」(Synthetic Data RL)的通用框架。该框架仅需用户提供一个简单的任务定义,即可全自动地生成高质量合成数据。
无需蒸馏任何大规模语言模型,小模型也能自给自足、联合提升?
在 AI Agent 浪潮席卷行业的当下,高效优雅开发具备复杂推理与协作能力的智能体成为业界焦点。本文将系统梳理 AI Agent 核心理念、主流协议与思考框架,并结合 Golang 生态工程化框架,深入剖析多 Agent 协作系统的设计与落地。
“边看边画,边画边想”,让大模型掌握空间思考能力,结果直接实现空间推理任务新SOTA。
在信息爆炸的时代,推荐系统已成为我们获取资讯、商品和服务的核心入口。无论是电商平台的 “猜你喜欢”,还是内容应用的信息流,背后都离不开推荐算法的默默耕耘
普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。
为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。
随着大模型应用场景的不断拓展,其在处理长期对话时逐渐暴露出的记忆局限性日益凸显,主要表现为固定长度上下文窗口导致的“健忘”问题。