AI点外卖哪家强,美团LongCat团队做了个全面评测
AI点外卖哪家强,美团LongCat团队做了个全面评测美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。
美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体,构建了一个包含66个工具的交互式评测环境,并设计了跨场景综合任务。
OpenAI的封闭模型在IOI 2025竞赛夺金的同时,英伟达团队交出了一份同样令人振奋的答卷——他们利用完全开源的大模型和全新的GenCluster策略,在IOI 2025竞赛中跑出了媲美金牌选手的成绩!开源模型首次达到了IOI金牌水准。这究竟是怎样实现的?
在 iPhone 上部署端侧 AI 模型,成了互联网的新显学。在 iPhone 上体验端侧模型,门槛其实不算高。打开 App Store,搜索 PocketPal AI,下载安装。如果不习惯英文界面,可以在设置 (Setting) 里找到语言 (Language) 选项,切换成中文。
在 LLM 领域,扩大强化学习算力规模正在成为一个关键的研究范式。但要想弄清楚 RL 的 Scaling Law 具体是什么样子,还有几个关键问题悬而未决:如何 scale?scale 什么是有价值的?RL 真的能如预期般 scale 吗?
GPT-5一场闹剧,让OpenAI出大糗了!让所有人都以为GPT-5破解了十道Erdos难题,没想到竟是查文献给出了答案。Hassabis点评,这太尴尬了。
拒绝世界首富是什么体验?卡帕西:这事我熟!刚刚,马斯克高调邀请卡帕西,与Grok 5来一场编程对决——就像当年的“卡斯帕罗夫大战深蓝”。
10月18日,在离开OpenAI,联合创办Thinking Machines后,Lilian Weng在硅谷难得地参加了一场公开对话。在这场华源Hysta2025年年会的炉边对谈里,她和主持人、硅谷知名投资人Connie Chan聊了聊她自己的研究经历、研究习惯、在OpenAI的研究思考和Thinking Machines 的发展方向。
我们又距离《Her》的世界更进一步。10 月 15 日,Sam Altman 在 X 上的一条推文炸了。 他的大意是:以前为了保护心理健康,ChatGPT 被我们限制得太严了……接下来,我们会放宽这些限制,让它更像人,更有个性。
利用人类皮肤细胞也能造出 AI 处理器?一家名为 FinalSpark 的瑞士公司,认为生物计算是 AI 的下一次进化飞跃。该公司开发了一款生物处理器,这些处理器利用人体神经元来代替传统的硅基芯片,使用由人类皮肤细胞培育出的类脑器官作为计算单元。
在近日的一次访谈中,Andrej Karpathy深入探讨了AGI、智能体与AI未来十年的走向。他认为当前的「智能体」仍处早期阶段,强化学习虽不完美,却是目前的最优解。他预测未来10年的AI架构仍然可能是类似Transformer的巨大神经网络。
400元遥操95%机械臂,上海交大推出开源项目U-Arm! 目前它已在XArm6、Dobot CR5、ARX R5等多种机械臂真机上进行了遥操作的验证。
麻省理工学院最新研究预示着人类距离能够自主学习的AI又迈出了关键一步。该研究推出了一种全新的自适应大模型框架「SEAL」,让模型从「被动学习者」变为「主动进化者」。
在「具身智能」与「世界模型」成为新一轮 AI 竞赛关键词的当下,来自北京人形机器人创新中心、北京大学多媒体信息处理国家重点实验室、香港科技大学的中国团队开源了全新的世界模型架构。
英伟达不光自己成长高速,现在它在AI领域的投资也坐上火箭了。 最新数据显示,2025年过去的三个季度里,英伟达参与了50笔AI相关风险投资,这个数量已经超过了2024年全年的48笔。
中科院的这篇工作解决了“深度搜索智能体”(deep search agents),两个实打实的工程痛点,一个是问题本身不够难导致模型不必真正思考,另一个是上下文被工具长文本迅速挤爆导致过程提前夭折,研究者直面挑战,从数据和系统两端同时重塑训练与推理流程,让复杂推理既有用又能跑得起来。
在代码层面,大语言模型已经能够写出正确而优雅的程序。但在机器学习工程场景中,它离真正“打赢比赛”仍有不小差距。
在训练多轮 LLM Agent 时(如需要 30 + 步交互才能完成单个任务的场景),研究者遇到了一个严重的训练不稳定问题:标准的强化学习方法(PPO/GRPO)在稀疏奖励环境下表现出剧烈的熵值震荡,导致训练曲线几乎不收敛。
硬刚Sora2,谷歌刚刚发布新动作——Veo3.1。
本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案,可以端到端优化真实的流策略,而无需采用替代目标或者策略蒸馏。SAC FLow 的核心思想是把流策略视作一个 residual RNN,再用 GRU 门控和 Transformer Decoder 两套速度参数化。
嗨大家好!我是阿真! 最近Grok也是发布了Grok Imagine v0.9,v0.9 引入语音优先界面、音频同步与图像转视频,仅需10-15秒生成6秒视频,支持多个模式。
AutoGame 创始人张昊阳离开腾讯后,带领团队打造的 AI 游戏《麦琪的花园》在 Steam 零推广登上新品榜 Top50,一个月积累超 5000 愿望单。通过自研 GameGPT 多智能体框架和大模型架构,他们让普通玩家能“一句话生成 NPC、任务与道具”,将 UGC 创作门槛降至短视频级别,把传统“金字塔型”内容生态变为“十字型”社交表达平台。
2 天前,国内最大的 AI 多模态模型社区之一的 LiblibAI 进行了一次大升级,正式推出了 2.0 版本。对许多创作者而言,这个平台并不陌生,LiblibAI 一直是国内开源绘画与 LoRA 文化的重要发源地,也常被称为中国版的 CivitAI (大家常说的 C 站)。
最新一季度的「AI 100」双榜单出炉了。 领军阵营中,哪些头部产品的地位被撼动,哪些新起之秀成功突围?高潜力种子选手中,有哪些新的细分场景和产品设计展现潜力? 旗舰100和创新100榜单分别聚焦「国
全球AI竞争的核心在于芯片制造。英伟达与台积电在美国亚利桑那工厂,历史性地亮相了首片用于AI的Blackwell芯片晶圆。标志着最强AI芯片首次实现「美国本土造」,是足以改变行业格局的里程碑,也象征着美国尖端制造业的回归。
接下来,流量分配规则、购物方式都要变了。而何为 AI 电商、又该如何落地,在内部乃至整个行业都没有清晰的路径。据《晚点》此前报道,2023 年淘宝天猫内部一度有近 20 个团队在摸索 AI 业务,同质化问题严重。
当地时间 10 月 15 日,美国麻省理工学院的垂直氮化镓芯片衍生公司 Vertical Semiconductor 获得 1,100 万美元的种子轮融资,清华大学苏世民学院校友、前英国驻华大使馆气候变化与环境事务副主任 Cynthia Liao 是该公司的联合创始人兼 CEO。
90%的开发者都在用AI,却只有24%真正信任它!DORA 2025报告揭示:AI不是万能解药,而是放大镜。它让强者飞升,让弱者溃败。七种团队人设、七项关键能力,决定了你的团队,是进化还是崩塌。
HR拿AI筛简历,求职者埋代码陷阱,双方疯狂互坑。
黄仁勋大家都见得多了,但你见过他女儿讲具身智能吗?这不,黄仁勋女儿Madison Huang首次公开亮相直播访谈节目,作为英伟达Omniverse与物理AI高级总监,与光轮智能CEO谢晨,以及光轮智能增长负责人穆斯塔法一起,对“如何缩小机器人在虚拟与现实之间的差距”展开深刻探讨。
针对「大模型推理速度慢,生成token高延迟」的难题,莫纳什、北航、浙大等提出R-Stitch框架,通过大小模型动态协作,衡量任务风险后灵活选择:简单任务用小模型,关键部分用大模型。实验显示推理速度提升最高4倍,同时保证高准确率。