AI资讯新闻榜单内容搜索-大模

开源对机器人的价值，远超大模型时代的想象丨唐文斌深度对谈抱抱脸创始人

“很多模型在模拟器里完美运行，但一到现实就彻底失灵。” 在最新一次线上对谈中，Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf指出了当前机器人研究的最大痛点。

来自主题: AI资讯

7621 点击 2025-10-20 15:08

让模型“看视频写网页”，GPT-5仅得36.35分！上海AI Lab联合发布首个video2code基准

多模态大模型在根据静态截图生成网页代码（Image-to-Code）方面已展现出不俗能力，这让许多人对AI自动化前端开发充满期待。

来自主题: AI技术研报

8353 点击 2025-10-20 14:57

大模型 “准确率悬崖” 被证实，科学家发现模型单次处理容量上限，多智能体成破局关键

近日，来自阿联酋穆罕默德·本·扎耶德人工智能大学 MBZUAI 和保加利亚 INSAIT 研究所的研究人员发现一个针对大模型单次推理的“法诺式准确率上限”，借此不仅揭示了单次生成范式的根本性脆弱点，也揭示了“准确率悬崖”这一现象。

来自主题: AI技术研报

8822 点击 2025-10-20 14:02

教多模态大模型学会“反思”和“复盘”，上交&上海AI Lab重磅发布MM-HELIX&AHPO，破解多模态复杂推理难题

多模态大模型表现越来越惊艳，但人们也时常困于它的“耿直”。

来自主题: AI技术研报

8986 点击 2025-10-20 12:13

AI点外卖哪家强，美团LongCat团队做了个全面评测

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

来自主题: AI技术研报

8373 点击 2025-10-20 10:13

英伟达4段简短提示词，IOI夺金！开源模型也能征服最难编程竞赛

OpenAI的封闭模型在IOI 2025竞赛夺金的同时，英伟达团队交出了一份同样令人振奋的答卷——他们利用完全开源的大模型和全新的GenCluster策略，在IOI 2025竞赛中跑出了媲美金牌选手的成绩！开源模型首次达到了IOI金牌水准。这究竟是怎样实现的？

来自主题: AI技术研报

8879 点击 2025-10-20 10:13

GPT-6要「活」了？MIT新作曝光，AI「自进化」不远了

麻省理工学院最新研究预示着人类距离能够自主学习的AI又迈出了关键一步。该研究推出了一种全新的自适应大模型框架「SEAL」，让模型从「被动学习者」变为「主动进化者」。

来自主题: AI技术研报

7566 点击 2025-10-19 12:39

专访 AI 游戏创业者张昊阳：如何用《麦琪的花园》定义下一代沙盒范式

AutoGame 创始人张昊阳离开腾讯后，带领团队打造的 AI 游戏《麦琪的花园》在 Steam 零推广登上新品榜 Top50，一个月积累超 5000 愿望单。通过自研 GameGPT 多智能体框架和大模型架构，他们让普通玩家能“一句话生成 NPC、任务与道具”，将 UGC 创作门槛降至短视频级别，把传统“金字塔型”内容生态变为“十字型”社交表达平台。

来自主题: AI资讯

11585 点击 2025-10-19 10:46

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作

针对「大模型推理速度慢，生成token高延迟」的难题，莫纳什、北航、浙大等提出R-Stitch框架，通过大小模型动态协作，衡量任务风险后灵活选择：简单任务用小模型，关键部分用大模型。实验显示推理速度提升最高4倍，同时保证高准确率。

来自主题: AI技术研报

7687 点击 2025-10-18 12:21

小米最新大模型成果！罗福莉现身了

小米的最新大模型科研成果，对外曝光了。就在最近，小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。而其中，因为更早之前在DeepSeek R1爆火前转会小米的罗福莉，也赫然在列，还是通讯作者。

来自主题: AI技术研报

9323 点击 2025-10-17 16:44