AI资讯新闻榜单内容搜索-OTA

别被室内基准高分骗了：大模型是在推理空间，还是在「背答案」？

2025 年，随着李飞飞等学者将 “空间智能”（Spatial Intelligence）推向聚光灯下，这一领域迅速成为了大模型竞逐的新高地。通用大模型和各类专家模型纷纷在诸多室内空间推理基准上刷新 SOTA，似乎 AI 在训练中已经更好地读懂了三维空间。

来自主题: AI技术研报

9018 点击 2026-01-07 09:36

Anthropic联创罕见曝内部文化：不相信炒作！ScalingLaw没有放缓；资金和算力远少于OpenAl，却多次推出SOTA

在 Anthropic 成立五周年前夕，联合创始人兼总裁 Daniela Amodei 罕见接受了公开采访！

来自主题: AI资讯

7799 点击 2026-01-06 16:12

比SOTA提速10倍！北大DragMesh重塑3D交互，物理零失真

让静态3D模型「动起来」一直是图形学界的难题：物理模拟太慢，生成模型又不讲「物理基本法」。近日，北京大学团队提出DragMesh，通过「语义-几何解耦」范式与双四元数VAE，成功将核心生成模块的算力消耗降低至SOTA模型的1/10，同时将运动轴预测误差降低了10倍。

来自主题: AI资讯

8035 点击 2026-01-05 09:35

比 JSON 省一半钱的格式，为什么大厂不敢用？

最近在研究 RAG 系统优化的时候，发现了一个有意思的格式叫 TOON。全称是 Token-Oriented Object Notation，翻译过来就是面向 Token 的对象表示法。

来自主题: AI技术研报

9437 点击 2026-01-03 14:02

「北京版幻方」九坤投资冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

又一个中国新模型被推到聚光灯下，刷屏国内外科技圈。IQuest-Coder-V1模型系列，看起来真的很牛。在最新版SWE-Bench Verified榜单中，40B参数版本的IQuest-Coder取得了81.4%的成绩，这个成绩甚至超过了Claude Opus-4.5和GPT-5.2（这俩模型没有官方资料，但外界普遍猜测参数规模在千亿-万亿级）。

来自主题: AI资讯

9897 点击 2026-01-02 15:14

超越谷歌，全球第一！上交AI科学家王者归来，登顶OpenAI MLE-bench

刚刚，由SciMaster团队推出的AI机器学习专家ML-Master 2.0，基于国产开源大模型DeepSeek，在OpenAI权威基准测试MLE-bench中一举击败Google、Meta、微软等国际顶流，刷新全球SOTA，再次登顶！目前该功能已在SciMaster线上平台开放waiting list，欢迎申请体验。

来自主题: AI技术研报

7496 点击 2025-12-25 14:22

生成不遗忘，「超长时序」世界模型！北大EgoLCD长短时记忆加持

视频生成模型总是「记性不好」？生成几秒钟后物体就变形、背景就穿帮？北大、中大等机构联合发布EgoLCD，借鉴人类「长短时记忆」机制，首创稀疏KV缓存+LoRA动态适应架构，彻底解决长视频「内容漂移」难题，在EgoVid-5M基准上刷新SOTA！让AI像人一样拥有连贯的第一人称视角记忆。

来自主题: AI技术研报

8252 点击 2025-12-25 10:16

AI Coding新王登场！MiniMax M2.1拿下多语言编程SOTA

MiniMax最新旗舰级Coding & Agent模型M2.1，刚刚对外发布了。这一次，它直接甩出了一份硬核成绩单，在衡量多语言软件工程能力的Multi-SWE-bench榜单中，以仅10B的激活参数拿下了49.4%的成绩，超越了Claude Sonnet 4.5等国际顶尖竞品，拿下全球SOTA。

来自主题: AI资讯

9333 点击 2025-12-24 08:08

VideoCoF：将「时序推理」引入视频编辑，无Mask实现高精度编辑与长视频外推！

现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境：专家模型精度高但依赖 Mask，通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的研究团队提出了一种全新的视频编辑框架 VideoCoF，受 LLM「思维链」启发，通过「看 - 推理 - 编辑」的流程，仅需 50k 训练数据，就在多项任务上取得了 SOTA 效果，并完美支持长视频外推！

来自主题: AI技术研报

8614 点击 2025-12-23 14:53

智谱IPO敲钟前，连夜把开源编程大模型SOTA了

2025倒计时，新SOTA模型涌现没有放缓迹象。一夜之间，编程SOTA模型易主，而且上线即开源，依然来自中国大模型公司——智谱AI，GLM-4.7。

来自主题: AI资讯

9048 点击 2025-12-23 10:38