AI资讯新闻榜单内容搜索-SOTA

Jina-VLM：可在笔记本上跑的多语言视觉小模型

今天我们正式发布 Jina-VLM，这是一款 2.4B 参数量的视觉语言模型（VLM），在同等规模下达到了多语言视觉问答（Multilingual VQA）任务上的 SOTA 基准。Jina-VLM 对硬件需求较低，可在普通消费级显卡或 Macbook 上流畅运行。

来自主题: AI资讯

8872 点击 2025-12-09 14:48

又一国产图像大模型开源！实测连续P图绝了，中文渲染是短板

今日，美团正式发布并开源图像生成模型LongCat-Image，这是一款在图像编辑能力上达到开源SOTA水准的6B参数模型，重点瞄准文生图与单图编辑两大核心场景。在实际体验中，它在连续改图、风格变化和材质细节上表现较好，但在复杂排版场景下，中文文字渲染仍存在不稳定的情况。

来自主题: AI资讯

8706 点击 2025-12-08 19:51

告别「2D错觉」，SpatialActor通过解耦语义与几何，为具身智能注入强鲁棒空间基因

作者在包含 50 多个任务的多个仿真和真实世界场景中评估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成绩，达到 SOTA 水平；在不同噪声条件下，性能提升了 13.9% 至 19.4%，展现出强大的鲁棒性。目前该论文已被收录为 AAAI 2026 Oral，并将于近期开源。

来自主题: AI技术研报

8334 点击 2025-12-06 10:59

突破具身智能任务规划边界，刷新具身大脑多榜单SOTA，中兴EmbodiedBrain模型让具身大脑学会「复杂规划」

在人工通用智能（AGI）的探索征程中，具身智能 Agents 作为连接数字认知与物理世界的关键载体，其核心价值在于能够在真实物理环境中实现稳健的空间感知、高效的任务规划与自适应的执行闭环。

来自主题: AI技术研报

9981 点击 2025-12-04 10:27

告别GUI Agent工程基建噩梦：阶跃开源4B Agent模型，跑通所有安卓设备，手搓党一键部署

首次将GUI Agent模型与完整配套基建同步开放，支持手搓党一键部署！这就是阶跃星辰刚刚开源的GELab-Zero。其中4B版本的GUI Agent模型在手机端、电脑端等多个GUI榜单上全面刷新同尺寸模型性能纪录，取得SOTA成绩。

来自主题: AI资讯

9650 点击 2025-11-30 15:12

哈工大深圳团队推出Uni-MoE-2.0-Omni：全模态理解、推理及生成新SOTA

全模态大模型（Omnimodal Large Models, OLMs）能够理解、生成、处理并关联真实世界多种数据类型，从而实现更丰富的理解以及与复杂世界的深度交互。人工智能向全模态大模型的演进，标志着其从「专才」走向「通才」，从「工具」走向「伙伴」的关键点。

来自主题: AI技术研报

8919 点击 2025-11-26 09:13

NeurIPS重磅：华南理工团队重构扩散模型推理，质量效率双SOTA

扩散概率生成模型（Diffusion Models）已成为AIGC时代的重要基础，但其推理速度慢、训练与推理之间的差异大，以及优化困难，始终是制约其广泛应用的关键问题。近日，被NeurIPS 2025接收的一篇重磅论文EVODiff给出了全新解法：来自华南理工大学曾德炉教授「统计推断，数据科学与人工智能」研究团队跳出了传统的数值求解思维，首次从信息感知的推理视角，将去噪过程重构为实时熵减优化问题。

来自主题: AI技术研报

7989 点击 2025-11-24 14:32