AI资讯新闻榜单内容搜索-GPT-4o

阿里智能体多轮推理超越GPT-4o，开源模型也能做Deep Research

能够完成多步信息检索任务，涵盖多轮推理与连续动作执行的智能体来了。通义实验室推出WebWalker（ACL2025）续作自主信息检索智能体WebDancer。

来自主题: AI技术研报

8554 点击 2025-06-06 16:31

当前最强多模态Agent连验证码都解不了？

来自主题: AI技术研报

9073 点击 2025-06-05 10:39

一项新的强化学习方法，直接让Qwen性能大增，GPT-4o被赶超！

来自主题: AI技术研报

7410 点击 2025-06-04 10:50

长视频理解是多模态大模型关键能力之一。尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展，当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。

来自主题: AI技术研报

9003 点击 2025-06-03 14:44

不久前，GPT-4o 的最新图像风格化与编辑能力横空出世，用吉卜力等风格生成的效果令人惊艳，也让我们清晰看到了开源社区与商业 API 在图像风格化一致性上的巨大差距。

来自主题: AI技术研报

9609 点击 2025-06-02 15:53

GPT-4o-Image也只能完成28.9%的任务，图像编辑评测新基准来了！360个全部由人类专家仔细思考并校对的高质量测试案例，暴露多模态模型在结合推理能力进行图像编辑时的短板。

来自主题: AI技术研报

11321 点击 2025-05-31 14:37

最顶尖的AI模型，做起奥数题来已经和人类相当，那做物理题水平如何呢？港大等机构的研究发现：即使GPT-4o、Claude 3.7 Sonnet这样的最强模型，做物理题也翻车了，准确率直接被人类专家碾压！

来自主题: AI技术研报

11120 点击 2025-05-28 11:58

前几天在论坛上看别人激烈辩论 AI 是否会取代工程师，突然有人在回复中冷不丁的抛出一个评论：别说那么多废话，先让 AI 画个左撇子出来。这是个什么问题？

来自主题: AI资讯

9271 点击 2025-05-28 10:28

Meta推出KernelLLM，这个基于Llama 3.1微调的8B模型，竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示，它的单次推理性能超越GPT-4o和DeepSeek V3，多次生成时得分飙升。

来自主题: AI技术研报

8647 点击 2025-05-27 18:00

在文档理解领域，多模态大模型（MLLMs）正以惊人的速度进化。从基础文档图像识别到复杂文档理解，它们在扫描或数字文档基准测试（如 DocVQA、ChartQA）中表现出色，这似乎表明 MLLMs 已很好地解决了文档理解问题。然而，现有的文档理解基准存在两大核心缺陷：

来自主题: AI技术研报

10010 点击 2025-05-25 11:44