AI资讯新闻榜单内容搜索-模型

多模态模型具备“物理推理能力”了吗？新基准揭示：表现最好的GPT-o4 mini也远不及人类！

表现最好的GPT-o4 mini，物理推理能力也远不及人类！

来自主题: AI技术研报

10008 点击 2025-05-28 09:47

强化学习解决长上下文推理问题：通义推出QwenLong-L1-32B

上下文长度达 13 万 token，适用于多段文档综合分析、金融、法律、科研等复杂领域任务。

来自主题: AI技术研报

7724 点击 2025-05-28 09:42

Meta「轻量级」KernelLLM颠覆GPU内核生成，8B参数碾压GPT-4o

Meta推出KernelLLM，这个基于Llama 3.1微调的8B模型，竟能将PyTorch代码自动转换为高效Triton GPU内核。实测数据显示，它的单次推理性能超越GPT-4o和DeepSeek V3，多次生成时得分飙升。

来自主题: AI技术研报

8037 点击 2025-05-27 18:00

Claude 4被诱导窃取个人隐私！GitHub官方MCP服务器安全漏洞曝光

被选为GitHub Copilot官方模型后，Claude 4直接被诱导出bug了！

来自主题: AI资讯

7846 点击 2025-05-27 17:38

One RL to See Them All？一个强化学习统一视觉-语言任务！

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而，RL 在推理任务之外的应用，尤其是在目标检测和目标定位等感知密集型任务中的应用，仍有待深入探索。

来自主题: AI技术研报

10135 点击 2025-05-27 17:33

【万字长文】大模型开源开发全景与趋势解读

“当我们看到这些数据趋势的时候，一个词浮现在我的眼前——黑客松（Hackathon），AI 领域的项目，快速地出现、快速地停更，他们似乎在做一场真实市场里的黑客松，那么，什么领域涌现了最多项目，哪些方面是停更的重灾区，哪些项目幸存了，激烈竞争的项目们如今怎么样了，我们都尝试着在这份趋势报告里叙述一二。”

来自主题: AI资讯

6724 点击 2025-05-27 17:13