AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

当前,视觉语言模型(VLMs)的能力边界不断被突破,但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角:如果一项能力对人类而言是 “无需思考” 的本能,但对 AI 却是巨大挑战,它是否才是 VLMs 亟待突破的核心瓶颈?

来自主题: AI技术研报
6030 点击    2025-03-15 15:05
何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了?

何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了?

何恺明LeCun暴击Transformer命门,9行代码砍掉归一化层!性能反而更强了?

Transformer架构迎来历史性突破!刚刚,何恺明LeCun、清华姚班刘壮联手,用9行代码砍掉了Transformer「标配」归一化层,创造了性能不减反增的奇迹。

来自主题: AI技术研报
5960 点击    2025-03-15 14:11
医学可用!推理增强RAG:精准诊断、智能补问、高效解析 | WWW 2025

医学可用!推理增强RAG:精准诊断、智能补问、高效解析 | WWW 2025

医学可用!推理增强RAG:精准诊断、智能补问、高效解析 | WWW 2025

南洋理工大学的研究团队提出了MedRAG模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力,显著提升智能健康助手的诊断精度和个性化建议水平。MedRAG在真实临床数据集上表现优于现有模型,准确率提升11.32%,并具备良好的泛化能力,可广泛应用于不同LLM基模型。

来自主题: AI技术研报
5022 点击    2025-03-14 16:19
CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

在 Sora 引爆世界模型技术革命的当下,3D 场景作为物理世界的数字基座,正成为构建动态可交互 AI 系统的关键基础设施。当前,单张图像生成三维资产的技术突破,已为三维内容生产提供了 "从想象到三维" 的原子能力。

来自主题: AI技术研报
7115 点击    2025-03-14 15:40