AI资讯新闻榜单内容搜索-语言模型

大模型怎么做好角色扮演？最大的真实数据集、SoTA开源模型、最深入的评估在这里

角色扮演 AI（Role-Playing Language Agents，RPLAs）作为大语言模型（LLM）的重要应用，近年来获得了广泛关注。

来自主题: AI技术研报

10268 点击 2025-03-17 16:30

AI大佬曼宁转赞，MetaGPT团队首提「Atom of Thoughts」，原子化思考让4o-mini暴打推理模型？

大语言模型（LLM）近年来凭借训练时扩展（train-time scaling）取得了显著性能提升。然而，随着模型规模和数据量的瓶颈显现，测试时扩展（test-time scaling）成为进一步释放潜力的新方向。

来自主题: AI技术研报

8259 点击 2025-03-16 12:42

人类秒懂，AI却懵圈：VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

当前，视觉语言模型（VLMs）的能力边界不断被突破，但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角：如果一项能力对人类而言是 “无需思考” 的本能，但对 AI 却是巨大挑战，它是否才是 VLMs 亟待突破的核心瓶颈？

来自主题: AI技术研报

7176 点击 2025-03-15 15:05

医学可用！推理增强RAG：精准诊断、智能补问、高效解析 | WWW 2025

南洋理工大学的研究团队提出了MedRAG模型，通过结合知识图谱推理增强大语言模型（LLM）的诊断能力，显著提升智能健康助手的诊断精度和个性化建议水平。MedRAG在真实临床数据集上表现优于现有模型，准确率提升11.32%，并具备良好的泛化能力，可广泛应用于不同LLM基模型。

来自主题: AI技术研报

6163 点击 2025-03-14 16:19

3700次预训练总结超参规律，开源海量实验，告别盲猜

近年来，大语言模型 LLMs 在多种任务上的卓越表现已得到广泛认可。然而，要实现其高效部署，精细的超参数优化至关重要。为了探究最佳超参数的规律，我们开展了大规模的实证研究，通过在不同配置上进行网格搜索，我们揭示了一套通用的最优超参数缩放定律（Optimal Hyperparameter Scaling Law）。

来自主题: AI技术研报

9634 点击 2025-03-13 15:15