AI资讯新闻榜单内容搜索-语言模型

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

你是否曾对大语言模型（LLMs）下达过明确的“长度指令”？

来自主题: AI技术研报

10081 点击 2025-05-29 15:12

大语言模型遇上加密数据，即使是最新Qwen3也直冒冷汗！

来自主题: AI技术研报

8980 点击 2025-05-29 14:59

信息检索能力对提升大语言模型 (LLMs) 的推理表现至关重要，近期研究尝试引入强化学习 (RL) 框架激活 LLMs 主动搜集信息的能力，但现有方法在训练过程中面临两大核心挑战：

来自主题: AI技术研报

6977 点击 2025-05-29 14:48

MetaMind是一个多智能体框架，专门解决大语言模型在社交认知方面的根本缺陷。传统的 LLM 常常难以应对现实世界中人际沟通中固有的模糊性和间接性，无法理解未说出口的意图、隐含的情绪或文化敏感线索。MetaMind首次使LLMs在关键心理理论(ToM)任务上达到人类水平表现。

来自主题: AI技术研报

11760 点击 2025-05-29 10:31

在日益强调“思维能力”的大语言模型时代，如何让模型在“难”的问题上展开推理，而不是无差别地“想个不停”，成为当前智能推理研究的重要课题。

来自主题: AI技术研报

5839 点击 2025-05-28 14:52

我们采用了AI暴露度指标构建的方法，随机抽取了2018年1月到2024年5月的125万条招聘大数据进行分析，并最终计算出每个职业的AI大语言模型暴露度。

来自主题: AI资讯

9146 点击 2025-05-28 11:47

强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而，RL 在推理任务之外的应用，尤其是在目标检测和目标定位等感知密集型任务中的应用，仍有待深入探索。

来自主题: AI技术研报

10415 点击 2025-05-27 17:33

在大型推理模型（例如 OpenAI-o3）中，一个关键的发展趋势是让模型具备原生的智能体能力。具体来说，就是让模型能够调用外部工具（如网页浏览器）进行搜索，或编写/执行代码以操控图像，从而实现「图像中的思考」。

来自主题: AI技术研报

11221 点击 2025-05-27 16:53

首个用于加速扩散式大语言模型（diffusion-based Large Language Models, 简称 dLLMs）推理过程的免训练方法。

来自主题: AI技术研报

11688 点击 2025-05-27 16:22

随着大语言模型（LLM）能力的快速迭代，传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征，例如价值观、性格和社交智能？如何建立更全面、更可靠的 AI 评估体系？北京大学宋国杰教授团队最新综述论文（共 63 页，包含 500 篇引文），首次尝试系统性梳理答案。

来自主题: AI技术研报

10713 点击 2025-05-27 16:13