AI资讯新闻榜单内容搜索-语言模型

类比的长河，为何流到大模型就被截流？

当我们遇到新问题时，往往会通过类比过去的经验来寻找解决方案，大语言模型能否如同人类一样类比？在对大模型的众多批判中，人们常说大模型只是记住了训练数据集中的模式，并没有进行真正的推理。

来自主题: AI技术研报

10953 点击 2025-04-03 10:50

动态场景，开放文本查询！清华哈佛联合建模4D语言场 | CVPR 2025

4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术，成功构建了动态语义场，能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述，并通过状态变化网络实现语义特征的平滑建模，显著提升了动态语义场的建模能力。

来自主题: AI技术研报

5603 点击 2025-04-02 15:05

美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

在数学推理中，大语言模型存在根本性局限：在美国数学奥赛，顶级AI模型得分不足5%！来自ETH Zurich等机构的MathArena团队，一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报

10219 点击 2025-04-02 14:58

自动学会工具解题，RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中，工具使用一直是克服语言模型计算局限性的关键路径。不过，当今的大模型在使用工具方面还存在一些局限，比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。

来自主题: AI技术研报

10330 点击 2025-04-02 10:09

OpenAI重新开源！第一弹就推理模型，还不限制商用，“冲着DeepSeek来的”

一夜之间，OpenAI更新三大动向，开源、融资、用户暴增。第一，将开源一个具备推理能力的大语言模型，包含参数权重那种。上一次这样开源还是6年前推出GPT-2。

来自主题: AI资讯

10889 点击 2025-04-01 09:15

200美金，人人可手搓QwQ，清华、蚂蚁开源极速RL框架AReaL-boba

由于 DeepSeek R1 和 OpenAI o1 等推理模型（LRM，Large Reasoning Model）带来了新的 post-training scaling law，强化学习（RL，Reinforcement Learning）成为了大语言模型能力提升的新引擎。然而，针对大语言模型的大规模强化学习训练门槛一直很高：

来自主题: AI技术研报

11846 点击 2025-03-31 15:07

被LangChain折磨够了吗？试下100行代码打造的LLM有向图框架PocketFlow | 独家最新

你是否曾对着一个繁复的AI框架，无奈地想："真有必要搞得这么复杂吗？"在与臃肿框架斗争一年后，Zachary Huang博士决定大刀阔斧地革新，剔除所有花里胡哨的部分。于是Pocket Flow诞生了——一个仅有100行代码的超轻量级大语言模型框架！

来自主题: AI技术研报

11728 点击 2025-03-31 09:48

GDC上的中国游戏AI智能体们

关于AI智能体，GDC上腾讯游戏魔方工作室分享了《F.A.C.U.L：首个懂人类语言的 FPS AI 队友》的演讲(这个技术去年就有曝光)，项目融合语音输入、大语言模型、实时文本转语音等生成式AI技术，让玩家能与AI队友沉浸式协同作战。

来自主题: AI资讯

9563 点击 2025-03-30 11:28

专抓AI“看图说谎”，谷歌哥大用三类陷阱触发幻觉，打造可随技术发展动态演进的评估框架

幻觉（Hallucination），即生成事实错误或不一致的信息，已成为视觉-语言模型 (VLMs）可靠性面临的核心挑战。随着VLMs在自动驾驶、医疗诊断等关键领域的广泛应用，幻觉问题因其潜在的重大后果而备受关注。

来自主题: AI技术研报

8037 点击 2025-03-29 15:36

大模型不再是路痴！空间推理的答案是RAG：旅游规划、附近推荐全解锁

Spatial-RAG结合了空间数据库和大型语言模型（LLM）的能力，能够处理复杂的空间推理问题。通过稀疏和密集检索相结合的方式，Spatial-RAG可以高效地从空间数据库中检索出满足用户查询的空间对象，并利用LLM的语义理解能力对这些对象进行排序和生成最终答案。

来自主题: AI技术研报

7715 点击 2025-03-28 15:47