别再信“LRM无需优化提示词”了,你至少输掉23%的性能,以R1为例
别再信“LRM无需优化提示词”了,你至少输掉23%的性能,以R1为例还记得DeepSeek-R1发布时AI圈的那波狂欢吗?"提示工程已死"、"再也不用费心写复杂提示了"、"推理模型已经聪明到不再需要学习提示词了"......这些观点在社交媒体上刷屏,连不少技术大佬都在转发。再到最近,“提示词写死了”......现实总是来得这么快——乔治梅森大学的研究者们用一个严谨得让人无法反驳的实验,狠狠打了所有人的脸!
搜索
还记得DeepSeek-R1发布时AI圈的那波狂欢吗?"提示工程已死"、"再也不用费心写复杂提示了"、"推理模型已经聪明到不再需要学习提示词了"......这些观点在社交媒体上刷屏,连不少技术大佬都在转发。再到最近,“提示词写死了”......现实总是来得这么快——乔治梅森大学的研究者们用一个严谨得让人无法反驳的实验,狠狠打了所有人的脸!
如何与AI共处?
我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的任务,它们分别要求模型具备不同层面的能力。
下手帮你干活直接交付结果。 当搜索不再只是获取信息的工具,而能直接帮你完成购物决策、行程规划甚至输出专业报告——这一愿景随着纳米AI超级搜索智能体的发布成为现实。
现在的AI应用就像韩国偶像团体一样新人辈出——脸还没被认熟就推出了新的版本,然后就是噼里啪啦一顿造势,结果总是会有作品、实力配不上流量的感觉。
Figma正式祭出官方MCP,先体验一下好用不好用: 打开 Figma 桌面应用并确保已更新至最新版本。
你有没有想过,编程这件事情可能彻底变了?开发者正在从单纯使用AI工具,转向将AI视为构建软件的全新基础。这不是什么小调整,而是一场彻底的范式转变。想想看,那些我们一直习以为常的核心概念——版本控制、代码审查、甚至"开发者"的定义——都在因为AI agent驱动的工作流而被重新定义。
谁说强化学习只能是蛋糕上的樱桃,说不定,它也可以是整个蛋糕呢?
Benchmark 合伙人 Eric Vishria 最近跟 Banana Capital 合伙人 Turner Novak 在其播客 The Peel 做了一个非常精彩的对话,这是我最近觉得非常不错的一个访谈。
AI的未来,不只是属于他们,而是由他们创造 在这场由AI引爆的全球创业浪潮中,一批出生于2000年后的年轻人正以惊人的速度冲上前台。