AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
如何为LLM智能体编写工具?Anthropic官方教程来了

如何为LLM智能体编写工具?Anthropic官方教程来了

如何为LLM智能体编写工具?Anthropic官方教程来了

智能体(Agent)时代,工具已不再只是传统 API 或函数接口的简单封装,而是决定智能体能否高效完成任务的关键。 为了让智能体真正释放潜力,我们需要重新思考工具开发的方式。传统软件开发依赖确定性逻辑,而智能体是非确定性的,它们在相同输入下可能产生不同输出,这意味着为智能体设计工具需要新的范式。

来自主题: AI技术研报
7141 点击    2025-09-13 14:38
刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月

刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月

刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月

谷歌最新71页论文震惊科研界:AI不止能写代码,还能像科学家一样提出新方法、跑实验,甚至在六大领域全面超越专家!过去要花几个月的探索,如今几小时就能完成,科研节奏

来自主题: AI技术研报
11011 点击    2025-09-13 14:07
大模型智能体不止能写代码,还能被训练成白帽黑客

大模型智能体不止能写代码,还能被训练成白帽黑客

大模型智能体不止能写代码,还能被训练成白帽黑客

当人们还在惊叹大模型能写代码、能自动化办公时,它们正在悄然踏入一个更敏感、更危险的领域 —— 网络安全。

来自主题: AI技术研报
5747 点击    2025-09-12 11:36
告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式

告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式

告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式

在检索增强生成(RAG)飞速发展的当下,研究者们面临的最大困境并非「生成」,而是「稳定」。

来自主题: AI技术研报
7712 点击    2025-09-12 11:05
攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理

攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理

攻克AI过度思考难题!美团新研究让通过“可验证”过程奖励激活LRM的高效推理

LRM通过简单却有效的RLVR范式,培养了强大的CoT推理能力,但伴随而来的冗长的输出内容,不仅显著增加推理开销,还会影响服务的吞吐量,这种消磨用户耐心的现象被称为“过度思考”问题。

来自主题: AI技术研报
9300 点击    2025-09-12 10:47
你知道吗?相较于产生幻觉,LLM其实更会「说谎」|卡梅隆最新

你知道吗?相较于产生幻觉,LLM其实更会「说谎」|卡梅隆最新

你知道吗?相较于产生幻觉,LLM其实更会「说谎」|卡梅隆最新

幻觉并非什么神秘现象,而是现代语言模型训练和评估方式下必然的统计结果。它是一种无意的、因不确定而产生的错误。根据OpenAI9月4号论文的证明,模型产生幻觉(Hallucination),是一种系统性缺陷。

来自主题: AI技术研报
7946 点击    2025-09-12 10:41
万字追问:AI开始超越人类,我们如何处理新的「哥白尼创伤」?

万字追问:AI开始超越人类,我们如何处理新的「哥白尼创伤」?

万字追问:AI开始超越人类,我们如何处理新的「哥白尼创伤」?

唱衰人工智能不会带来更好的明天 —— 构建于人工智能之上的未来世界既非乌托邦,也非反乌托邦,而是充满无限奇幻可能的。

来自主题: AI技术研报
7040 点击    2025-09-12 10:26
成立7个月首发声!百亿美金独角兽万字雄文:攻克LLM推理非确定性难题

成立7个月首发声!百亿美金独角兽万字雄文:攻克LLM推理非确定性难题

成立7个月首发声!百亿美金独角兽万字雄文:攻克LLM推理非确定性难题

Thinking Machines Lab成立7个月,估值120亿美元,首次公开研究成果:LLM每次回答不一样的真凶——kernel缺乏批处理不变性。Lilian Weng更是爆猛料:首代旗舰叫 Connection Machine,还有更多在路上。

来自主题: AI技术研报
7268 点击    2025-09-11 19:54
AI胡说八道这事,终于有人管了?

AI胡说八道这事,终于有人管了?

AI胡说八道这事,终于有人管了?

想象一下,如果 ChatGPT 等 AI 大模型在生成的时候,能把自己不确定的地方都标记出来,你会不会对它们生成的答案放心很多?

来自主题: AI技术研报
9432 点击    2025-09-11 19:34
李飞飞一年前究竟说了啥?怎么又火了

李飞飞一年前究竟说了啥?怎么又火了

李飞飞一年前究竟说了啥?怎么又火了

大语言模型的局限在哪里?

来自主题: AI技术研报
9396 点击    2025-09-11 19:26
交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式

强化学习之父、2024 年 ACM 图灵奖得主 Richard Sutton 曾指出,人工智能正在迈入「经验时代」—— 在这个时代,真正的智能不再仅仅依赖大量标注数据的监督学习,而是来源于在真实环境中主动探索、不断积累经验的能力。

来自主题: AI技术研报
7707 点击    2025-09-11 18:53
她们估值840亿,刚发了第一个AI成果

她们估值840亿,刚发了第一个AI成果

她们估值840亿,刚发了第一个AI成果

刚刚,0产出估值就已冲破120亿美元的Thinking Machines,终于发布首篇研究博客。

来自主题: AI技术研报
6608 点击    2025-09-11 17:21
Jina Code Embeddings: 为高质量代码搜索而生的0.5B/1.5B向量模型

Jina Code Embeddings: 为高质量代码搜索而生的0.5B/1.5B向量模型

Jina Code Embeddings: 为高质量代码搜索而生的0.5B/1.5B向量模型

我们今天正式开源 jina-code-embeddings,一套全新的代码向量模型。包含 0.5B 和 1.5B 两种参数规模,并同步推出了 1-4 bit 的 GGUF 量化版本,方便在各类端侧硬件上部署。

来自主题: AI技术研报
9297 点击    2025-09-11 16:01
弃坑Claude!亲测CodeBuddy Code:单人2小时,从0搭建部署电商推荐系统

弃坑Claude!亲测CodeBuddy Code:单人2小时,从0搭建部署电商推荐系统

弃坑Claude!亲测CodeBuddy Code:单人2小时,从0搭建部署电商推荐系统

作为一名有着8年全栈开发经验的技术人员,我最近接手了一个具有挑战性的项目:为某中型服装电商平台开发一套智能商品推荐系统。该系统需要在2个月内完成,包含以下核心功能:

来自主题: AI技术研报
8410 点击    2025-09-11 12:42
CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架

CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架

CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架

在具身智能中,策略学习通常需要依赖场景表征(scene representation)。然而,大多数现有多任务操作方法中的表征提取过程都是任务无关的(task-agnostic):

来自主题: AI技术研报
8786 点击    2025-09-11 10:08
意识智能体:大模型的下一个进化方向?

意识智能体:大模型的下一个进化方向?

意识智能体:大模型的下一个进化方向?

机器具备意识吗?本文对AI意识(AI consciousness)进行了考察,特别是深入探讨了大语言模型作为高级计算模型实例是否具备意识,以及AI意识的必要和充分条件。

来自主题: AI技术研报
8521 点击    2025-09-11 09:55
=COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大

=COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大

=COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大

苦等多年,Excel终于长大了!全新COPILOT函数神器,直接把AI塞进了表格,不论是整理数据、头脑风暴,还是分类反馈,通通一键搞定,打工人效率直接原地起飞。

来自主题: AI技术研报
8974 点击    2025-09-10 13:28
通用问题求解器雏形已现!谷歌DeepMind重磅研究,自主发现40种全新算法

通用问题求解器雏形已现!谷歌DeepMind重磅研究,自主发现40种全新算法

通用问题求解器雏形已现!谷歌DeepMind重磅研究,自主发现40种全新算法

在现代科学中,几乎所有领域都依赖软件来进行计算实验。但开发这些专用的科学软件是一个非常缓慢、乏味且困难的过程,开发和测试一个新想法(一次“试错”)需要编写复杂的软件,这个过程可能耗费数周、数月甚至数年。

来自主题: AI技术研报
8777 点击    2025-09-10 12:15