AITNT-让一部分人先用AI实现商业化

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来，基于智能体的强化学习（Agent + RL）与智能体优化（Agent Optimization）在学术界引发了广泛关注。然而，实现具备工具调用能力的端到端智能体训练，首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报

7838 点击 2025-07-05 12:46

差点被Ilya摁掉，胎死腹中！ChatGPT爆红内幕首次公开

从「与GPT-3.5畅聊」到「ChatGPT」，OpenAI团队如何在混乱中拍板上线、又怎样被用户「点赞」调教成「赛博舔狗」？从产品发布、命名内幕、团队文化到AI时代核心竞争力，深度访谈揭开幕后全过程！

来自主题: AI资讯

7946 点击 2025-07-05 12:40

重磅发现！大模型的「aha moment」不是装腔作势，内部信息量暴增数倍！

你肯定见过大模型在解题时「装模作样」地输出：「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

来自主题: AI技术研报

7218 点击 2025-07-05 12:33

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）以生成能力强而著称，但如何能让它「听话」，是一门很深的学问。基于人类反馈的强化学习（RLHF）就是用来解决这个问题的，其中的奖励模型（Reward Model, RM）扮演着重要的裁判作用，它专门负责给 LLM 生成的内容打分，告诉模型什么是好，什么是不好，可以保证大模型的「三观」正确。

来自主题: AI技术研报

8800 点击 2025-07-05 12:10

刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

刚刚，Grok 4 和 Grok 4 Code 的基准测试结果疑似泄露。X 博主 @legit_api 发帖称，Grok 4 在 HLE（Humanities Last Exam，人类最后考试）上的标准得分是 35%，使用推理技术后提高到 45%；在 GPQA 上的得分是 87-88%；而Grok 4 Code 在 SWE Bench 上的得分则达到 72-75%。

来自主题: AI资讯

10431 点击 2025-07-05 11:38

不学美国砸钱烧AI，欧洲科技巨头另辟蹊径

欧洲科技巨头的CEO最新表示，欧洲在人工智能领域展开竞争时并不需要大量建立数据中心，这一说法与上月黄仁勋访欧时提出的说法相悖。当地时间周四（7月3日），德国思爱普公司（SAP）首席执行官柯睿安（Christian Klein）在接受采访时说道：“我们真的需要建五个数据中心再把高性能芯片放进去吗？”

来自主题: AI资讯

9156 点击 2025-07-05 11:33

Perplexity发布Max订阅计划：每月200美元解锁无限AI生产力

Perplexity近日正式推出其最高级别的订阅计划——Perplexity Max。该计划定价为每月200美元或每年2000美元，主要面向需要进行频繁查询和复杂项目处理的专业用户。Perplexity Max为用户提供了无限调用Perplexity Labs、抢先体验新功能

来自主题: AI资讯

9500 点击 2025-07-04 22:31

野生DeepSeek火了，速度碾压官方版，权重开源

没等来 DeepSeek 官方的 R2，却迎来了一个速度更快、性能不弱于 R1 的「野生」变体！这两天，一个名为「DeepSeek R1T2」的模型火了！这个模型的速度比 R1-0528 快 200%，比 R1 快 20%。除了速度上的显著优势，它在 GPQA Diamond（专家级推理能力问答基准）和 AIME 24（数学推理基准）上的表现均优于 R1，但未达到 R1-0528 的水平。

来自主题: AI资讯

9636 点击 2025-07-04 22:18

DeepSeek-R2！？神秘模型惊现竞技场，真实身份引网友猜测

DeepSeek-R2，终于要来了？大模型竞技场秘密上线了一个叫steve的神秘模型，在对话中透露自己来自DeepSeek。不过，网友们并不满足于知道steve的厂商，开始讨论起了steve的具体身份。

来自主题: AI资讯

8924 点击 2025-07-04 13:14

AI版的OnlyFans，要抢走福利姬饭碗了？

人设外包，孤单变现

来自主题: AI资讯

8158 点击 2025-07-04 13:08

突发，美国EDA三巨头解禁！国产芯片设计迎喘息之机

美商务部突然「松绑」，全球EDA三巨头出口中国不再申请许可证。这一重磅消息，为中国芯片设计产业带来了短暂喘息。

来自主题: AI资讯

9073 点击 2025-07-04 12:49

“美国国运股”Palantir，怎么靠AI Agent大涨3000亿美元？

当全球目光都聚焦在OpenAI、Anthropic、谷歌、Meta等明星AI公司时，真正靠大模型落地大规模盈利的，却是一家相对不太知名的公司——Palantir。

来自主题: AI资讯

10171 点击 2025-07-04 12:43

图灵奖大佬向97年小孩哥汇报？小扎1亿年薪买新贵，老将痛诉熬夜捡GPU！

图灵奖大佬向97年小孩哥汇报，这是什么魔幻剧情？小扎砸143亿请来的「数据标注少年」，已荣升Meta首席AI官。一边是小扎上亿美元年薪offer引进新员工，另一边是Meta老将GPU告急不得不熬夜借卡差点头秃。网友们痛呼：太为Meta FAIR的员工难过了……

来自主题: AI资讯

7692 点击 2025-07-04 12:37

AI杀死了破折号，也绞杀了语文。

朋友们，最近的互联网上，发生了一起非常赛博、非常魔幻的凶杀案。死者，是破折号。

来自主题: AI资讯

8196 点击 2025-07-04 12:26

AI科学家组团搞科研，爆肝万字报告震惊医学家！Nature独刊揭秘细节

谷歌、斯坦福等陆续推出「AI科学家」，协助人类科学家推动科研范式革新。科学家亲身试用后或震惊其洞察之深，或质疑其缺乏灵感与人性温度，AI能代替人类思考吗？

来自主题: AI技术研报

9448 点击 2025-07-04 12:15

DeepSeek对“王一博案”道歉？假新闻！

近日，一则消息在网络上引发热议。有媒体称，“DeepSeek就AI模型违规关联王一博与‘李爱庆腐败案’，作出道歉。”

来自主题: AI资讯

9795 点击 2025-07-04 11:41

AI大神吴恩达：“别学编程”？这是AI时代最糟糕的职业建议之一

7月3日消息，在近期AMD Advancing AI 2025 大会上，吴恩达与苏姿丰就 AI 的普及、开放生态和硬件基础设施展开交流。两人强调，多层技术栈、快速原型和AI助编工具能大幅提升开发效率。

来自主题: AI资讯

10730 点击 2025-07-04 11:39

海致科技，“AI除幻”的故事不好讲

第一难当。AI变革遇上IPO盛宴，港股掀起一波资本巨浪。

来自主题: AI资讯

9360 点击 2025-07-04 11:23

阿里云客服Agent业务提效实践：灵活可控的落地方法论

随着 AI Agent 技术的快速发展，业界许多企业开始在 Agent 方向进行深层次探索，而不仅仅是停留在“大模型 + 工具调用”的简单应用上。

来自主题: AI资讯

10660 点击 2025-07-04 11:18

AI 语音爆发的这半年，一位「局中人」看到的赛道爆发逻辑

苹果 Siri 折戟，但越来越多的「AI Siri」拿到了融资。

来自主题: AI资讯

9274 点击 2025-07-04 11:07

刚刚，全球AI人才榜单首次曝光，华人撑起半边天，DeepSeek无人上榜

7月3日，2025全球数字经济大会上，一份重磅榜单面向全球首次揭晓。

来自主题: AI资讯

8165 点击 2025-07-04 11:02

登上热搜！Prompt不再是AI重点，新热点是Context Engineering

最近「上下文工程」有多火？Andrej Karpathy 为其打 Call，Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首，还登上了知乎热搜榜。

来自主题: AI技术研报

7647 点击 2025-07-04 10:57

Nature研究遭质疑：像人类一样思考的AI，竟有点“荒谬”？

人工智能（AI），如果可以像人类一样“思考”，或许能够帮助我们理解人类的思维方式，尤其是不同心理状态（如抑郁或焦虑）的人群如何做出决策，进而为人类健康研究提供一个新视角。

来自主题: AI技术研报

6422 点击 2025-07-04 10:48

ICML 2025 Oral工作再升级！上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

虽然旋转位置编码（RoPE）及其变体因其长上下文处理能力而被广泛采用，但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。

来自主题: AI技术研报

9414 点击 2025-07-04 10:44

推理AI致命弱点，大模型变「杠精」！被带偏后死不悔改

DeepMind新研究揭示了当与推理无关的想法，被直接注入到模型的推理过程中时，它们却难以恢复，而且越大的模型越难恢复。

来自主题: AI技术研报

9189 点击 2025-07-04 10:36

AI 编程十字路口：为什么说 Copilot 模式是创业陷阱？

当整个人工智能行业都在为「如何给程序员打造更快的马」而疯狂投入时，一支特立独行的团队选择「直接去造汽车」。

来自主题: AI资讯

10101 点击 2025-07-04 10:33

科大讯飞刘庆峰：中美AI，差距多大？

6月27日，“正和岛2025案例共学年会暨AI+先行者创新大集”在合肥继续进行，本次大会以“向新力”为主题，千余位企业家共同探讨AI时代下的组织变革与商业格局。

来自主题: AI资讯

9584 点击 2025-07-04 10:29

别瞧不起「提示词」芝大论文爆火：Prompt Science已被定义

最近网上出现了一些很有趣的声音——"提示词已死"、"写提示词把自己写死了"，这些文章认为随着模型变得越来越智能，精心设计提示词的时代已经过去了。但芝加哥大学的最新研究却给出了完全相反的结论：prompt不仅没有死，反而是理解大模型最重要的科学工具。

来自主题: AI技术研报

8450 点击 2025-07-04 09:55

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

最近，关于大模型推理的测试时间扩展（Test time scaling law ）的探索不断涌现出新的范式，包括① 结构化搜索结（如 MCTS），② 过程奖励模型（Process Reward Model ）+ PPO，③ 可验证奖励（Verifiable Reward）+ GRPO（DeepSeek R1）。

来自主题: AI技术研报

9111 点击 2025-07-04 09:44

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮

当推理链从3步延伸到50+步，幻觉率暴增10倍；反思节点也束手无策。

来自主题: AI技术研报

8929 点击 2025-07-04 09:35

AITNT-让一部分人先用AI实现商业化

AI资讯-这里有最及时全面的人工智能资讯报道

AI技术研报-这里有最前沿的人工智能技术解读

AI监管政策-这里有最深刻的人工智能政策解读

AI产品测评-这里有最详细的人工智能工具测评解析

AI商业项目-这里有洞察力最强的AI项目的商业逻辑解析

AI排行榜-这里有最新的AI产品,大模型等人工智能行业的排行榜单

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

差点被Ilya摁掉，胎死腹中！ChatGPT爆红内幕首次公开

重磅发现！大模型的「aha moment」不是装腔作势，内部信息量暴增数倍！

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

不学美国砸钱烧AI，欧洲科技巨头另辟蹊径

Perplexity发布Max订阅计划：每月200美元解锁无限AI生产力

野生DeepSeek火了，速度碾压官方版，权重开源

DeepSeek-R2！？神秘模型惊现竞技场，真实身份引网友猜测

AI版的OnlyFans，要抢走福利姬饭碗了？

突发，美国EDA三巨头解禁！国产芯片设计迎喘息之机

“美国国运股”Palantir，怎么靠AI Agent大涨3000亿美元？

图灵奖大佬向97年小孩哥汇报？小扎1亿年薪买新贵，老将痛诉熬夜捡GPU！

AI杀死了破折号，也绞杀了语文。

AI科学家组团搞科研，爆肝万字报告震惊医学家！Nature独刊揭秘细节

DeepSeek对“王一博案”道歉？假新闻！

AI大神吴恩达：“别学编程”？这是AI时代最糟糕的职业建议之一

海致科技，“AI除幻”的故事不好讲

阿里云客服Agent业务提效实践：灵活可控的落地方法论

AI 语音爆发的这半年，一位「局中人」看到的赛道爆发逻辑

刚刚，全球AI人才榜单首次曝光，华人撑起半边天，DeepSeek无人上榜

登上热搜！Prompt不再是AI重点，新热点是Context Engineering

Nature研究遭质疑：像人类一样思考的AI，竟有点“荒谬”？

ICML 2025 Oral工作再升级！上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

推理AI致命弱点，大模型变「杠精」！被带偏后死不悔改

AI 编程十字路口：为什么说 Copilot 模式是创业陷阱？

科大讯飞刘庆峰：中美AI，差距多大？

别瞧不起「提示词」芝大论文爆火：Prompt Science已被定义

Meta-Think ≠ 记套路，多智能体强化学习解锁大模型元思考泛化

大模型越反思越错，原来是长链推理通过自我说服加重幻觉 | 北邮