AITNT-让一部分人先用AI实现商业化

你的Agent可能在“错误进化”！上海AI Lab联合顶级机构揭示自进化智能体失控风险

当Agent学会了自我进化，我们距离AGI还有多远？从自动编写代码、做实验到扮演客服，能够通过与环境的持续互动，不断学习、总结经验、创造工具的“自进化智能体”（Self-evolving Agent）实力惊人。

来自主题: AI技术研报

7980 点击 2025-10-17 15:38

LLM越狱攻击的威胁被系统性高估? 基于分解式评分的「越狱评估新范式」出炉

可惜，目前 LLM 越狱攻击（Jailbreak）的评估往往就掉进了这些坑。常见做法要么依赖关键词匹配、毒性分数等间接指标，要么直接用 LLM 来当裁判做宏观判断。这些方法往往只能看到表象，无法覆盖得分的要点，导致评估容易出现偏差，很难为不同攻击的横向比较和防御机制的效果验证提供一个坚实的基准。

来自主题: AI技术研报

8697 点击 2025-10-17 15:33

仅用三五条样本击败英伟达，国内首个超少样本具身模型登场，还斩获顶会冠军

国内首个少样本通用具身操作基础模型发布，跨越视觉语言与机器人操作的鸿沟。

来自主题: AI资讯

7342 点击 2025-10-17 15:28

不会编程的设计师，用 Claude Code 2天做了个小红书评论回复 AI 插件

我最近在小红书上持续分享 AI 设计相关内容，看着点赞、收藏、评论数不断上涨，感觉内容还是有价值的。但，回复评论，却成了我的负担。

来自主题: AI资讯

10744 点击 2025-10-17 14:31

李飞飞全新「世界模型」问世！单张H100实时生成3D永恒世界

一张图，一个3D世界！今天，李飞飞团队重磅放出实时生成世界模型「RTFM」，通过端到端学习大规模视频数据，直接从输入2D图像生成同一场景下新视角的图像。值得一提的是，它仅需单块H100 GPU便能实时渲染出持久且3D一致的世界。

来自主题: AI资讯

9787 点击 2025-10-17 11:55

18个月狂揽近1亿美元融资，外科医生创立的AI公司让2百万医生用上瘾

2021年，他与技术合伙人 Waleed Mussa 共同创立了 Heidi Health。仅仅18个月后，这家公司就将超过1800万小时的时间还给了一线医疗工作者，支持了超过7300万次患者就诊，覆盖116个国家。而就在最近，Heidi Health 宣布完成了6500万美元的B轮融资，

来自主题: AI资讯

9742 点击 2025-10-17 11:06

实测 Manus 1.5 版本：Agent 能力全方面提升，轻松生成复杂应用

Manus 1.5 全面提升了任务执行的速度、可靠性与结果质量。从研究分析到网页开发、再到 PPT 创建，在各类任务场景中均实现了显著性能跃升。此次更新引入了两款 Agent：

来自主题: AI资讯

9831 点击 2025-10-17 10:55

刚刚，一家具身智能明星公司原地解散了

就在今天，“一家明星具身智能公司原地解散”的传闻在圈内迅速传开，而且因为公司成立时间很短，甚至都不涉及员工赔偿。就在一个多月前，这家公司还高调公开了新融资，以及AI技术大牛加盟作为联合创始人及CTO。

来自主题: AI资讯

8853 点击 2025-10-17 10:46

围绕开店和外卖，美团一口气发布三个智能助手，AI投入已达百亿

从C端的小美，到B端的“袋鼠参谋”、“袋鼠管家”和“智能管家”，美团已经作出了一个“AI助手”矩阵。未来，这些AI助手之间如何配合和协作，形成一个新的AI原生生态，充满了想象、但也充满了挑战。

来自主题: AI资讯

10917 点击 2025-10-17 10:39

微软让老板一眼看出谁用AI最多，Viva变身“全景监控”：公开员工Copilot使用率，还要做成内部排行榜？

哪些团队在真正积极拥抱 AI，而哪些团队还在偷偷“躲避”。

来自主题: AI资讯

8266 点击 2025-10-17 10:34

分析NVIDIA的近百笔AI投资：什么是AI行业的现在和未来？

AI模型是现在，Physical AI是未来

来自主题: AI资讯

8594 点击 2025-10-17 10:30

AI撰写梅西战报，体育记者的“饭碗”丢了？

AI写作暂时难堪大用+球迷受众对AI创作的天然警惕，才是体育记者继续守住业务地盘的根本。

来自主题: AI资讯

7773 点击 2025-10-17 10:23

年轻人用AI生成流浪汉吓坏父母，吸引810万人围观，这次玩笑开大了

恶搞也要有底线！

来自主题: AI资讯

7872 点击 2025-10-17 10:14

速递｜AI编程初创Poolside融资20亿美元猛攻AI基建，携手CoreWeave，打造2吉瓦德州数据中心

Poolside 是一家 AI 编程初创公司，其首款产品问世仅一年。该公司正与 CoreWeave 合作开发全美规模最大的数据中心之一，这标志着人工智能基础设施投资热潮的最新动向。

来自主题: AI资讯

8730 点击 2025-10-17 10:07

多模态大模型首次实现像素级推理！3B参数超越72B传统模型，NeurIPS 2025收录

多模态大模型首次实现像素级推理，指代、分割、推理三大任务一网打尽！

来自主题: AI技术研报

9605 点击 2025-10-17 10:01

RL微调，关键在前10%奖励！基于评分准则，Scale AI等提出新方法

大模型强化学习总是「用力过猛」？Scale AI联合UCLA、芝加哥大学的研究团队提出了一种基于评分准则（rubric）的奖励建模新方法，从理论和实验两个维度证明：要想让大模型对齐效果好，关键在于准确区分「优秀」和「卓越」的回答。这项研究不仅揭示了奖励过度优化的根源，还提供了实用的解决方案。

来自主题: AI技术研报

8425 点击 2025-10-17 09:48

从掩码生成到「再掩码」训练：RemeDi让扩散语言模型学会自我纠正与反思

近期，扩散语言模型备受瞩目，提供了一种不同于自回归模型的文本生成解决方案。为使模型能够在生成过程中持续修正与优化中间结果，西湖大学 MAPLE 实验室齐国君教授团队成功训练了具有「再掩码」能力的扩散语言模型（Remasking-enabled Diffusion Language Model, RemeDi 9B）。

来自主题: AI技术研报

6400 点击 2025-10-17 09:41

当Search Agent遇上不靠谱搜索结果，清华团队祭出自动化红队框架SafeSearch

在 AI 发展的新阶段，大模型不再局限于静态知识，而是可以通过「Search Agent」的形式实时连接互联网。搜索工具让模型突破了训练时间的限制，但它们返回的并非总是高质量的资料：一个低质量网页、一条虚假消息，甚至是暗藏诱导的提示，都可能在用户毫无察觉的情况下被模型「采纳」，进而生成带有风险的回答。

来自主题: AI技术研报

8298 点击 2025-10-17 09:33