AI资讯新闻榜单内容搜索-LLM

一句“吴恩达说的”，就能让GPT-4o mini言听计从

人类心理学说服策略可以有效迁移至LLM 你有没有试过让ChatGPT骂你一句？（doge）它大概率会礼貌拒绝：私密马赛，我不能这样做orz 但最新研究表明，只需要擅用一点人类的心理技巧PUA，AI就会乖乖（骂你）听话。

来自主题: AI资讯

8712 点击 2025-09-02 11:28

科研智能体「漫游指南」—助你构建领域专属科研智能体

当前基于大语言模型（LLM）的智能体构建通过推动自主科学研究推动 AI4S 迅猛发展，催生一系列科研智能体的构建与应用。然而人工智能与自然科学研究之间认知论与方法论的偏差，对科研智能体系统的设计、训练以及验证产生着较大阻碍。

来自主题: AI技术研报

7645 点击 2025-09-01 14:48

那天，AI大模型想起了，被「失忆」所束缚的枷锁

记忆，你有我有，LLM 不一定有，但它们正在有。

来自主题: AI技术研报

9029 点击 2025-09-01 10:38

LLM也具有身份认同？当LLM发现博弈对手是自己时，行为变化了

LLM 似乎可以扮演任何角色。使用提示词，你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过：LLM 是否存在某种身份认同？

来自主题: AI技术研报

6439 点击 2025-09-01 10:10

你的怀疑是对的！LLM作为Judge，既无效又不可靠，终于有论文向LLJ开炮了

让LMM作为Judge，从对模型的性能评估到数据标注再到模型的训练和对齐流程，让AI来评判AI，这种模式几乎已经是当前学术界和工业界的常态。

来自主题: AI资讯

7947 点击 2025-08-31 12:20

谷歌Nature震撼发文，Gemini教练暴打专家！医学双料冠军，秒出睡眠报告

谷歌DeepMind最新Nature王炸，直接把Gemini版大模型PH-LLM调教成了「AI健康私教」，把可穿戴冷冰冰的数据，直接变成睡眠健身建议，结果准确率暴打人类医生。

来自主题: AI技术研报

7251 点击 2025-08-27 18:56

空间智能卡脖子难题被杭州攻克！难倒GPT-5后，六小龙企业出手了

最近3D内容生成模型好生热闹，像谷歌Genie 3、World Labs、混元、昆仑争相发布并开测世界模型。

来自主题: AI资讯

9103 点击 2025-08-27 18:50

Agentic Deep Research新范式，推理能力再突破，可信度增加，蚂蚁安全团队出品

尽管 LLM 的能力与日俱增，但其在复杂任务上的表现仍受限于静态的内部知识。为从根本上解决这一限制，突破 AI 能力界限，业界研究者们提出了 Agentic Deep Research 系统，在该系统中基于 LLM 的 Agent 通过自主推理、调用搜索引擎和迭代地整合信息来给出全面、有深度且正确性有保障的解决方案。

来自主题: AI技术研报

7630 点击 2025-08-27 17:05

从需求分析到代码生成，LLM都能干点啥？一文读懂291个软工Benchmark！

大语言模型正加速重塑软件工程领域的各个环节，从需求分析到代码生成，再到自动化测试，几乎无所不能，但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」，一直缺乏系统、权威的评估工具。

来自主题: AI技术研报

7632 点击 2025-08-27 11:42

榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

当大语言模型（LLM）走向千行百业，推理效率与显存成本的矛盾日益尖锐。

来自主题: AI资讯

7977 点击 2025-08-26 19:21