AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
你的「龙虾」真记得你吗?剑桥发布长期个性化记忆基准ATM-Bench

你的「龙虾」真记得你吗?剑桥发布长期个性化记忆基准ATM-Bench

你的「龙虾」真记得你吗?剑桥发布长期个性化记忆基准ATM-Bench

ATM-Bench 将「个人 AI 助手是否真的记得你」这件事,变成了一个研究的测试基准。结果并不乐观:专用记忆智能体系统普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能体普遍表现不佳,最高准确率不到 40%。

来自主题: AI技术研报
9997 点击    2026-04-20 14:36
新一代记忆智能体框架MIA:让智能体告别「失忆式工作」,在持续进化中变强

新一代记忆智能体框架MIA:让智能体告别「失忆式工作」,在持续进化中变强

新一代记忆智能体框架MIA:让智能体告别「失忆式工作」,在持续进化中变强

如今的大多数智能体,仍然活在一种「失忆式工作」模式中:每一次检索都是从零开始,每一条推理路径都无法沉淀,每一次失败也不会转化为经验。它们虽能多轮交互,但很难在深度研究中持续变强。

来自主题: AI技术研报
9202 点击    2026-04-20 14:02
阿里官宣上线Happy Oyster,全网首发实测!

阿里官宣上线Happy Oyster,全网首发实测!

阿里官宣上线Happy Oyster,全网首发实测!

前段时间有个叫 Happy Horse 的模型实火了一把,在知名 AI 评测分析平台 Artificial Analysis 上,直接把 Seedance 2.0 挤到了第二。

来自主题: AI产品测评
6364 点击    2026-04-20 09:05
大模型架构的下半场

大模型架构的下半场

大模型架构的下半场

研究者们花了十年去扩展层内的计算能力,却忘了扩展层间的通信能力。

来自主题: AI技术研报
6760 点击    2026-04-20 09:02
世界引擎:Post-Training开启Physical AGI新纪元

世界引擎:Post-Training开启Physical AGI新纪元

世界引擎:Post-Training开启Physical AGI新纪元

一年前,DeepSeek R1 横空出世,人们才意识到,真正让模型产生推理能力质变的,不必是更大的预训练规模 —— 后训练,用强化学习、过程奖励、闭环反馈,以极低的代价解锁了原本需要数倍算力才能触达的能力边界。

来自主题: AI技术研报
6362 点击    2026-04-20 09:00
全球84%的人从未碰过AI,你以为自己晚了?其实你早得离谱!

全球84%的人从未碰过AI,你以为自己晚了?其实你早得离谱!

全球84%的人从未碰过AI,你以为自己晚了?其实你早得离谱!

一张图在X上炸了:全球84%的人从未真正用过AI,16%偶尔玩玩免费聊天机器人,0.3%愿意每月付20美元,0.04%用AI写代码,0.01%是凌晨跑模型、买硬件的重度玩家。这不是鸡汤,微软官方数据托底。你天天刷AI资讯,以为全世界都在卷——其实你身处的那个圈子,是全球最顶端的0.01%。

来自主题: AI技术研报
7706 点击    2026-04-19 21:47
黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”

黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”

黄仁勋都被问毛了:顶级AI厂商在去CUDA?“你的前提就是错的”

很少看到黄仁勋这么激动。接近两个小时,正面回答关于英伟达一路在大模型时代涨到4万亿美元市值的种种问题。黄仁勋在“硅谷最受欢迎播客”的全新访谈,信息量有点高。视频发布半天,单在油管上的观看量已经超过10万+。

来自主题: AI资讯
6879 点击    2026-04-19 13:41
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报
8789 点击    2026-04-19 13:40