AI资讯新闻榜单内容搜索-io

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: io
顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术 / 竞赛类题目上屡屡刷新上限。但一个更关键的问题是:当问题不再能 “用语言说清楚” 时,模型还能不能 “看懂”?

来自主题: AI技术研报
9928 点击    2026-01-12 14:07
大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。

来自主题: AI技术研报
9342 点击    2026-01-12 10:29
斯坦福发布基于58万小时数据的SleepFM预测模型,睡一晚就能预测130种疾病!

斯坦福发布基于58万小时数据的SleepFM预测模型,睡一晚就能预测130种疾病!

斯坦福发布基于58万小时数据的SleepFM预测模型,睡一晚就能预测130种疾病!

《Nature Medicine》 的研究报道“A multimodal sleep foundation model for disease prediction”,研究人员开发了一种名为 SleepFM 的基础模型,从超过58万小时的记录中“学会”了睡眠的语言。这不仅是睡眠科学的进步,更是AI在生物医学领域的深层突围。

来自主题: AI资讯
9612 点击    2026-01-11 22:05
DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

近期,DeepSeek-OCR 凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注。为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报
7680 点击    2026-01-11 10:01
华人女学霸AI杀疯!本科最难数赛12题全对,自主证明首次公开

华人女学霸AI杀疯!本科最难数赛12题全对,自主证明首次公开

华人女学霸AI杀疯!本科最难数赛12题全对,自主证明首次公开

在人类满分都罕见的普特南数赛上,AI直接12题全对拿满分。陶哲轩等大佬预言AI已经取得了重要里程碑,再加上GPT-5.2 Pro在数学上强到「离谱」的表现,那种「奇点将近」的直觉,真的压不住了。

来自主题: AI资讯
9976 点击    2026-01-10 17:10
DeepSeek V4爆春节登场!四大杀招突袭全球编程王座,Claude危

DeepSeek V4爆春节登场!四大杀招突袭全球编程王座,Claude危

DeepSeek V4爆春节登场!四大杀招突袭全球编程王座,Claude危

Information爆料称,DeepSeek将计划在2月中旬,也正是春节前后,正式发布下一代V4模型。据称,DeepSeek V4编程实力可以赶超Claude、GPT系列等顶尖闭源模型。

来自主题: AI资讯
9498 点击    2026-01-10 11:23
CaveAgent让LLM学会了“跑代码”,你能把Agent变成Jupyter里的“老司机”

CaveAgent让LLM学会了“跑代码”,你能把Agent变成Jupyter里的“老司机”

CaveAgent让LLM学会了“跑代码”,你能把Agent变成Jupyter里的“老司机”

CaveAgent的核心思想很简单:与其让LLM费力地去“读”数据的文本快照,不如给它一个如果不手动重启、变量就永远“活着”的 Jupyter Kernel。这项由香港科技大学(HKUST)领衔的研究,为我们展示了一种“Code as Action, State as Memory”的全新可能性。它解决了所有开发过复杂Agent的工程师最头疼的多轮对话中的“失忆”与“漂移”问题。

来自主题: AI技术研报
8886 点击    2026-01-09 14:34
注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案

注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案

注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案

Transformer 已经改变了世界,但也并非完美,依然还是有竞争者,比如线性递归(Linear Recurrences)或状态空间模型(SSM)。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。

来自主题: AI技术研报
9234 点击    2026-01-07 17:22
推理之父走了!OpenAI七年元老离职:有些研究这里没法做

推理之父走了!OpenAI七年元老离职:有些研究这里没法做

推理之父走了!OpenAI七年元老离职:有些研究这里没法做

新年第一弹,OpenAI研发副总裁Jerry Tworek官宣离职,这位七年老兵给出的理由让人细思恐极:想做在OpenAI做不了的研究。从Dario Amodei出走创立Anthropic,到Ilya政变后离开,再到安全团队负责人摔门而出——OpenAI的核心大脑们正在以惊人的速度流失。

来自主题: AI资讯
10058 点击    2026-01-06 16:49