AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni,要求模型从音频 - 视觉线索中预测未来事件,实现跨模态因果和时间推理。

来自主题: AI技术研报
5251 点击    2026-01-26 10:19
前字节团队创业,做无屏儿童口语陪练AI硬件|硬氪首发

前字节团队创业,做无屏儿童口语陪练AI硬件|硬氪首发

前字节团队创业,做无屏儿童口语陪练AI硬件|硬氪首发

LOOKEE口语侠以无屏陪伴形态,重点切入6-12岁儿童的口语学习场景。无屏化的优势不仅是保护视力,它更通过移除视觉依赖,迫使孩童回归“听”与“说”的语言本质,在纯粹的音频交互中理解问题并给出回应,构建内在的语言逻辑。

来自主题: AI资讯
7841 点击    2026-01-24 15:18
图灵奖得主Bengio斩获AAAI 2026大奖!5篇杰出论文,华人占3篇

图灵奖得主Bengio斩获AAAI 2026大奖!5篇杰出论文,华人占3篇

图灵奖得主Bengio斩获AAAI 2026大奖!5篇杰出论文,华人占3篇

AAAI 2026「七龙珠」,华人团队强势霸榜!从视觉重建到因果发现,再到知识嵌入传承,新一代AI基石正在新加坡闪耀。

来自主题: AI技术研报
9018 点击    2026-01-23 10:15
AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉

AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉

AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉

“全局交互” 几乎等同于 self-attention:每个 token 都能和所有 token 对话,效果强,但代价也直观 —— 复杂度随 token 数平方增长,分辨率一高就吃不消。现有方法大多从 “相似度匹配” 出发(attention),或从 “扩散 / 传导” 出发(热方程类方法)。但热方程本质上是一个强低通滤波器:随着传播时间增加,高频细节(边缘、纹理)会迅速消失,导致特征过平滑。

来自主题: AI技术研报
8104 点击    2026-01-21 10:39
爱诗科技获中国儒意1420万美元战略投资,视觉多模态大模型新突破!

爱诗科技获中国儒意1420万美元战略投资,视觉多模态大模型新突破!

爱诗科技获中国儒意1420万美元战略投资,视觉多模态大模型新突破!

AI视频生成正从“静态输出”迈入“实时交互”阶段,一场内容创作革命即将到来。 近日,中国儒意宣布以1420万美元对爱诗科技进行战略投资,双方将围绕影视、流媒体、游戏等业务展开深度合作。 爱诗科技作为全

来自主题: AI资讯
8662 点击    2026-01-19 18:21
零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

零样本&少样本横扫12个工业医疗数据集:西门子×腾讯优图新研究精准定位缺陷,检测精度新SOTA丨AAAI 2026

视觉模型用于工业“缺陷检测”等领域已经相对成熟,但当前普遍使用的传统模型在训练时对数据要求较高,需要大量的经过精细标注的数据才能训练出理想效果。

来自主题: AI技术研报
7851 点击    2026-01-19 15:13
视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

视觉模型既懂语义,又能还原细节,南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University(MMLab) 与 SenseTime Research,提出 Prism Hypothesis(棱镜假说) 与 Unified Autoencoding(UAE),尝试用 “频率谱” 的统一视角,把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报
9812 点击    2026-01-15 09:20
端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统

端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统

端到端智驾新SOTA | KnowVal:懂法律道德、有价值观的智能驾驶系统

一个智能驾驶系统,在迈向高阶自动驾驶的过程中,应当具备何种能力?除了基础的感知、预测、规划、决策能力,如何对三维空间进行更深入的理解?如何具备包含法律法规、道德原则、防御性驾驶原则等知识?如何进行基本的视觉 - 语言推理?如何让智能系统具备世界观和价值观?

来自主题: AI技术研报
7614 点击    2026-01-15 09:18
引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

引入几何约束后,VLM跨越了「空间推理」的认知鸿沟

现有的视觉大模型普遍存在「语义-几何鸿沟」(Semantic-to-Geometric Gap),不仅分不清东南西北,更难以处理精确的空间量化任务。例如问「你坐在沙发上时,餐桌在你的哪一侧?」,VLM 常常答错。

来自主题: AI技术研报
5832 点击    2026-01-13 10:20
谷歌Gemini和苹果的顶级华人科学家离职创业,剑指AGI

谷歌Gemini和苹果的顶级华人科学家离职创业,剑指AGI

谷歌Gemini和苹果的顶级华人科学家离职创业,剑指AGI

谷歌 Gemini 数据联合负责人 Andrew Dai 联手苹果首席研究科学家 Yinfei Yang,隐身创办 AI 新秀 Elorian。首轮将融资 5000 万美元,剑指「视觉推理」这个下一代大模型的核心问题。

来自主题: AI资讯
6632 点击    2026-01-12 10:31