AI资讯新闻榜单内容搜索-视觉

音频-视觉全模态的未来预测，FutureOmni给出了首份答卷

复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni，要求模型从音频 - 视觉线索中预测未来事件，实现跨模态因果和时间推理。

来自主题: AI技术研报

5251 点击 2026-01-26 10:19

前字节团队创业，做无屏儿童口语陪练AI硬件｜硬氪首发

LOOKEE口语侠以无屏陪伴形态，重点切入6-12岁儿童的口语学习场景。无屏化的优势不仅是保护视力，它更通过移除视觉依赖，迫使孩童回归“听”与“说”的语言本质，在纯粹的音频交互中理解问题并给出回应，构建内在的语言逻辑。

来自主题: AI资讯

7841 点击 2026-01-24 15:18

图灵奖得主Bengio斩获AAAI 2026大奖！5篇杰出论文，华人占3篇

AAAI 2026「七龙珠」，华人团队强势霸榜！从视觉重建到因果发现，再到知识嵌入传承，新一代AI基石正在新加坡闪耀。

来自主题: AI技术研报

9018 点击 2026-01-23 10:15

AAAI 2026 Oral | 告别注意力与热传导！北大清华提出WaveFormer，首创波动方程建模视觉

“全局交互” 几乎等同于 self-attention：每个 token 都能和所有 token 对话，效果强，但代价也直观 —— 复杂度随 token 数平方增长，分辨率一高就吃不消。现有方法大多从 “相似度匹配” 出发（attention），或从 “扩散 / 传导” 出发（热方程类方法）。但热方程本质上是一个强低通滤波器：随着传播时间增加，高频细节（边缘、纹理）会迅速消失，导致特征过平滑。

来自主题: AI技术研报

8104 点击 2026-01-21 10:39

爱诗科技获中国儒意1420万美元战略投资，视觉多模态大模型新突破！

AI视频生成正从“静态输出”迈入“实时交互”阶段，一场内容创作革命即将到来。近日，中国儒意宣布以1420万美元对爱诗科技进行战略投资，双方将围绕影视、流媒体、游戏等业务展开深度合作。爱诗科技作为全

来自主题: AI资讯

8662 点击 2026-01-19 18:21

零样本&少样本横扫12个工业医疗数据集：西门子×腾讯优图新研究精准定位缺陷，检测精度新SOTA丨AAAI 2026

视觉模型用于工业“缺陷检测”等领域已经相对成熟，但当前普遍使用的传统模型在训练时对数据要求较高，需要大量的经过精细标注的数据才能训练出理想效果。

来自主题: AI技术研报

7851 点击 2026-01-19 15:13

视觉模型既懂语义，又能还原细节，南洋理工&商汤提出棱镜假说

作者来自 Nanyang Technological University（MMLab）与 SenseTime Research，提出 Prism Hypothesis（棱镜假说）与 Unified Autoencoding（UAE），尝试用 “频率谱” 的统一视角，把语义编码器与像素编码器的表示冲突真正 “合并解决”。

来自主题: AI技术研报

9812 点击 2026-01-15 09:20