AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
Gemini 3「开眼」像素级操控!谷歌回应DeepSeek-OCR2

Gemini 3「开眼」像素级操控!谷歌回应DeepSeek-OCR2

Gemini 3「开眼」像素级操控!谷歌回应DeepSeek-OCR2

没想到吧,Google DeepMind刚刚为Gemini 3 Flash推出了一个重量级新能力:Agentic Vision(智能体视觉)。(难道是被DeepSeek-OCR2给刺激到了?)

来自主题: AI资讯
9197 点击    2026-01-28 18:06
刚刚,DeepSeek又探索新架构了,开源OCR 2

刚刚,DeepSeek又探索新架构了,开源OCR 2

刚刚,DeepSeek又探索新架构了,开源OCR 2

嘿!刚刚,DeepSeek 又更新了!这次是更新了十月份推出的 DeepSeek-OCR 模型。刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!

来自主题: AI资讯
8699 点击    2026-01-27 17:15
DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

DeepSeek又拿第一!首创「因果流」视觉推理,超越Gemini

DeepSeek开源DeepSeek-OCR2,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。

来自主题: AI技术研报
5658 点击    2026-01-27 16:51
北大AI研究颠覆认知:我们看到的不是真实,而是被语言润色过的现实

北大AI研究颠覆认知:我们看到的不是真实,而是被语言润色过的现实

北大AI研究颠覆认知:我们看到的不是真实,而是被语言润色过的现实

近日,北京大学朱毅鑫教授课题组、北京大学毕彦超教授课题组和山西医科大学第一医院王效春团队通过结合 AI 模型和大脑损伤患者的数据,发现语言其实是一副无形的智能眼镜,时刻在悄悄修饰着我们看到的世界。我们可能以为视觉就是眼睛看到什么就是什么,但是这项成果说明了视觉从来都不是孤立的。事实上,当我们在看图片的时候,其实不只是在看,而是在进行被语言调制过的看。

来自主题: AI技术研报
7614 点击    2026-01-27 09:27
关于多模态大模型Token压缩技术进展,看这一篇就够了

关于多模态大模型Token压缩技术进展,看这一篇就够了

关于多模态大模型Token压缩技术进展,看这一篇就够了

近年来多模态大模型在视觉感知,长视频问答等方面涌现出了强劲的性能,但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ,带来极高的显存占用和延迟,限制了模型的可扩展性和本地部署。

来自主题: AI技术研报
8830 点击    2026-01-26 14:22
音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

音频-视觉全模态的未来预测,FutureOmni给出了首份答卷

复旦大学、上海创智学院与新加坡国立大学联合推出首个全模态未来预测评测基准 FutureOmni,要求模型从音频 - 视觉线索中预测未来事件,实现跨模态因果和时间推理。

来自主题: AI技术研报
5200 点击    2026-01-26 10:19
前字节团队创业,做无屏儿童口语陪练AI硬件|硬氪首发

前字节团队创业,做无屏儿童口语陪练AI硬件|硬氪首发

前字节团队创业,做无屏儿童口语陪练AI硬件|硬氪首发

LOOKEE口语侠以无屏陪伴形态,重点切入6-12岁儿童的口语学习场景。无屏化的优势不仅是保护视力,它更通过移除视觉依赖,迫使孩童回归“听”与“说”的语言本质,在纯粹的音频交互中理解问题并给出回应,构建内在的语言逻辑。

来自主题: AI资讯
7719 点击    2026-01-24 15:18
图灵奖得主Bengio斩获AAAI 2026大奖!5篇杰出论文,华人占3篇

图灵奖得主Bengio斩获AAAI 2026大奖!5篇杰出论文,华人占3篇

图灵奖得主Bengio斩获AAAI 2026大奖!5篇杰出论文,华人占3篇

AAAI 2026「七龙珠」,华人团队强势霸榜!从视觉重建到因果发现,再到知识嵌入传承,新一代AI基石正在新加坡闪耀。

来自主题: AI技术研报
8963 点击    2026-01-23 10:15
AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉

AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉

AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉

“全局交互” 几乎等同于 self-attention:每个 token 都能和所有 token 对话,效果强,但代价也直观 —— 复杂度随 token 数平方增长,分辨率一高就吃不消。现有方法大多从 “相似度匹配” 出发(attention),或从 “扩散 / 传导” 出发(热方程类方法)。但热方程本质上是一个强低通滤波器:随着传播时间增加,高频细节(边缘、纹理)会迅速消失,导致特征过平滑。

来自主题: AI技术研报
8063 点击    2026-01-21 10:39