AI资讯新闻榜单内容搜索-视觉

CVPR 2026 | 还在为AI「鬼画符」发愁？TextPecker即插即用破解文字渲染难题

在生成式 AI 浪潮中，文生图技术已实现跨越式发展，在视觉呈现上达到了前所未有的高度。然而，在生成图像中准确合成拼写正确、结构规范且风格协调的文字 —— 视觉文本渲染（Visual Text Rendering, VTR），至今仍是该领域尚未攻克的核心难题。

来自主题: AI技术研报

9085 点击 2026-03-12 14:10

最强多模态模型也拿不到30分？DeepImageSearch定义相册搜索新范式，开启个人视觉记忆的深度搜索时代

“时光流转，谁还用日记本。往事有底片为证。”—— 许嵩《摄影艺术》

来自主题: AI技术研报

6504 点击 2026-03-12 10:17

仅保留35% Token，性能反超原模型！快手可灵等用视觉信息引导音频压缩，推理时间直降42%

一段几十秒的音视频，上万Token，一半以上是冗余——Omni-LLM的计算浪费，比想象中更严重。

来自主题: AI技术研报

7983 点击 2026-03-11 15:06

物理AI的「原生」时刻：原力灵机发布具身大模型DM0

当前，大语言模型（LLMs）和视觉语言模型（VLMs）在语义领域的成功未能直接迁移至物理机器人，归根结底在于其互联网原生的基因。

来自主题: AI技术研报

5656 点击 2026-03-11 15:04

CVPR 2026｜清华联合美团推出3DThinker，首个用3D意象思考的工作

大家是否有这样的感觉？给定几张场景中拍摄的图片，往往能够在脑海中想象出这个场景的三维布局，然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示，限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报

8316 点击 2026-03-11 09:25

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升 34.74%，多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报

6375 点击 2026-03-11 09:22