AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

刚刚,谢赛宁团队放出第二代表征自编码器 RAEv2

AI 图像生成通常遵循「能力越强、代价越高」的铁律;与此同时,学界却在悄悄质疑另一个更根本的浪费:传统 VAE 对图像语义几乎一无所知,而 DINOv2、SigLIP 等视觉编码器早已从数亿张图片中习得了丰富的视觉常识。图像生成模型,真的需要从零开始「发明」对图像的理解吗?

来自主题: AI技术研报
8091 点击    2026-05-21 16:45
CVPR 2026 | 让3DGS看见内部结构,中关村学院GaussianPile实现切片式容积影像快速重建

CVPR 2026 | 让3DGS看见内部结构,中关村学院GaussianPile实现切片式容积影像快速重建

CVPR 2026 | 让3DGS看见内部结构,中关村学院GaussianPile实现切片式容积影像快速重建

近年来,3D Gaussian Splatting(3DGS)在三维视觉和图形学中展现出很强的表示与渲染能力。相比传统体素或神经辐射场,它用一组可优化的各向异性高斯来表示三维场景,既能保留连续空间结构,又能实现高速渲染。

来自主题: AI技术研报
5342 点击    2026-05-21 16:09
ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

ACL 2026 | 赋予视频生成「视觉思维链」:VChain显式建模时空规划与状态演变

当视频生成模型在视觉保真度上不断突破时,一个核心瓶颈正变得愈发清晰:模型是否真正理解了真实世界?能否推理出合理的演变过程?

来自主题: AI技术研报
9098 点击    2026-05-20 15:16
高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

高潮从第几秒开始?GaMMA 让多模态大模型真正「听懂」音乐时间线

大模型的能力边界正在不断拓展,从文字到视觉,再到音频,全模态理解已渐成现实。然而,当你问一个多模态大模型「这首歌的高潮从第几秒开始?」或者「第 30 秒之后乐器编配发生了什么变化?」,得到的往往是一个模糊甚至错误的回答。

来自主题: AI技术研报
6125 点击    2026-05-20 09:51
Sam Altman 官宣:ChatGPT Images 2.0 印度狂飙,27 天生成超 10 亿张图!AI 生图正在变成「视觉输入法」

Sam Altman 官宣:ChatGPT Images 2.0 印度狂飙,27 天生成超 10 亿张图!AI 生图正在变成「视觉输入法」

Sam Altman 官宣:ChatGPT Images 2.0 印度狂飙,27 天生成超 10 亿张图!AI 生图正在变成「视觉输入法」

Sam Altman 今天在 X 上扔出一个数字:ChatGPT Images 2.0 在印度已经生成超过 10 亿张图。距离产品发布只有 27 天。TechCrunch 和第三方数据验证了印度确实是最大市场——但全球增长远没有那么均匀,这更像一场区域性起飞。

来自主题: AI资讯
9693 点击    2026-05-19 14:58
CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

CVPR 2026 Oral | 清华+阿里发布ViT³:解锁「视觉TTT」新架构,突破Transformer复杂度瓶颈

序列建模是大语言模型、计算机视觉等领域的基础共性问题。当前通用的 Transformer 模型计算复杂度随序列长度平方增长,在长序列任务中面临显著的计算挑战。因此,研究者们一直在探索具有线性计算复杂度的高效序列建模方法。

来自主题: AI技术研报
5539 点击    2026-05-18 15:30
对话豆包前高级总监、Chance AI 曾熙:视觉 AI 的新战场不是识图,而是读心

对话豆包前高级总监、Chance AI 曾熙:视觉 AI 的新战场不是识图,而是读心

对话豆包前高级总监、Chance AI 曾熙:视觉 AI 的新战场不是识图,而是读心

想象一个场景:你坐在曼谷一家餐厅,手机对准一张泰语菜单:2026年的AI不仅能把泰文翻译成中文——这已经像是上个时代的把戏了——它还能记住你是素食主义者,从二十道菜里挑出那三道不含肉的,用标准泰语帮你点单,顺便把附近评分最高的甜品店塞进你的下午行程。

来自主题: AI资讯
8892 点击    2026-05-18 10:25