AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
AI智力天花板崩了!GPT-5.5 Pro视觉智商145,撞倒门萨俱乐部门槛

AI智力天花板崩了!GPT-5.5 Pro视觉智商145,撞倒门萨俱乐部门槛

AI智力天花板崩了!GPT-5.5 Pro视觉智商145,撞倒门萨俱乐部门槛

1946年至今,「人类最高智商俱乐部」门萨将迎来第一位非人类成员。根据LisanBench最新跑分,GPT-5.5 Pro文本IQ 130踩上门萨会员线,视觉IQ直接飙到145,杀进天才区。一年前「LLM过不了130」还是技术圈共识,今天,这堵墙彻底被砸碎!

来自主题: AI资讯
9072 点击    2026-04-26 23:48
斯坦福系视觉AI公司Collov,完成2300万美元A轮,押注摄像头是AI新入口

斯坦福系视觉AI公司Collov,完成2300万美元A轮,押注摄像头是AI新入口

斯坦福系视觉AI公司Collov,完成2300万美元A轮,押注摄像头是AI新入口

创始人张霄昨天,2026年4月23日,宣布融资2300万美元,也成立了Collov Labs Research,资金用于扩充研究团队和加速视觉AI系统研发,而非单纯的商业扩张。

来自主题: AI资讯
5398 点击    2026-04-26 12:11
前馈式3D的终极路线图来了!五大核心战线,一文看清未来三维重建该往哪走

前馈式3D的终极路线图来了!五大核心战线,一文看清未来三维重建该往哪走

前馈式3D的终极路线图来了!五大核心战线,一文看清未来三维重建该往哪走

从单幅图像恢复三维结构,到多视图场景建模、动态 4D 重建,再到机器人、自动驾驶、SLAM 与视频生成,如何让模型在不依赖逐场景优化的前提下,直接、高效地理解并重建三维世界,正在成为 3D 视觉领域的

来自主题: AI技术研报
9029 点击    2026-04-26 12:09
谷歌再发「香蕉」!何恺明等引爆视觉Transformer时刻

谷歌再发「香蕉」!何恺明等引爆视觉Transformer时刻

谷歌再发「香蕉」!何恺明等引爆视觉Transformer时刻

最近,谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、 3D图形学名家Thomas Funkhouser,正式发布了Vision Banana。它向世界宣告:视觉AI终于不再需要那些臃肿的任务头了,理解,本质上只是生成过程中的一次「对齐」。

来自主题: AI技术研报
8927 点击    2026-04-24 16:13
前OpenAI工程师团队推出 AI 原生无限视觉浏览器原型Flipbook,颠覆HTML!

前OpenAI工程师团队推出 AI 原生无限视觉浏览器原型Flipbook,颠覆HTML!

前OpenAI工程师团队推出 AI 原生无限视觉浏览器原型Flipbook,颠覆HTML!

想象一下:你打开浏览器,没有代码、没有 HTML、没有 CSS 布局引擎。屏幕上每一帧画面,都是 AI 模型实时生成的像素视频流。满满的科幻降临既视感!这就是 Zain Shah(前 OpenAI、YC 校友)和团队刚刚发布的 Flipbook 原型。

来自主题: AI资讯
9565 点击    2026-04-24 10:46
视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏

近日,腾讯混元团队提出HY-SOAR (Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。

来自主题: AI技术研报
7439 点击    2026-04-23 14:44
ChatGPT Images 2.0震撼发布!碾压谷歌Nano Banana,设计真要完了

ChatGPT Images 2.0震撼发布!碾压谷歌Nano Banana,设计真要完了

ChatGPT Images 2.0震撼发布!碾压谷歌Nano Banana,设计真要完了

北京时间凌晨 3 点,直播准时开始,OpenAI 发布了 ChatGPT Images 2.0。据介绍,「ChatGPT Images 2.0 是下一步进化:一个最先进的模型,能够处理复杂的视觉任务,并生成精确、可直接使用的视觉内容。」

来自主题: AI资讯
8570 点击    2026-04-22 08:58
AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

AURA:让视频大模型从“看完再答”,走向“边看边理解、边看边响应”

近年来,视频多模态大模型(VideoLLM)发展迅猛,在视频描述、视频问答、时序定位等任务上不断刷新性能上限。随着模型能力持续增强,业界也开始思考一个更重要的问题:视频大模型能不能不再只是 “看完一段视频再回答”,而是真正进入实时世界,持续观察、实时理解,并在关键时刻主动给出反馈?

来自主题: AI技术研报
5818 点击    2026-04-21 09:23