AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

近年来,大语言模型(LLMs)在长篇视觉叙事中展现出卓越潜力,生产方式正迅速从单一模型生成转向面向生产的智能体系统。但长视频剪辑仍然是一个极难控制的长期任务。模型有时会在缺乏素材依据的情况下强行生成,甚至在面对明显断档的转场或人物不一致时依然“盲目拼接”。

来自主题: AI技术研报
9591 点击    2026-06-21 10:41
ICML 2026|从「鉴伪」到「修复」,AI图像取证进入闭环时代

ICML 2026|从「鉴伪」到「修复」,AI图像取证进入闭环时代

ICML 2026|从「鉴伪」到「修复」,AI图像取证进入闭环时代

对于 AI 生成图像中可能存在的不自然伪影,我们是否不仅能够将其定位和解释,还能进一步对其进行修复,使图像恢复为更加真实、自然的视觉外观?围绕这一问题,来自北京大学等机构的研究者提出了 GenShield:一个统一的自回归框架,将 AI 生成图像检测 与 图像伪影修复 结合到同一个闭环中,实现从 “诊断” 到 “修复” 的一体化建模。

来自主题: AI技术研报
7447 点击    2026-06-21 10:31
剧本创作开源工具TOP10:视觉小说、交互叙事、AI集成,一篇说清楚怎么选

剧本创作开源工具TOP10:视觉小说、交互叙事、AI集成,一篇说清楚怎么选

剧本创作开源工具TOP10:视觉小说、交互叙事、AI集成,一篇说清楚怎么选

为什么推开源工具?在vibecoder到高级程序员都懂的原因,你能自己魔改成自家用的黑科技有什么不好?而且还不用订阅不花钱。为此,我们搞了这个游戏开发者的实用选型指南。每一个工具,都会告诉你:它适合做什么、不适合做什么、以及如何与AI工作流结合。

来自主题: AI资讯
8156 点击    2026-06-20 14:14
视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

导读:视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token,用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于,模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里;如果模型无法稳定读取这些 token,它们就很难成为有效的中间视觉证据。

来自主题: AI技术研报
5533 点击    2026-06-16 13:56
专访Seede.ai创始人龙翊:二本,高中挖币,大四辍学,现在拿300万美金天使投资,去做小商贩一张海报几毛钱的生意

专访Seede.ai创始人龙翊:二本,高中挖币,大四辍学,现在拿300万美金天使投资,去做小商贩一张海报几毛钱的生意

专访Seede.ai创始人龙翊:二本,高中挖币,大四辍学,现在拿300万美金天使投资,去做小商贩一张海报几毛钱的生意

你为什么选了做视觉有关的方向呢?跟你对市场、对成都的观察有关吗?我们现在用的很多传统的 APP,包括很多操作系统,我觉得未来会被替代掉的。因为很多是很“反人类”的设计。这些东西的本质是“系统状态的流转”,没有一个正常人喜欢用这些系统。而这部分,数据的流转,是 Agent 能替我们做的。最终一定会剩下一些简洁的信息要呈现给人——我们做的,反而应该是这个部分。

来自主题: AI资讯
10115 点击    2026-06-15 09:26
华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物,但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界?

来自主题: AI技术研报
5658 点击    2026-06-15 09:19
CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

自动驾驶世界模型的研究目标已经从单纯预测未来视觉帧,扩展到构建可用于场景理解、空间定位和后续决策的世界表示。如果模型只能生成外观上合理的未来图像,却无法回答场景中有哪些目标、目标位于何处,以及不同视角下的空间结构如何变化,那么它仍然缺少对三维驾驶环境的显式建模能力。

来自主题: AI技术研报
9115 点击    2026-06-15 09:18
CVPR 2026 | 视觉脑机迈向双向交互!神经流模型 NeuroFlow 打通视觉与神经的双向通道

CVPR 2026 | 视觉脑机迈向双向交互!神经流模型 NeuroFlow 打通视觉与神经的双向通道

CVPR 2026 | 视觉脑机迈向双向交互!神经流模型 NeuroFlow 打通视觉与神经的双向通道

来自上海人工智能实验室、香港大学、香港中文大学等机构的研究团队,提出首个基于统一神经流模型的视觉-神经双向建模框架NeuroFlow,相关成果入选 CVPR 2026。它首次将视觉编码(写脑)与解码(读脑)整合到同一可逆流结构中,打通视觉感知与神经活动之间的双向通路,为理解人类视觉认知机制、构建下一代通用视觉假体与双向脑机接口提供了全新范式。

来自主题: AI技术研报
7546 点击    2026-06-13 10:12