AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
刚刚,阿里HappyHorse1.1上线,我用它把国足送进世界杯

刚刚,阿里HappyHorse1.1上线,我用它把国足送进世界杯

刚刚,阿里HappyHorse1.1上线,我用它把国足送进世界杯

今天,阿里巴巴发布了其最新一代视频生成模型HappyHorse 1.1(快乐小马1.1)。阿里称,相比HappyHorse 1.1,这代模型在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度有了一定提升。

来自主题: AI资讯
8725 点击    2026-06-22 20:15
中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单!

中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单!

中科院工业人工智能研究所世界模型PAIWorld登顶WorldArena榜单!

日前,世界模型国际权威榜单 WorldArena 更新排名,中国科学院工业人工智能研究所徐凯研究员带领物理智能团队(The PAI Lab)自研的世界模型 PAIWorld 登顶。WorldArena 作为目前世界模型领域最权威的评测榜单,是针对具身世界模型的全方位评价体系,涵盖视觉质量、运动质量、内容一致性、物理遵循、三维准确性及可控性六大维度

来自主题: AI资讯
8114 点击    2026-06-22 11:33
从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

近年来,大语言模型(LLMs)在长篇视觉叙事中展现出卓越潜力,生产方式正迅速从单一模型生成转向面向生产的智能体系统。但长视频剪辑仍然是一个极难控制的长期任务。模型有时会在缺乏素材依据的情况下强行生成,甚至在面对明显断档的转场或人物不一致时依然“盲目拼接”。

来自主题: AI技术研报
9641 点击    2026-06-21 10:41
ICML 2026|从「鉴伪」到「修复」,AI图像取证进入闭环时代

ICML 2026|从「鉴伪」到「修复」,AI图像取证进入闭环时代

ICML 2026|从「鉴伪」到「修复」,AI图像取证进入闭环时代

对于 AI 生成图像中可能存在的不自然伪影,我们是否不仅能够将其定位和解释,还能进一步对其进行修复,使图像恢复为更加真实、自然的视觉外观?围绕这一问题,来自北京大学等机构的研究者提出了 GenShield:一个统一的自回归框架,将 AI 生成图像检测 与 图像伪影修复 结合到同一个闭环中,实现从 “诊断” 到 “修复” 的一体化建模。

来自主题: AI技术研报
7497 点击    2026-06-21 10:31
剧本创作开源工具TOP10:视觉小说、交互叙事、AI集成,一篇说清楚怎么选

剧本创作开源工具TOP10:视觉小说、交互叙事、AI集成,一篇说清楚怎么选

剧本创作开源工具TOP10:视觉小说、交互叙事、AI集成,一篇说清楚怎么选

为什么推开源工具?在vibecoder到高级程序员都懂的原因,你能自己魔改成自家用的黑科技有什么不好?而且还不用订阅不花钱。为此,我们搞了这个游戏开发者的实用选型指南。每一个工具,都会告诉你:它适合做什么、不适合做什么、以及如何与AI工作流结合。

来自主题: AI资讯
8208 点击    2026-06-20 14:14
视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

视觉latent reasoning为什么不稳?这篇论文从特征空间找到了关键缺口

导读:视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token,用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于,模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里;如果模型无法稳定读取这些 token,它们就很难成为有效的中间视觉证据。

来自主题: AI技术研报
5550 点击    2026-06-16 13:56
专访Seede.ai创始人龙翊:二本,高中挖币,大四辍学,现在拿300万美金天使投资,去做小商贩一张海报几毛钱的生意

专访Seede.ai创始人龙翊:二本,高中挖币,大四辍学,现在拿300万美金天使投资,去做小商贩一张海报几毛钱的生意

专访Seede.ai创始人龙翊:二本,高中挖币,大四辍学,现在拿300万美金天使投资,去做小商贩一张海报几毛钱的生意

你为什么选了做视觉有关的方向呢?跟你对市场、对成都的观察有关吗?我们现在用的很多传统的 APP,包括很多操作系统,我觉得未来会被替代掉的。因为很多是很“反人类”的设计。这些东西的本质是“系统状态的流转”,没有一个正常人喜欢用这些系统。而这部分,数据的流转,是 Agent 能替我们做的。最终一定会剩下一些简洁的信息要呈现给人——我们做的,反而应该是这个部分。

来自主题: AI资讯
10124 点击    2026-06-15 09:26
华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

华为SpaceMind登顶空间智能权威榜:纯RGB视觉语言模型拿下70.6分,刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物,但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界?

来自主题: AI技术研报
5672 点击    2026-06-15 09:19
CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

CVPR 2026 | GaussianDWM:用3D高斯表示统一自动驾驶场景理解与多模态生成

自动驾驶世界模型的研究目标已经从单纯预测未来视觉帧,扩展到构建可用于场景理解、空间定位和后续决策的世界表示。如果模型只能生成外观上合理的未来图像,却无法回答场景中有哪些目标、目标位于何处,以及不同视角下的空间结构如何变化,那么它仍然缺少对三维驾驶环境的显式建模能力。

来自主题: AI技术研报
9141 点击    2026-06-15 09:18