AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
我的天,全球首个「推理视频模型」Ray3发布!

我的天,全球首个「推理视频模型」Ray3发布!

我的天,全球首个「推理视频模型」Ray3发布!

AI视频又进化了! Luma AI 发布全球首个推理视频模型,也是首个能够生成工作室级 HDR 的模型。 Ray3 是一款专为讲述故事而设计的 AI 视频模型。 它能够对视觉内容进行思考和推理,并提

来自主题: AI资讯
9474 点击    2025-09-22 17:48
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。

来自主题: AI技术研报
6691 点击    2025-09-22 09:21
a16z投了两个华人560万美金,让AI成为每个人的专属摄影师

a16z投了两个华人560万美金,让AI成为每个人的专属摄影师

a16z投了两个华人560万美金,让AI成为每个人的专属摄影师

这听起来像科幻电影,但Phota Labs正在让这一切成为现实。这家由前Adobe AI研究员创立的公司刚刚获得了由Andreessen Horowitz领投的560万美元种子轮融资,他们正在用个性化的视觉AI技术彻底重新定义摄影的边界。

来自主题: AI资讯
7557 点击    2025-09-18 14:30
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理,有开源平替版了。并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。

来自主题: AI技术研报
8871 点击    2025-09-16 10:02
多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

多模态BUG修复新SOTA:慕尼黑工大GUIRepair登上SWE-bench Multimodal榜单第一

自动化修复真实世界的软件缺陷问题是自动化程序修复研究社区的长期目标。然而,如何自动化解决视觉软件缺陷仍然是一个尚未充分探索的领域。最近,随着 SWE-bench 团队发布最新的多模态 Issue 修复

来自主题: AI技术研报
7264 点击    2025-09-16 10:01
OpenVision 2:大道至简的生成式预训练视觉编码器

OpenVision 2:大道至简的生成式预训练视觉编码器

OpenVision 2:大道至简的生成式预训练视觉编码器

本文来自加州大学圣克鲁兹分校(UCSC)、苹果公司(Apple)与加州大学伯克利分校(UCB)的合作研究。第一作者刘彦青,本科毕业于浙江大学,现为UCSC博士生,研究方向包括多模态理解、视觉-语言预训

来自主题: AI技术研报
5773 点击    2025-09-16 09:37
20岁斯坦福辍学生2天搞定500万美元融资:AI直接"偷窥"用户屏幕,重新定义产品分析

20岁斯坦福辍学生2天搞定500万美元融资:AI直接"偷窥"用户屏幕,重新定义产品分析

20岁斯坦福辍学生2天搞定500万美元融资:AI直接"偷窥"用户屏幕,重新定义产品分析

当我了解到一群平均年龄只有21岁的年轻创业者,在短短几天内就从Y Combinator、General Catalyst等顶级投资机构手中拿到500万美元融资时,我意识到他们可能找到了一个真正的痛点。这家叫Human Behavior的公司,正试图用AI彻底改变企业理解用户行为的方式。他们的方法听起来简单得令人怀疑:让AI直接"观看"用户使用产品的录像,然后自动分析出用户的真实意图和行为模式。

来自主题: AI资讯
8280 点击    2025-09-09 17:59
2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没

一般人准确率89.1%,AI最好只有13.3%。在新视觉基准ClockBench上,读模拟时钟这道「小学题」,把11个大模型难住了。为什么AI还是读不准表?是测试有问题还是AI真不行?

来自主题: AI资讯
7248 点击    2025-09-09 17:24
具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法

在多模态大模型的基座上,视觉 - 语言 - 动作(Visual-Language-Action, VLA)模型使用大量机器人操作数据进行预训练,有望实现通用的具身操作能力。

来自主题: AI技术研报
6439 点击    2025-09-08 15:20
空间智能新高度:港科大谭平团队SAIL-Recon突破万帧级图像大规模3D场景重建Transformer

空间智能新高度:港科大谭平团队SAIL-Recon突破万帧级图像大规模3D场景重建Transformer

空间智能新高度:港科大谭平团队SAIL-Recon突破万帧级图像大规模3D场景重建Transformer

香港科技大学谭平教授团队与地平线(Horizon Robotics)团队最新发布了一项 3D 场景表征与大规模重建新方法 SAIL-Recon,通过锚点图建立构建场景全局隐式表征,突破现有 VGGT 基础模型对于大规模视觉定位与 3D 重建的处理能力瓶颈,实现万帧级的场景表征抽取与定位重建,将空间智能「3D 表征与建模」前沿推向一个新的高度。

来自主题: AI技术研报
7679 点击    2025-09-08 10:19