AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。

来自主题: AI技术研报
5531 点击    2025-07-20 11:50
演讲生成黑科技,PresentAgent从文本到演讲视频

演讲生成黑科技,PresentAgent从文本到演讲视频

演讲生成黑科技,PresentAgent从文本到演讲视频

我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。

来自主题: AI技术研报
6288 点击    2025-07-19 11:31
斯坦福博士后创业,给机器人做“电子皮肤”|涌现新项目

斯坦福博士后创业,给机器人做“电子皮肤”|涌现新项目

斯坦福博士后创业,给机器人做“电子皮肤”|涌现新项目

途见科技通过“电子皮肤”触觉系统,为具身智能增加视觉、听觉之外的感知。

来自主题: AI资讯
6659 点击    2025-07-18 11:23
全球首个亚洲人脸超大规模数据集发布:让AI终于“认识”亚洲面孔

全球首个亚洲人脸超大规模数据集发布:让AI终于“认识”亚洲面孔

全球首个亚洲人脸超大规模数据集发布:让AI终于“认识”亚洲面孔

近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有 8 篇论文入选,其中 3 篇来自基座模型团队。

来自主题: AI技术研报
6578 点击    2025-07-17 12:12
看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

看遍奥斯卡后,VLM达到电影摄影理解新SOTA|上海AI Lab开源

当前最强大的视觉语言模型(VLMs)虽然能“看图识物”,但在理解电影方面还不够“聪明”。

来自主题: AI技术研报
8217 点击    2025-07-17 10:19
秘塔AI整大活,国内首个免费「深度研究」来了!搞研究证据链惊人

秘塔AI整大活,国内首个免费「深度研究」来了!搞研究证据链惊人

秘塔AI整大活,国内首个免费「深度研究」来了!搞研究证据链惊人

刚刚,国内首个免费可用Deep Research上线了!它在多个权威评测中拿下第一,准确率直接碾压开源WebSailor。研究过程中,它能多线迭代追搜,直至逻辑闭环。更绝的是,一键生成炫酷的互动研究报告,视觉效果直接拉满。

来自主题: AI资讯
5319 点击    2025-07-16 11:26
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报
5890 点击    2025-07-15 10:07
完全免费开放,美图上线AI视觉Agent

完全免费开放,美图上线AI视觉Agent

完全免费开放,美图上线AI视觉Agent

本来以为美图可能会在 8 月份推出新产品,给中期财报壮声势,但没想到,公告发布 20 天不到,这款名为 RoboNeo 的 AI Agent 就上线了,而且是直接面向所有用户免费开放。

来自主题: AI资讯
7856 点击    2025-07-14 22:16
AI们数不清六根手指,这事没那么简单。

AI们数不清六根手指,这事没那么简单。

AI们数不清六根手指,这事没那么简单。

昨天Grok4发布完以后,我随手刷了一下X。

来自主题: AI资讯
7816 点击    2025-07-14 11:27