AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!

复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。

来自主题: AI技术研报
7432 点击    2025-04-25 09:56
AI搞定所有家务!具身智能公司Physical Intelligence推出π0.5,换个房子也能行

AI搞定所有家务!具身智能公司Physical Intelligence推出π0.5,换个房子也能行

AI搞定所有家务!具身智能公司Physical Intelligence推出π0.5,换个房子也能行

今天,美国具身智能公司 Physical Intelligence 推出了一个基于 π0 的视觉-语言-动作(VLA)模型 π0.5,其利用异构任务的协同训练来实现广泛的泛化,可以在全新的家中执行各种任务。

来自主题: AI资讯
7760 点击    2025-04-25 09:12
7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

通过蒙特卡洛树搜索筛选高难度样本,ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力,无需知识蒸馏,为高效训练提供了新思路。

来自主题: AI技术研报
8301 点击    2025-04-24 14:38
体验完字节送的迷你AI硬件,后劲有点大...

体验完字节送的迷你AI硬件,后劲有点大...

体验完字节送的迷你AI硬件,后劲有点大...

最近也是好起来了,上周四去杭州参加了字节火山的线下meetup开发者大会。在会议现场亲自体验了他们这次新发布的大模型和产品,整个过程还挺有意思的。视觉模型Doubao-1.5-vision-pro也非常nice

来自主题: AI资讯
9499 点击    2025-04-21 17:40
物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。

来自主题: AI技术研报
6690 点击    2025-04-18 09:08
最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不再需要GPT了

最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不再需要GPT了

最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不再需要GPT了

“史上最强视觉生成模型”,现在属于快手。一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵,都重磅升级到2.0版本。可图2.0,对比MidJourney 7.0,胜负比「(good+same) / (same+bad)」超300%,对比FLUX超过150%;

来自主题: AI资讯
9148 点击    2025-04-17 20:46
豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招

豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招

豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招

今天,字节发布了一整套 AI 全家桶,深度思考模型、视觉推理、文生图、AI Agent……几乎涵盖了最近 AI 圈关注度最高的产品。字节发布的产品和亮点有哪些:1. 豆包 1.5 · 深度思考模型,2. 文生图 3.0

来自主题: AI资讯
10245 点击    2025-04-17 18:21