AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

7B超越GPT!1/20数据,无需知识蒸馏,马里兰等推出全新视觉推理方法

通过蒙特卡洛树搜索筛选高难度样本,ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力,无需知识蒸馏,为高效训练提供了新思路。

来自主题: AI技术研报
7340 点击    2025-04-24 14:38
体验完字节送的迷你AI硬件,后劲有点大...

体验完字节送的迷你AI硬件,后劲有点大...

体验完字节送的迷你AI硬件,后劲有点大...

最近也是好起来了,上周四去杭州参加了字节火山的线下meetup开发者大会。在会议现场亲自体验了他们这次新发布的大模型和产品,整个过程还挺有意思的。视觉模型Doubao-1.5-vision-pro也非常nice

来自主题: AI资讯
8348 点击    2025-04-21 17:40
物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

最近,来自大连理工和莫纳什大学的团队提出了物理真实的视频生成框架 VLIPP。通过利用视觉语言模型来将物理规律注入到视频扩散模型的方法来提升视频生成中的物理真实性。

来自主题: AI技术研报
5966 点击    2025-04-18 09:08
最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不再需要GPT了

最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不再需要GPT了

最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不再需要GPT了

“史上最强视觉生成模型”,现在属于快手。一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵,都重磅升级到2.0版本。可图2.0,对比MidJourney 7.0,胜负比「(good+same) / (same+bad)」超300%,对比FLUX超过150%;

来自主题: AI资讯
7838 点击    2025-04-17 20:46
豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招

豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招

豆包深度思考模型正式发布!和 o3 一样能「看图思考」,还有一个 Agent 大招

今天,字节发布了一整套 AI 全家桶,深度思考模型、视觉推理、文生图、AI Agent……几乎涵盖了最近 AI 圈关注度最高的产品。字节发布的产品和亮点有哪些:1. 豆包 1.5 · 深度思考模型,2. 文生图 3.0

来自主题: AI资讯
9159 点击    2025-04-17 18:21
4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

当前,所有主流的视觉基础模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率,这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。

来自主题: AI技术研报
5934 点击    2025-04-17 13:54
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

满血版o3和o4-mini深夜登场,首次将图像推理融入思维链,还会自主调用工具,60秒内破解复杂难题。尤其是,o3以十倍o1算力刷新编程、数学、视觉推理SOTA,接近「天才水平」。此外,OpenAI还开源了编程神器Codex CLI,一夜爆火。

来自主题: AI资讯
9128 点击    2025-04-17 08:43