AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理

当前,所有主流的视觉基础模型(如 SigLIP、DINOv2 等)都仍然在低分辨率(如 384 * 384 分辨率)下进行预训练。对比人类视觉系统可以轻松达到 10K 等效分辨率,这种低分辨率预训练极大地限制了视觉模型对于高清细节的理解能力。

来自主题: AI技术研报
6780 点击    2025-04-17 13:54
OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表

满血版o3和o4-mini深夜登场,首次将图像推理融入思维链,还会自主调用工具,60秒内破解复杂难题。尤其是,o3以十倍o1算力刷新编程、数学、视觉推理SOTA,接近「天才水平」。此外,OpenAI还开源了编程神器Codex CLI,一夜爆火。

来自主题: AI资讯
10032 点击    2025-04-17 08:43
视觉自回归生成理解编辑大一统!北大团队多模态新突破,VARGPT-v1.1训练数据代码全面开源

视觉自回归生成理解编辑大一统!北大团队多模态新突破,VARGPT-v1.1训练数据代码全面开源

视觉自回归生成理解编辑大一统!北大团队多模态新突破,VARGPT-v1.1训练数据代码全面开源

北京大学团队继VARGPT实现视觉理解与生成任务统一之后,再度推出了VARGPT-v1.1版本。该版本进一步提升了视觉自回归模型的能力,不仅在在视觉理解方面有所加强,还在图像生成和编辑任务中达到新的性能高度

来自主题: AI技术研报
7504 点击    2025-04-16 09:44
以人文本的 AI 品牌设计

以人文本的 AI 品牌设计

以人文本的 AI 品牌设计

传统科技公司、尤其是 2B 的公司,其信息、视觉传达都是以公司、产品、技术创新为中心的。但是,处在现代最前沿技术之一的 AI 公司,似乎想做一些不一样的传达。我们将近距离看一下 OpenAI,Cohere,Anthropic 这三家 AI 模型公司的信息、视觉传达,看看他们怎么是从传统科技公司的风格中,做出一些不一样的、以人为本的品牌设计的。

来自主题: AI资讯
8404 点击    2025-04-15 22:09
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

近年来,随着大型语言模型(LLMs)的快速发展,多模态理解领域取得了前所未有的进步。像 OpenAI、InternVL 和 Qwen-VL 系列这样的最先进的视觉-语言模型(VLMs),在处理复杂的视觉-文本任务时展现了卓越的能力。

来自主题: AI技术研报
4851 点击    2025-04-14 13:57
即梦AI字体我有点玩明白了,用这套Prompt提效50%

即梦AI字体我有点玩明白了,用这套Prompt提效50%

即梦AI字体我有点玩明白了,用这套Prompt提效50%

每天脑子里都有很多想法转瞬即逝,不赶紧记录下来就会懒到不想再实践,于是在周五依然好好更新了!今天也是一个很不错的干货,这组提示词的作用是,你只需要输入你的文字内容,就可以得到还不错的文字设计的视觉效果。为了它的效果测试和呈现我几乎掏空了我的即梦AI,测试非常多组合和风格后确信效果确实是还不错的。

来自主题: AI资讯
9584 点击    2025-04-14 09:15
谷歌Veo 2震撼升级,一键get好莱坞级视觉盛宴!全网实测,帧帧丝滑

谷歌Veo 2震撼升级,一键get好莱坞级视觉盛宴!全网实测,帧帧丝滑

谷歌Veo 2震撼升级,一键get好莱坞级视觉盛宴!全网实测,帧帧丝滑

从海底的慢动作漂浮到战场的史诗旋转,这十个视频全是Google Veo 2的神来之笔!它能让你的点子秒变大片级画面,快来围观这场创意狂欢。

来自主题: AI资讯
8712 点击    2025-04-13 10:46
杜蕾斯级别的创意海报,现在你用即梦3.0就能批量生了

杜蕾斯级别的创意海报,现在你用即梦3.0就能批量生了

杜蕾斯级别的创意海报,现在你用即梦3.0就能批量生了

如果你没有杜蕾斯背后强大的5A广告公司、鬼才般的创意团队、句句封神的的金牌文案、审美爆辣的视觉艺术家。借助即梦刚上线的3.0生图模型以及 Deepseek生创意和文案,你也可以轻松复刻一个「杜蕾斯级别」的刷屏海报。

来自主题: AI技术研报
8272 点击    2025-04-13 10:12
a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道

a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道

a16解读AI数字人:技术基本Ready、应用层即将爆发,下一个十亿级赛道

过去几年,AI 已经能生成逼真的图片、视频和声音,悄然通过视觉和听觉的图灵测试。但 2025 年最令人激动的突破之一,毫无疑问将是把这些方案集于一体的 AI 数字人(Al Avatar)。

来自主题: AI资讯
9118 点击    2025-04-12 11:50