AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。

来自主题: AI技术研报
4108 点击    2024-11-06 15:07
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

视觉语言模型(如 GPT-4o、DALL-E 3)通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。

来自主题: AI技术研报
2594 点击    2024-11-05 15:28
视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号 | ECCV 2024

视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号 | ECCV 2024

视觉定位新SOTA!华人团队开源革新框架SegVG,边界框转为分割信号 | ECCV 2024

SegVG是一种新的视觉定位方法,通过将边界框注释转化为像素级分割信号来增强模型的监督信号,同时利用三重对齐模块解决特征域差异问题,提升了定位准确性。实验结果显示,SegVG在多个标准数据集上超越了现有的最佳模型,证明了其在视觉定位任务中的有效性和实用性。

来自主题: AI技术研报
3012 点击    2024-11-05 14:56
Allegro:开创商业级视频生成新纪元

Allegro:开创商业级视频生成新纪元

Allegro:开创商业级视频生成新纪元

Allegro 是一款先进的商业级视频生成模型,由Rhymes AI团队开发。它通过将描述性文本转换为动态视觉内容,为用户提供了一种灵活且可控的视频创作方法。

来自主题: AI技术研报
6256 点击    2024-11-02 17:15
多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图场景用DPO对齐!上海AI实验室等提出新方法,无需人工标注

多图像场景也能用DPO方法来对齐了! 由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。 这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

来自主题: AI技术研报
3650 点击    2024-11-01 20:53
OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser 是由微软研究院提出的一个创新性工具,旨在通过解析用户界面截图来增强基于视觉的图形用户界面(GUI)代理的性能。

来自主题: AI技术研报
5510 点击    2024-11-01 12:13
将文字转化为视觉艺术,让信息传达更生动!

将文字转化为视觉艺术,让信息传达更生动!

将文字转化为视觉艺术,让信息传达更生动!

今天,要给大家介绍一款能够彻底改变你内容创作的神奇工具——Napkin.ai。

来自主题: AI资讯
3253 点击    2024-10-30 09:24
Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus 是 DeepSeek AI 开发的一个先进的多模态理解和生成框架,它通过创新性地解耦视觉编码路径来应对多模态理解和生成任务之间的需求冲突。

来自主题: AI技术研报
7610 点击    2024-10-29 14:46
PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)是一项创新的多模态大型语言模型(MLLM),由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示,巧妙地平衡了视觉生成任务中的多样性与可控性。

来自主题: AI技术研报
3825 点击    2024-10-29 14:32
死刑,高空抛物砸死路人,AI监控能否根治?

死刑,高空抛物砸死路人,AI监控能否根治?

死刑,高空抛物砸死路人,AI监控能否根治?

近年来,基于人工智能视觉识别的AI监控系统越来越多地应用于社区,监控高空抛物也成为典型场景。

来自主题: AI资讯
3188 点击    2024-10-26 11:19