AI资讯新闻榜单内容搜索-视觉

多图场景用DPO对齐！上海AI实验室等提出新方法，无需人工标注

多图像场景也能用DPO方法来对齐了！由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

来自主题: AI技术研报

6083 点击 2024-11-01 20:53

OmniParser：微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser 是由微软研究院提出的一个创新性工具，旨在通过解析用户界面截图来增强基于视觉的图形用户界面（GUI）代理的性能。

来自主题: AI技术研报

7507 点击 2024-11-01 12:13

将文字转化为视觉艺术，让信息传达更生动！

今天，要给大家介绍一款能够彻底改变你内容创作的神奇工具——Napkin.ai。

来自主题: AI资讯

4777 点击 2024-10-30 09:24

Janus：DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus 是 DeepSeek AI 开发的一个先进的多模态理解和生成框架，它通过创新性地解耦视觉编码路径来应对多模态理解和生成任务之间的需求冲突。

来自主题: AI技术研报

9122 点击 2024-10-29 14:46

PUMA：商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA（emPowering Unified MLLM with Multi-grAnular visual generation）是一项创新的多模态大型语言模型（MLLM），由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示，巧妙地平衡了视觉生成任务中的多样性与可控性。

来自主题: AI技术研报

6013 点击 2024-10-29 14:32

死刑，高空抛物砸死路人，AI监控能否根治？

近年来，基于人工智能视觉识别的AI监控系统越来越多地应用于社区，监控高空抛物也成为典型场景。

来自主题: AI资讯

5377 点击 2024-10-26 11:19

生成式AI正在全新定义未来的消费者操作系统

计算机的历史标志着个人和企业生产力的飞跃。20世纪70年代的命令行界面（CLIs）演变至80年代的图形用户界面（GUIs），实现了复杂命令的图形化抽象，通过视觉图标和窗口简化操作。接着，计算机操作的易学性提升加快了个人电脑（PC）在1990年代的普及，进而催生了万维网以及基于其上的互联网应用的发展。

来自主题: AI资讯

5862 点击 2024-10-25 09:54