AI资讯新闻榜单内容搜索-视觉

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 视觉

Vchoo.ai COO：AI生成视频的核心是让用户成为故事大师，而非技术达人

Vchoo.ai COO：AI生成视频的核心是让用户成为故事大师，而非技术达人

Vchoo.ai COO：AI生成视频的核心是让用户成为故事大师，而非技术达人

Vchoo.ai简化了从故事创作到视频生成的过程，凭借其丰富的故事题材生成能力、多样化的画面风格以及稳定可控的角色和场景，让每个人都能通过Vchoo.ai轻松地将自己的故事视觉化。

来自主题: AI资讯

10945 点击 2024-08-15 19:09

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

黑匣子被打开了！能玩的Transformer可视化解释工具，本地运行GPT-2、还可实时推理

2017 年，谷歌在论文《Attention is all you need》中提出了 Transformer，成为了深度学习领域的重大突破。该论文的引用数已经将近 13 万，后来的 GPT 家族所有模型也都是基于 Transformer 架构，可见其影响之广。作为一种神经网络架构，Transformer 在从文本到视觉的多样任务中广受欢迎，尤其是在当前火热的 AI 聊天机器人领域。

来自主题: AI资讯

8477 点击 2024-08-11 17:38

21.5万张X光，78万个问题！德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

21.5万张X光，78万个问题！德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

21.5万张X光，78万个问题！德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力，在各个领域取得了巨大成功。

来自主题: AI资讯

8172 点击 2024-08-10 12:03

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准

LLM的数学推理能力缺陷得到了很多研究的关注，但最近浙大、中科院等机构的学者们提出，先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准，并设计了一种新颖的数据合成方法。

来自主题: AI技术研报

10453 点击 2024-08-08 14:41

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

Stable Diffusion原始作者创业，井喷的AI视觉再添新玩家

也许视觉模型离AGI更近。

来自主题: AI资讯

10259 点击 2024-08-08 10:01

Runway深夜炸场，Gen-3 Alpha图生视频上线，11秒让你脑洞乱飞

Runway深夜炸场，Gen-3 Alpha图生视频上线，11秒让你脑洞乱飞

Runway深夜炸场，Gen-3 Alpha图生视频上线，11秒让你脑洞乱飞

网友不吝赞叹：AI 视觉生成又迈出了一大步。

来自主题: AI资讯

11742 点击 2024-07-30 16:51

关于大模型「越狱」的多种方式，有这些防御手段

关于大模型「越狱」的多种方式，有这些防御手段

关于大模型「越狱」的多种方式，有这些防御手段

随着人工智能（AI）技术的迅猛发展，特别是大语言模型（LLMs）如 GPT-4 和视觉语言模型（VLMs）如 CLIP 和 DALL-E，这些模型在多个技术领域取得了显著的进展。

来自主题: AI技术研报

12827 点击 2024-07-29 20:32

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

随着大型语言模型（LLMs）的进步，多模态大型语言模型（MLLMs）迅速发展。它们使用预训练的视觉编码器处理图像，并将图像与文本信息一同作为 Token 嵌入输入至 LLMs，从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

来自主题: AI技术研报

9815 点击 2024-07-27 19:33

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习

本文介绍清华大学的一篇关于长尾视觉识别的论文: Probabilistic Contrastive Learning for Long-Tailed Visual Recognition. 该工作已被 TPAMI 2024 录用，代码已开源。

来自主题: AI技术研报

8346 点击 2024-07-25 18:28

真相了！大模型解数学题和人类真不一样：死记硬背、知识欠缺明显，GPT-4o表现最佳

真相了！大模型解数学题和人类真不一样：死记硬背、知识欠缺明显，GPT-4o表现最佳

真相了！大模型解数学题和人类真不一样：死记硬背、知识欠缺明显，GPT-4o表现最佳

随着人工智能技术的快速发展，能够处理多种模态信息的多模态大模型（LMMs）逐渐成为研究的热点。通过整合不同模态的信息，LMMs 展现出一定的推理和理解能力，在诸如视觉问答、图像生成、跨模态检索等任务中表现出色。

来自主题: AI技术研报

11957 点击 2024-07-23 16:34

上一页当前第68页,共84页下一页