AI资讯新闻榜单内容搜索-多模态

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

9155 点击 2025-03-05 20:42

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

o1/DeepSeek-R1背后秘诀也能扩展到多模态了！

来自主题: AI技术研报

6167 点击 2025-03-05 13:39

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

北京大学彭宇新教授团队开源最新多轮交互式商品检索模型、数据集及评测基准

本文构建了新的多轮组合图像检索数据集和评测基准FashionMT。其特点包括：（1）回溯性：每轮修改文本可能涉及历史参考图像信息（如保留特定属性），要求算法回溯利用多轮历史信息；（2）多样化：FashionMT包含的电商图像数量和类别分别是MT FashionIQ的14倍和30倍，且交互轮次数量接近其27倍，提供了丰富的多模态检索场景。

来自主题: AI技术研报

9484 点击 2025-03-05 08:46

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励，Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径！

来自主题: AI技术研报

8529 点击 2025-03-04 20:09

阿里PC-Agent重构人机交互，精准拆解跨应用指令，自动化办公更进一步

阿里PC-Agent重构人机交互，精准拆解跨应用指令，自动化办公更进一步

阿里PC-Agent重构人机交互，精准拆解跨应用指令，自动化办公更进一步

面向复杂PC任务的多模态智能体框架PC-Agent，来自阿里通义实验室。

来自主题: AI技术研报

11042 点击 2025-03-04 10:48

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

近年来大语言模型（LLM）的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而，现有主流多模态大模型（MLLM）依赖复杂的外部视觉模块（如 CLIP 或扩散模型），导致系统臃肿、扩展受限，成为跨模态智能进化的核心瓶颈。

来自主题: AI技术研报

10926 点击 2025-03-04 09:52

LeCun世界模型再近一步！Meta研究证明：AI可无先验理解直觉物理

LeCun世界模型再近一步！Meta研究证明：AI可无先验理解直觉物理

LeCun世界模型再近一步！Meta研究证明：AI可无先验理解直觉物理

AI如何理解物理世界？视频联合嵌入预测架构V-JEPA带来新突破，无需硬编码核心知识，在自监督预训练中展现出对直观物理的理解，超越了基于像素的预测模型和多模态LLM。

来自主题: AI技术研报

12017 点击 2025-03-02 15:47

微软首个多模态Phi-4问世，56亿参数秒杀GPT-4o！LoRA华人大佬带队

微软首个多模态Phi-4问世，56亿参数秒杀GPT-4o！LoRA华人大佬带队

微软首个多模态Phi-4问世，56亿参数秒杀GPT-4o！LoRA华人大佬带队

Phi-4系列模型上新了！56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体，读图推理性能碾压GPT-4o；另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM，支持128K token上下文。

来自主题: AI技术研报

7446 点击 2025-02-28 14:11

微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B

微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B

微软Phi-4家族新增两位成员，5.6B多模态单任务超GPT-4o，3.8B小模型媲美千问7B

动辄百亿、千亿参数的大模型正在一路狂奔，但「小而美」的模型也在闪闪发光。

来自主题: AI技术研报

11770 点击 2025-02-27 16:51

杨植麟翻身，还要靠OpenAI

杨植麟翻身，还要靠OpenAI

杨植麟翻身，还要靠OpenAI

Kimi未来还能够翻盘吗？从公司发展路径上来看，并非没有可能。作为曾经对OpenAI技术跟随最快的公司，Kimi在去年做出了Kimi探索版、k0-math等多个跟随OpenAI技术的模型，而杨植麟本人也在采访中，表示大模型的未来不仅在于强化学习，还在于多模态能力。这一点似乎也与OpenAI类似。

来自主题: AI资讯

8843 点击 2025-02-27 09:36

上一页当前第58页,共108页下一页