AI资讯新闻榜单内容搜索-视觉

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 视觉

港大马毅团队等开源新作：用编码率正则化重构视觉自监督学习范式，“少即是多”

港大马毅团队等开源新作：用编码率正则化重构视觉自监督学习范式，“少即是多”

港大马毅团队等开源新作：用编码率正则化重构视觉自监督学习范式，“少即是多”

最新开源的视觉预训练方法，马毅团队、微软研究院、UC伯克利等联合出品！

来自主题: AI技术研报

5623 点击 2025-03-09 10:54

英伟达提出首个Mamba-Transformer视觉骨干网络！打破精度/吞吐瓶颈 | CVPR 2025

英伟达提出首个Mamba-Transformer视觉骨干网络！打破精度/吞吐瓶颈 | CVPR 2025

英伟达提出首个Mamba-Transformer视觉骨干网络！打破精度/吞吐瓶颈 | CVPR 2025

CVPR 2025，混合新架构MambaVision来了！Mamba+Transformer混合架构专门为CV应用设计。MambaVision 在Top-1精度和图像吞吐量方面实现了新的SOTA，显著超越了基于Transformer和Mamba的模型。

来自主题: AI技术研报

8879 点击 2025-03-08 13:10

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

全球首次！2B复现DeepSeek-R1「啊哈时刻」，UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队，全球首次在20亿参数非SFT模型上，成功实现了多模态推理的DeepSeek-R1「啊哈时刻」！就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」！

来自主题: AI技术研报

7694 点击 2025-03-05 20:42

独家丨爱诗科技完成A5轮融资，PixVerse月活突破1500万并将在国内上线

独家丨爱诗科技完成A5轮融资，PixVerse月活突破1500万并将在国内上线

独家丨爱诗科技完成A5轮融资，PixVerse月活突破1500万并将在国内上线

硅星人独家获悉，AI视频生成领域独角兽企业爱诗科技完成 A5 轮融资，本轮由靖亚资本独家投资，至此爱诗科技 A 轮融资整体规模已超4亿人民币。爱诗科技成立于2023年4月，公司创始人兼CEO王长虎在计算机视觉和AI领域有20年从业经验，他曾任微软亚洲研究院主管研究员，之后担任字节跳动视觉技术负责人期间，参与了抖音和TikTok等产品从0到1的过程。

来自主题: AI资讯

10545 点击 2025-03-05 10:22

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

视觉强化微调！DeepSeek R1技术成功迁移到多模态领域，全面开源

通过针对视觉的细分类、目标检测等任务设计对应的规则奖励，Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知，为视觉语言模型的训练开辟了全新路径！

来自主题: AI技术研报

7062 点击 2025-03-04 20:09

重点收藏！三家众擎机器人核心供应链企业！附辟谣信息

重点收藏！三家众擎机器人核心供应链企业！附辟谣信息

重点收藏！三家众擎机器人核心供应链企业！附辟谣信息

据众擎机器人介绍，众擎机器人SE01自主研发的“动态重心补偿算法”以每秒1000次的姿态微调对抗前倾失控风险；仿生肌肉驱动系统使关节瞬时扭矩高达330N·m；而毫米波雷达与视觉融合感知系统则将落地误差控制在±2cm内。

来自主题: AI资讯

8813 点击 2025-03-04 10:17

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

生成与理解相互促进！华科字节提出Liquid，揭示统一多模态模型尺度规律！

近年来大语言模型（LLM）的迅猛发展正推动人工智能迈向多模态融合的新纪元。然而，现有主流多模态大模型（MLLM）依赖复杂的外部视觉模块（如 CLIP 或扩散模型），导致系统臃肿、扩展受限，成为跨模态智能进化的核心瓶颈。

来自主题: AI技术研报

9414 点击 2025-03-04 09:52

微软首个多模态Phi-4问世，56亿参数秒杀GPT-4o！LoRA华人大佬带队

微软首个多模态Phi-4问世，56亿参数秒杀GPT-4o！LoRA华人大佬带队

微软首个多模态Phi-4问世，56亿参数秒杀GPT-4o！LoRA华人大佬带队

Phi-4系列模型上新了！56亿参数Phi-4-multimodal集语音、视觉、文本多模态于一体，读图推理性能碾压GPT-4o；另一款38亿参数Phi-4-mini在推理、数学、编程等任务中超越了参数更大的LLM，支持128K token上下文。

来自主题: AI技术研报

5953 点击 2025-02-28 14:11

Zero-shot重建物理高斯资产，清华&光轮视觉大模型让机器人理解物理属性｜ICRA 2025

Zero-shot重建物理高斯资产，清华&光轮视觉大模型让机器人理解物理属性｜ICRA 2025

Zero-shot重建物理高斯资产，清华&光轮视觉大模型让机器人理解物理属性｜ICRA 2025

理解物体的物理属性，对机器人执行操作十分重要，但是应该如何实现呢？

来自主题: AI技术研报

10364 点击 2025-02-24 16:27

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

多模态大模型事实正确性评估：o1最强，模型普遍过于自信，最擅长现代建筑/工程技术/科学

OpenAI o1视觉能力还是最强，模型们普遍“过于自信”！

来自主题: AI技术研报

8376 点击 2025-02-23 16:23

上一页当前第27页,共60页下一页