AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升
AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。
现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。
你知道“支付宝”已经杀入AI医疗赛道了吧……
大语言模型(LLM)不仅在推动通用自然语言处理方面发挥了关键作用,更重要的是,它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性,但在下游任务中高效部署仍面临重大挑战。
“我有两张券,分别为满1000减140、满2000减280,我看中商品的价格分别为……分两次结算怎么凑单最划算?”双11开启后,在社交平台上,有人向Deepseek抛出这个问题。
近日刚好得了空闲,在研读 Anthropic 官方技术博客和一些相关论文,主题是「Agent 与 Context 工程」。2025 年 6 月以来,原名为「Prompt Engineering」的提示词工程,在 AI Agent 概念日趋火热的应用潮中,
在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。而最近,一个开源项目 UniVid,提出了一个「融合」方向:把理解 + 生成融为一体 —— 他们希望用一个统一的模型,兼顾「看懂视频」+「生成视频」的能力。
那个叫大模型的高手,被下毒了
据业内人士透露,微软已向英特尔下达其下一代人工智能芯片Maia 2的晶圆代工订单,计划采用英特尔的18A或18A-P制程。该芯片或将用于微软Azure数据中心等人工智能基础设施。
美国麻省理工学院李巨团队在国际顶尖学术期刊Nature上发表了一篇研究论文,展示了一种多模态机器人平台CRESt(Copilot for Real-world Experimental Scientists),通过将多模态模型(融合文本知识、化学成分以及微观结构信息)驱动的材料设计与高通量自动化实验相结合,大幅提升催化剂的研发速度和质量。
前OpenAI研究员Karina Nguyen宣布创立时尚品牌Maison AGI,首个系列就前OpenAI研究员Karina Nguyen宣布创立时尚品牌Maison AGI,首个系列就与Ilya Sutskever合作,甚至要推出一顶以他头型为原型的帽子。她称,这可能是人类在被AI超越前,最后一次「手作」。当科学家成了灵感缪斯,研究员开始做纪念品,AI的故事,正从技术革命变成人类的自我信仰。