LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL
LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。
近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。
鹏城实验室与清华大学PACMAN实验室联合发布了鹏城脑海‑2.1‑开元‑2B(PCMind‑2.1‑Kaiyuan‑2B,简称开元‑2B)模型,并以全流程开源的方式回应了这一挑战——从训练数据、数据处理框架、训练框架、完整技术报告到最终模型权重,全部开源。
近日,上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro(Rectifying Process-level Reward)。这篇论文将推理的过程视为模型内部状态的优化过程,从而对如何重塑大模型的CoT提供了一个全新视角:
现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此,华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架,CineCtrl 通过解耦交叉注意力机制,摆脱了多控制信号共同控制的效果耦合问题,实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。
庞若鸣被扎克伯格天价挖去Meta后,谁在执掌苹果大模型团队?团队的权力交接,其实比外界想象中要快,也要安静得多。答案很快浮出水面。接手这支团队的人,是庞若鸣的老搭档:Zhifeng Chen。
最近各种年度回顾陆续上线, OpenAI 的前联合创始人 Andrej Karpathy 也交出了自己对大模型的年度总结。就在今年早些时候,他在 YC 的一场演讲刷爆了全网,提出了不少新的观点:
“全球大模型第一股”,在港交所发起冲刺了。被视为“中国版OpenAI”的智谱AI,刚刚招股书对外公告,冲刺IPO。智谱AI以秘密递表的形式,刚刚在港交所通过聆讯,即将敲钟。
AI不应是巨头游戏,模型也不是越大越聪明。近日,「Transformer八子」中的Ashish Vaswani和Parmar共同推出了一个8B的开源小模型,剑指Scaling Law软肋,为轻量化、开放式AI探索了新方向。
依托腾讯自研大模型的底层能力,QQ浏览器不仅推出了“一句话接管任务”的QBot智能体,还全面实现了AI搜索、AI浏览、AI学习、AI办公等全场景覆盖。就在刚刚,它更是冲上了数据机构XSignal的多项权威榜单,在「AI Agent」赛道上,其相关数据表现已率先跑进行业前排:
本周三,OpenAI正式发布了GPT Image 1.5 功能。就在同一天,OpenAI CEO 山姆·奥特曼接受了《Big Technology Podcast》的采访。这期访谈的信息量非常密集,奥特曼从商业、产品和基础设施三个层面,系统回应了外界最关心的问题。多项表态释放出一个清晰信号:OpenAI正站在从“现象级产品公司”迈向“企业级AI平台”的关键拐点上。