LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL
LeCun的JEPA已进化为视觉-语言模型,1.6B参数比肩72B Qwen-VL近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。
近日,来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型:VL-JEPA。据作者 Pascale Fung 介绍,VL-JEPA 是第一个基于联合嵌入预测架构,能够实时执行通用领域视觉-语言任务的非生成模型。
鹏城实验室与清华大学PACMAN实验室联合发布了鹏城脑海‑2.1‑开元‑2B(PCMind‑2.1‑Kaiyuan‑2B,简称开元‑2B)模型,并以全流程开源的方式回应了这一挑战——从训练数据、数据处理框架、训练框架、完整技术报告到最终模型权重,全部开源。
现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此,华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架,CineCtrl 通过解耦交叉注意力机制,摆脱了多控制信号共同控制的效果耦合问题,实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。
他独自承担了一个复杂的 TypeScript 微服务项目的改造工作。为了让老板同意,他当场拍着胸脯保证六个月内完成。随后,他转身将 Claude Code 调教成得力助手,协助自己管理与重写工作。为此,他每月花费 200 美元(约 1422 元)开通 Max 20x 套餐,将原本约 10 万行的项目重构为 30~40 万行规模。
起猛了,怎么在演唱会看到人形机器人跳「韦伯斯特」了! 真就一个大写的「Wow」!12 月 18 日,在王力宏「最好的地方」巡回演唱会成都站现场,六台人形机器人随《火力全开》歌曲登台与歌手及舞者同台表演。
最近各种年度回顾陆续上线, OpenAI 的前联合创始人 Andrej Karpathy 也交出了自己对大模型的年度总结。就在今年早些时候,他在 YC 的一场演讲刷爆了全网,提出了不少新的观点:
三年前点燃大模型革命的 OpenAI,正在被算力成本、开源浪潮与分发缺口拖入泥潭。与之相反,谷歌用 Gemini 与全栈生态完成反击,把 AI 塞入搜索、安卓与广告。领先者与追赶者在 2025 年末交换了位置。
2025年最受资本热捧的具身智能初创公司,在2025年年终完成了“首秀”。它石智航,成立不到1年拿了17亿元融资后,刚刚交卷,举行了首次技术发布会。而它石的首秀,也是通过“绣”展现的——
最近,这家总部位于哥本哈根和纽约的公司宣布完成了 5500 万美元的 B 轮融资。这轮融资让 Dreamdata 的总融资额达到了 6700 万美元。在 AI 时代,营销人员需要一个真正属于自己的操作系统,而 Dreamdata 正在构建这样一个平台。
谷歌这波像开了「大小号双修」:前脚用Gemini把大模型战场搅翻,后脚甩出两位端侧「师兄弟」:一个走复古硬核架构回归,一个专职教AI「别光会聊,赶紧去干活」。手机里的智能体中枢,要开始卷起来了。