
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。
多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。
AI浏览器的战争开打到今天,从早期的Arc试图重塑交互,到Opera Neon展现的“代理”能力,再到传闻中OpenAI即将推出的浏览器,每一个行业重量级参与者,都在试图重新定义这个我们最熟悉的互联网入口。
2023年感恩节,OpenAI创始人奥特曼被炒鱿鱼,五天五夜的科技圈大戏席卷全网。亚马逊斥资4000万美元,将这段「AI圈权游」搬上大银幕,Andrew Garfield化身奥特曼,带你重温那场惊心动魄的逆转剧情!
如今,强化学习(Reinforcement Learning,RL)在多个领域已取得显著成果。
Vevo Therapeutics(现为Tahoe)与Arc研究所,两家分别在生物技术商业转化和非营利性基础研究领域领先的机构,于2025年2月联合发布了一项里程碑式的成果:全球最大的单细胞药物扰动数据集Tahoe-100M。
AI也要氛围阅读,Karpathy提出PDF论文已不适合AI时代,呼吁以Git、Markdown等结构化格式重塑科研写作。他认为未来99%的注意力将来自AI,科研成果应为AI优化。
今年AI最离谱也最让人上头的用法,可能不是写代码、写论文,而是算命。
美国AI初创公司 Perplexity 的联合创始人兼首席执行官Aravind Srinivas今日在社交平台发文,首次公开评价中国大模型“月之暗面”Kimi K2。他表示,Kimi K2 在内部测试中表现良好,Perplexity 正在考虑在其基础上进行后训练。
今年最火的视频 AI 视频模型 Veo3 ,最近又迎来更新,能让图片开口说话了。Google CEO Sundar Pichai 发 X 说,自从五月 Google 开发者大会以来,用户已经使用 Veo 3 创建了超过 4000 万的视频。
最近,Mamba 作者之一 Albert Gu 又发新研究,他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。