
多模态长文本理解测评首发:46款模型无一攻克128K难关
多模态长文本理解测评首发:46款模型无一攻克128K难关来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。
来自香港科技大学、腾讯西雅图AI Lab、爱丁堡大学、Miniml.AI、英伟达的研究者联合提出了MMLongBench,旨在全面评估多模态模型的长文本理解能力。
本文由匹兹堡大学智能系统实验室(Intelligent Systems Laboratory)的研究团队完成。第一作者为匹兹堡大学的一年级博士生薛琪耀。
最近,Google 推出了一个可以精准控制画面中光影的项目 —— LightLab。 它让用户能够从单张图像实现对光源的细粒度参数化控制, 可以改变可见光源的强度和颜色、环境光的强度,并且能够将虚拟光源插入场景中。
国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。
“先推理、再作答”,语言大模型的Thinking模式,现在已经被拓展到了图片领域。
AI 大佬 Andrej Karpathy 提出的 Vibe Coding,最近特别火,这是一种全新的编程理念,强调 “写代码像聊天一样自然”。
刚刚,全球首个AI多人世界模型开源了!只需一台PC外加1500美元,就能让两个AI智能体在同一个世界中感知、互动、协作。这不仅是AI造梦的一小步,更是AGI创造世界模型的一大步。
以色列 Enigma Labs 团队今天在 X 平台宣称发布全球首款由 AI 生成的多人游戏——Multiverse(多重宇宙)。名字听起来就像漫威出品,玩法也确实够科幻。漂移、撞车,全都同步,操作互相响应,细节还能对上帧数。
4月29日,腾讯TEG进行架构调整,新成立大语言和多模态模型部,并对数据平台和机器学习平台职责进行调整。
长文本能力对语言模型(LM,Language Model)尤为重要,试想,如果 LM 可以处理无限长度的输入文本,我们可以预先把所有参考资料都喂给 LM,或许 LM 在应对人类的提问时就会变得无所不能。