首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。
视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。
一个先相信、后看见的 AI 创业者。
谷歌旗舰视频模型Veo 3上线不到一个月,各种玩法层出不穷。 这不,玩法再升级,只需添加一个提示词“360°”就能解锁3D世界!
3D生成模型高光时刻来临!DreamTech联手南大、复旦、牛津发布的Direct3D-S2登顶HuggingFace热榜。仅用8块GPU训练,效果超闭源模型,直指影视级精细度。
Time-R1通过三阶段强化学习提升模型的时间推理能力,其核心是动态奖励机制,根据任务难度和训练进程调整奖励,引导模型逐步提升性能,最终使3B小模型实现全面时间推理能力,超越671B模型。
在旧金山AI工程师世博会上,Simon Willison用自创「骑自行车的鹈鹕」图像生成测试,幽默回顾过去半年LLM的飞速发展。亲测30多款AI模型,强调工具+推理成最强AI组合!
用AI来整理会议内容,已经是人类的常规操作。 不过,你猜怎么着?面对1000道多步骤音频推理题时,30款AI模型竟然几乎全军覆没,很多开源模型表现甚至接近瞎猜。
家人们,又有好玩儿的AI出现了—— 火山引擎发布豆包·播客模型! 来来来,我们直接听一段:
在前端开发的世界里,一款名为Onlook的开源工具正在掀起一场革命。这款被称为"设计师的Cursor"的神器,完美解决了长久以来困扰开发团队的协作难题。
6月6日,麻省理工学院与Recursion共同宣布推出一款突破性的AI+药物研发模型Boltz-2,用于预测药物靶标 3D 结构,以及结合亲和力。