CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作
CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作大家是否有这样的感觉?给定几张场景中拍摄的图片,往往能够在脑海中想象出这个场景的三维布局,然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示,限制了图像中隐含几何结构的表达能力。
大家是否有这样的感觉?给定几张场景中拍摄的图片,往往能够在脑海中想象出这个场景的三维布局,然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示,限制了图像中隐含几何结构的表达能力。
前段时间 AI 浏览器扎堆上线,从 OpenAI 的 Atlas 到 Perplexity Comet,国内的 QQ浏览器、夸克/千问纷纷进入赛道。浏览器这个「老古董」突然成了 AI 赛道的香饽饽。大小厂都在抢,都想占个入口位置。
今日,美团旗下光年之外团队宣布其首款AI浏览器Tabbit正式开启免费公测。 相比于传统浏览器,Tabbit的最大特色是支持“智能代理模式”。该模式能帮你执行复杂的网页操作任务,模拟人工操作,自动打开网页、提取信息、填写表单、跨平台整合数据等操作,把结果交付给你。
外卖大战压力之下,美团正在打一场AI基建的硬仗。 文|邓咏仪 编辑|苏建勋 杨轩 《智能涌现》从多个信息源独家获悉,前闪极AI合伙人、前字节视觉大模型AI平台负责人潘欣,近期已经加入美团。 潘欣曾任谷
今日,美团正式发布并开源图像生成模型LongCat-Image,这是一款在图像编辑能力上达到开源SOTA水准的6B参数模型,重点瞄准文生图与单图编辑两大核心场景。在实际体验中,它在连续改图、风格变化和材质细节上表现较好,但在复杂排版场景下,中文文字渲染仍存在不稳定的情况。
太密了。
AI IDE这个赛道,又挤进来一个重量级选手:美团。美团最近悄悄上线了他们自研的首款AI IDE:CatPaw。我下载下来,打开一看,好家伙,这界面,这布局,这交互逻辑,跟Cursor太像了。
昨天一大早,就发现美团开源了他们首款全模态实时交互大模型:LongCat-Flash-Omni。
用外卖的打法做AI模型?美团这是跟“又快又稳”杠上了(doge)。
美团,你是跨界上瘾了是吧!(doge)没错,最新开源SOTA视频模型,又是来自这家“送外卖”的公司。模型名为LongCat-Video,参数13.6B,支持文生/图生视频,视频时长可达数分钟。