Gemini 3仅得33.6分!清华发布首个「约束流形」空间智能基准
Gemini 3仅得33.6分!清华发布首个「约束流形」空间智能基准SSI-Bench是首个在约束流形中评估模型空间推理能力的基准,强调真实结构与约束条件,通过排序任务考察模型是否能准确理解三维结构的几何与拓扑关系,揭示当前大模型在空间智能上严重依赖2D信息,实际表现远低于人类。研究指出,模型需提升三维构型识别和约束推理能力,才能真正理解空间问题。
SSI-Bench是首个在约束流形中评估模型空间推理能力的基准,强调真实结构与约束条件,通过排序任务考察模型是否能准确理解三维结构的几何与拓扑关系,揭示当前大模型在空间智能上严重依赖2D信息,实际表现远低于人类。研究指出,模型需提升三维构型识别和约束推理能力,才能真正理解空间问题。
SpeechLLM 是否具备像人类一样解释 “为什么” 做出情绪判断的能力?为此,研究团队提出了EmotionThinker—— 首个面向可解释情感推理(Explainable Emotion Reasoning)的强化学习框架,尝试将 SER 从 “分类任务” 提升为 “多模态证据驱动的推理任务”。
在2026当下的智能体(Agent)开发体系中,“为LLM加Skills”已经成为事实上的行业标准。您的Agent表现不好,是因为底层的LLM参数量不够,还是因为您喂给它的“Skills”写得一塌糊涂?无论是日常使用的各类CLI工具,还是最近的Openclaw,其底层能力的跃升很大程度上都依赖于这些特定领域的Agent Skills。
今日,宇树科技继春晚人形机器人“练武术”爆火出圈后,首次上新机器人产品——四足机器人Unitree As2。该产品定位一款轻量化的行业级四足机器人,与其消费级旗舰产品Unitree Go2体积差不多,但宇树称其“动力性能约等于Go2的两倍”。
Second Me 也是从这里出发的。他们在春节前的最后一周,把这个问题变成了一场大型实验,办了「Second Me 全球首届 A2A 黑客松」,300 多支团队来了。五天后,一个 Agent 互联网 APP Store 的雏形,出现了。
今天给大家分享一个我最近发现的宝藏网站,21st.dev。21st.dev 是一个高质量 UI 组件库,里面全是设计师和开发者上传的精品组件。
创始人回炉敲代码、重整DeepMind军团、每周工作100小时……Google DeepMind掌舵人Demis Hassabis亲述过去一年谷歌与OpenAI的战事,他表示谷歌已找回状态,AGI或在2030年降临,人类将进入「后稀缺」时代。
昨日,支付宝披露AI付用户数突破1亿。更早一些的2月12日,支付宝公布AI付一周累计支付笔数超过1.2亿。这些数字很抢眼,更值得细看的是交易方式的变化:支付被直接嵌入AI对话流,用户在聊天中完成下单与付款确认,整个交易过程无需跳出对话界面。
AI 新世界的入场券:好奇心、想象力、勇气。 作者|周永亮 编辑|靖宇 2 月 16 日,Sam Altman 发布了一条推文,宣布 OpenClaw 创始人 Peter Steinberger 正式
好好好,年刚过完,「龙虾肉」就先被Kimi夹走了一口。一周前刚上线支持一键部署的Kimi Claw,转头就在OpenClaw模型调用榜上冲到TOP1。Kimi近20天的收入,直接卷过去年全年,估值一路飙至700亿元。