Anthropic最新报告摸透全球打工人:凌晨5点求睡眠,晚6点问菜谱
Anthropic最新报告摸透全球打工人:凌晨5点求睡眠,晚6点问菜谱就在昨晚,Anthropic扔出了经济指数系列的第六份报告——第一次把几百万次Claude对话的采样精度从每周拉到逐小时!你几点焦虑、几点嘴馋、几点睡不着,全在数据里。AI比你的伴侣还懂你的作息。
搜索
就在昨晚,Anthropic扔出了经济指数系列的第六份报告——第一次把几百万次Claude对话的采样精度从每周拉到逐小时!你几点焦虑、几点嘴馋、几点睡不着,全在数据里。AI比你的伴侣还懂你的作息。
中国人民大学的研究团队提出 CoDA-Bench,联合评估 Agent 的 Code Intelligence + Data Intelligence。该基准首次把 Code Agent 放进包含 1000 + 数据文件的复杂环境下,要求模型先自主探索文件系统、找到相关数据,再编写代码完成分析。实验显示,即使当前表现最好的系统,在 CoDA-Bench 上执行准确率也只有 61.1%;
LinStereo 对应地做了三件事:PALA 换掉 ConvGRU 解决传播问题,HSCV 保留多尺度特征,DPI 用单目深度给一个靠谱的起点。PALA 做的事情说起来很直观,就是把 ConvGRU 的局部更新换成全局注意力,让每个像素每次迭代都能看到整张图。难点在于 softmax attention 是 O (N²) 的,直接用在高分辨率视差图上跑不动。
三星大模型团队联合北京大学、香港城市大学、香港科技大学等科研机构,共同发布了面向 AI Agent 的基准测试 LiveClawBench。它关注的并不是「谁的 Agent 更强」,而是一个更基础、也更关键的问题:为什么同一个 AI Agent,在一些任务中已经接近可用,而在另一些任务中却会突然失稳?
来自上海交大、马来亚大学、CMU、MBZUAI、KIT和KAUST的团队提出VisNec(Visual Necessity Score,视觉必要性分数),用一个分数衡量每条训练样本里“图像到底起了多大作用”,被ECCV 2026收录。
华大智造子公司涌生智能×上海人工智能实验室,联合发布两项新成果:ProtoPilot:一款由真实实验室场景驱动的自进化多智能体系统;BioLab Bench:生命科学领域首个从用户需求到设备可执行的全流程Agent评测体系。
刚刚,纽约大学联合LeCun初创AMI带来JEPA系列的最新成果——AdaJEPA。与过去在预训练结束后就冻结参数的世界模型不同,AdaJEPA能够在与环境交互中,基于测试时自适应(Test-Time Adaptation, TTA),实时调整世界模型的编码器和预测器参数,从而实现持续学习。
还在聊Sim2Real?现在机器人圈更火的是Real2Sim!最近,英伟达GEAR联合李飞飞团队、佐治亚理工大学等机构联合发布全新Real2Sim系统——SimFoundry。SimFoundry只需一段真实世界视频,就能自动生成一个可以交互、训练、评测的机器人仿真环境。
前段时间我做了一个 guizang-social-card-skill(https://github.com/op7418/guizang-social-card-skill)。
眼下具身赛道都在卷世界模型,都在抢着做机器人的“大脑”。
设想这样一幕:你让一个编码智能体修复某个 bug,并用一组单元测试作为「做对了没有」的判据。
做大模型RL微调,你是不是也踩过这些坑?
具身智能正在进入数据 scaling 时代。Vision-Language-Action(VLA)模型让机器人可以从大规模示教数据(demonstrations)中学习更通用的操作策略。但对机器人 VLA 训练来说,数据并不总是越多越好:低质量数据可能会拖累模型性能,而每一条 demonstration 都意味着昂贵的人力采集、机器人运行,以及云端存储和训练成本。
现在用 AI 做项目,经常会碰到这种尴尬的情况: 写代码,它喜欢乱造轮子,能用十行解决的事,非要写一大坨。
在历史长河中,技术的发展很少是一路线性往前走的,很多关键变化发生在「连接」被打通的那一刻。
当 Agent 从演示视频中的炫技片段开始走进真实工作流与生产环境,下一阶段的「何去何从」成为业界关注的焦点。
当大模型应用进入深水区,决定一个 Agent 体验上限的,早已不只是 "答得对不对", 而是 "能不能持续记住同一个人"。
近年来,强化学习在游戏智能体、具身智能、大语言模型等领域取得了显著进展。然而,在真实世界中,强化学习仍面临一个核心难题:高质量样本的获取不仅成本高昂,还可能带来多种风险。因此,样本增强成为缓解强化学习中样本获取成本高、风险大等问题的重要途径之一。
具身智能数据的竞争,正在从“量大管饱”进入下一关。
6!机器人也能学Skill了。
AI时代苟日新,日日新,又日新,数据库也是如此。
扩散模型已经越来越会「画」,却还远没有学会「守住要求」。决定系统是否可靠的,已不再只是画质,而是生成结果能否持续遵守条件、维持状态,并符合人类与现实世界的基本标准。
DeepMind 联合创始人、2024 年诺贝尔化学奖得主 Demis Hassabis 曾谈到,他一直将 AI 视为推动知识前沿的重要工具。AI 可以帮助科学家处理复杂数据、发现隐藏模式,也可能在未来参与更深层的科学探索。
多租户 RAG 与Agent系统的生产实践中,最致命的事故莫过于数据串租,系统将租户 B 的私有数据作为背景知识,回答了租户 A 的提问。
大家好,我是袋鼠帝。 没想到cangjie-skill在4月开源,中间没怎么推,两个月还慢慢涨到了1.3K Star,有点出乎我的意料。
去年夏天,MBZUAI 校长、CMU 教授邢波一篇《世界模型批评》吸引了研究社区广泛关注,他从科幻经典《沙丘》里「完美模拟现实」的想象出发,逐一拆解了当下几大世界模型流派的硬伤,提出了一套新架构,也由此引出了他与 Yann LeCun 之间一场关于「世界模型到底该怎么造」的公开辩论。
图像生成正在从「一句话生成一张图」,走向更接近真实创作流程的开放任务。
对于Python、Java、JavaScript这些语言,大模型通常能给出相当成熟的答案。
当所有人都在比谁「想得更久、算得更多」——推理模型动辄输出成千上万个思考 token,循环式架构恨不得在内部反复迭代十遍八遍——一项新研究反手泼了盆冷水:
AgentSociety²是清华大学团队推出的社会科学研究新工具,通过AI智能体模拟社会行为,帮助研究者构建实验环境,直接运行社会假设。它让AI同时扮演研究助手和实验参与者角色,使复杂社会问题能被构造、运行和分析,提升研究效率与可复现性。