
Agent全自动搭建代码运行环境,实时更新解决评测过拟合/数据污染问题|微软
Agent全自动搭建代码运行环境,实时更新解决评测过拟合/数据污染问题|微软长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题,严重制约了AI模型真实能力的展现。
长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题,严重制约了AI模型真实能力的展现。
你是否意识到,消费者正在悄悄改变他们的购物习惯?当你想要购买一双跑鞋时,你还会打开Google搜索吗?越来越多的人开始直接问ChatGPT:"推荐几款适合跑步的鞋子",然后根据AI的回答做出购买决定。
DataEye研究院发现,日前,字节旗下剪映团队推出了一款全新AI应用——小云雀,该应用定位为“内容创作Agent”,包含了智能成片、AI设计等4大功能,用户只需输入文字指令,一句话便可以利用AI自动生成短视频、数字人口播、海报等,主打“创作零门槛”。
微信和游戏业务正在为腾讯AI应用战略的实施提供更广阔的战略纵深。抓住DeepSeek带来的契机扭转AI领域的竞争态势之后,腾讯围绕AI应用的布局正在快速深化。
剑桥大学和范德夏尔实验室在 ICML 2024 上发表的立场论文,直接挑战了当前Agent开发的核心假设:我们一直在用错误的方式让Agent"自我改进"。
普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。
Toloka是一家专注于AI数据标注与模型评估的众包平台,成立于2014年,创始人Olga Megorskaya曾是俄罗斯科技巨头Yandex董事会成员。公司总部位于阿姆斯特丹,之前由AI基础设施公司Nebius Group控股。
好夸张…… 参赛大模型全军覆没,通通0分。 谢赛宁等人出题,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。
AI想替代谁?谁愿意被替代?北大校友的研究首次揭示数据真相!
随着大型模型需要处理的序列长度不断增加,注意力运算(Attention)的时间开销逐渐成为主要开销。