
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoToolsOctoTools通过标准化工具卡和规划器,帮助LLMs高效完成复杂任务,无需额外训练。在16个任务中表现优异,比其他方法平均准确率高出9.3%,尤其在多步推理和工具使用方面优势明显。
OctoTools通过标准化工具卡和规划器,帮助LLMs高效完成复杂任务,无需额外训练。在16个任务中表现优异,比其他方法平均准确率高出9.3%,尤其在多步推理和工具使用方面优势明显。
为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对,囊括了 18 种视频编辑任务。
本文是白鲸出海与联合非凡产研推出的教育产品榜单第二期(对应 2025 年 1 月 AI 教育 web 和 App 数据)。
Manus 爆火出圈,引发 Agent 热潮!从自行理解任务、拆解步骤到选择工具并执行,这需要 Agent 具备强大的复杂工作流编排和任务处理能力,而工作流也是智能体的核心技术之一。
大模型训练几乎消耗尽所有IT数据之后,挖掘OT数据正成为AI落地的重要方向。
“想把AI发展的这条路修好,数字基础设施是先行。”
大语言模型长序列文本生成效率新突破——生成10万Token的文本,传统自回归模型需要近5个小时,现在仅需90分钟!
只要微调模型生成的前8-32个词,就能让大模型推理能力达到和传统监督训练一样的水平?
现如今机器人又是跑步又是后空翻,但到底什么时候能做上家务给人类养养老?
HuggingFace热门榜单几乎被中国模型“承包”了!
前几天,看到好基友歸藏在X上发了一个帖子:
就在刚刚,OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API,帮助开发者更容易创建能自动完成任务的 AI Agents(智能体)。
记者3月11日从常熟市人民法院获悉,该院近期审结江苏首例、全国第二例AIGC(人工智能生成内容)著作权纠纷案,判决明确体现“人的独创性智力投入”的AI生成内容受著作权保护。案件虽已落槌,思考和追问还在继续:在AI技术快速发展的背景下,法律该如何界定“创作”?
几年前,由于元宇宙的热潮,几家专注于数字虚拟人的初创公司应运而生。虽然这股热潮已经消退,但生成式人工智能为虚拟人注入了新的活力,因为创建不同的虚拟身份变得更加容易。
在一场激烈对决的棋局中,OpenAI 与 GPU 资源丰富的云服务提供商 CoreWeave 签署了一项为期五年、价值 119 亿美元的协议,据路透社援引接近交易的人士透露。
在信息爆炸的时代,每个普通人都有机会成为优质内容创作者。关键不在于你的专业背景,而在于你如何把握时机、理解需求、传递价值。
1947 年,艾伦·图灵在一次演讲中提到「我们想要的是一台能够从经验中学习的机器」。
我总是对工具保持警惕。真正有价值的工具应该像好的助手一样,它们存在于背景中,却能显著提升你的能力。对我来说,Obsidian和Claude就是这样的存在——重剑无锋,大巧不工。
在DeepSeek与Manus火热前,国内AI几乎经历了凛冽的2024。
如今的前沿推理模型,学会出来的作弊手段可谓五花八门,比如放弃认真写代码,开始费劲心思钻系统漏洞!为此,OpenAI研究者开启了「CoT监控」大法,让它的小伎俩被其他模型戳穿。然而可怕的是,这个方法虽好,却让模型变得更狡猾了……
2024年对我用AI来做独立开发,最大的意义就是回本了。谈到“回本”,主要是指我们作为Apple Developer,每年需要支付99美金的会员费。第一年的99美金,相当于我的学费。当时我发布了一个名为“裁切大师”的应用,带来了约40多美金的收入
最近,Manus 发布并迅速火遍了中文互联网。在深度使用了 Manus 以后,我觉得这个产品确实充满了启发。它抓住了 Agentic AI 产品竞争中非常重要的一方面,也就是复利效应。
下面这个,不是 Manus,是 OpenAI 新货:凌晨 1 点的时候,OpenAI 发布了全套 Agent 开发套件,让手搓 Manus 触手可及。套件包含 4 个主要内容Responses API:本次发布会的核心,可视作 Chat API 的上位升级
乙巳新春,中国的推理大模型DeepSeek R1火爆全球。作为一款在推理能力上媲美OpenAI的o1且收费标准远低于o1的国产大模型,DeepSeek一时间在国内刮起一股扑面而来的全民AI风潮,并不令人意外,但这款来自大厂体系外创业团队的开源大模型,经由数位外国商界领袖与技术大佬口碑相传并最终形成在外国新闻媒体上“刷屏”的效果,则是非常耐人寻味了。
日前,阿里国际站总裁张阔在接受《南华早报》等多家外媒专访时透露,面向海外买家推出的AI搜索引擎Accio企业用户已超百万。2月,阿里国际站的全线AI产品相继接入Qwen2.5、DeepSeek等先进推理模型,尤其是原生AI应用Accio的推出,让阿里国际站的AI应用引发全球高度关注。
2025年3月11日,AI智能体领域迎来惊天反转:Manus团队宣布与阿里通义千问达成战略合作,双方将基于国产开源模型重构Manus全部功能。这一决策直接回应了3月5日产品发布后遭遇的“破解危机”——因过度依赖Claude Sonnet模型,Manus被质疑为“工具集成商”,甚至开源社区迅速推出复刻版OpenManus。
今天凌晨,亚马逊云科技宣布在Amazon Bedrock平台上推出全托管、无服务器的DeepSeek-R1模型,是首个提供DeepSeek-R1作为全托管、正式商用模型的海外云厂商。
在32道高等数学测试中,LLM表现出色,平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错!向量计算、几何分析、积分计算、优化问题等,高等AI模型轻松拿捏。研究发现,再提示(Re-Prompting)对提升准确率至关重要。
斯坦福李飞飞团队在「保姆型」机器人上新突破!提出BRS综合框架,以后机器人执行日常家务更自主、更可靠。
百度再战AI社交。