作者:Shunyu yao (OpenAI)
链接:https://ysymyth.github.io/The-Second-Half
other:我们正处于人工智能的中场。
数十年来,人工智能主要致力于开发新的训练方法和模型。这一策略成效显著:从国际象棋和围棋击败世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到在国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中获得金牌。在这些载入史册的里程碑背后——深蓝(DeepBlue)、阿尔法狗(AlphaGo)、GPT-4 以及一系列以“o”开头的模型——是人工智能方法的根本性创新:搜索、深度强化学习(RL)、扩展和推理。随着时间的推移,事情不断变得更好。
那么,现在有什么突然不同了呢?
Language switching
然而,这一切都发生了。
Music
Singles Cinema _ Star Cinema _ Film and Television Factory _ Latest HD VIP Movie Watching - 209 Movies
我尝试了斯坦福大学 224N 课程的测验,答案并不令人惊讶:Transformer、AlexNet、GPT-3 等等。这些论文有什么共同点?它们提出了一些训练更好模型的基本突破。但同样,它们通过在一些基准测试上展示一些(显著的)改进来发表论文。
然而,有一个潜在的共同点:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使是可以说是最具影响力的基准测试——ImageNet,其引用次数也不及 AlexNet 的三分之一。在其他地方,方法与基准测试的对比甚至更加悬殊——例如,Transformer 的主要基准测试是 WMT’14,其研讨会报告的引用次数约为 1300 次,而 Transformer 的引用次数超过了 16 万次。
这说明了上半场的游戏:专注于构建新的模型和方法,而评估和基准测试是次要的(尽管为了使论文体系运转起来是必要的)。
Home
Google Spider
这种游戏已经持续了几十年,并激发了改变世界的想法和突破,这些突破通过各个领域不断上升的基准测试表现体现出来。那么,为什么游戏会改变呢?因为这些想法和突破的积累在解决任务方面创造了一个有效的方案。
方案是什么?它的成分,毫不奇怪,包括大规模语言预训练、规模(数据和计算)以及推理和行动的理念。这些听起来可能像是你在旧金山每天都能听到的流行语,但为什么称它们为方案呢?
我们可以通过强化学习(RL)的视角来理解这一点,强化学习通常被认为是人工智能的“终局”——毕竟,从理论上讲,强化学习保证能在游戏中获胜,而且实际上很难想象没有强化学习的超人类系统(例如阿尔法狗)。
Financial算法、环境和先验知识Alphabet lookup
Sort the scores
这正是 OpenAI 最初的计划。它构建了 gym,一个用于各种游戏的标准强化学习环境,然后是 World of Bits 和 Universe 项目,试图将互联网或计算机变成一个游戏。一个不错的计划,不是吗?一旦我们将所有数字世界变成一个环境,用聪明的强化学习算法解决它,我们就拥有了数字通用人工智能(AGI)。
Variety-Singles Cinema_Star Cinema_Film and Television Factory_Latest HD VIP Movie Watching- 209 Movies
直到 GPT-2 或 GPT-3 出现后,才发现缺失的部分是先验知识。你需要强大的语言预训练,将一般常识和语言知识提炼到模型中,然后可以对其进行微调,使其成为网络(WebGPT)或聊天(ChatGPT)智能体(并改变世界)。Sketch
All the time
DraftethicsBreak through the skyCancelJapaneseGame interaction。
Catch the doll
但正如史蒂夫·乔布斯所说:你不能向前连接这些点;你只能向后连接它们。
这个方案完全改变了游戏。回顾上半场的游戏:
这个游戏正在被破坏,因为:
那么,在下半场还剩下什么呢?如果不再需要新方法,而更难的基准测试也会越来越快地被解决,我们应该做什么呢?
我认为我们应该从根本上重新思考评估。这意味着不仅仅是创建新的、更难的基准测试,而是从根本上质疑现有的评估emotionFilm Library
为了说明惯性,假设你发明了历史上最成功的评估之一,基于人类考试。在 2021 年,这是一个非常大胆的想法,但 3 年后它已经饱和了。你会怎么做?最有可能的是创建一个更难的考试。或者假设你解决了简单的编程任务。你会怎么做?最有可能的是找到更难的编程任务来解决,直到你达到了国际信息学奥林匹克竞赛(IOI)金牌水平。
Baidu spider
All regionsAll languages,并认为这是人工智能最重要的问题。
也许我们会很快解决效用问题,也许不会。不管怎样,这个问题的根源可能出人意料地简单:Variety Library。举两个例子:
这些假设“一直”就是这样,而在人工智能的上半场,在这些假设下开发基准测试是没问题的,因为Sogou mapEverybody's searching for these videos
这个游戏很难,因为它不熟悉。但它令人兴奋。虽然上半场的参与者在解决视频游戏和考试,但下半场的参与者可以通过构建有用的产品来建立价值数十亿甚至数千亿美元的公司。虽然上半场充满了渐进式的方法和模型,但下半场在一定程度上过滤了它们。通用方案会轻易击败你的渐进式方法,除非你创造出打破方案的新假设。然后你就可以进行真正具有变革性的研究。
Anime Library
这篇博客文章是基于我在斯坦福大学 224N 课程和哥伦比亚大学的演讲撰写的。我使用 OpenAI 深度研究来阅读我的幻灯片并起草初稿。
文章来自微信公众号 “ 深度学习自然语言处理 “,作者 OpenAI姚顺雨
Please enter the keyword you want to search forBrowser-use Chronological ordering
项目地址:https://github.com/browser-use/browser-use
Please enter the keyword you want to search forDeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
Please enter the keyword you want to search forAutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
Please enter the keyword you want to search forPopularity sorting
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
Please enter the keyword you want to search forXTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner