TV series library

Sort by time
Documentary
OpenAI姚顺雨:欢迎来到AI下半场!
TV series

作者:Shunyu yao (OpenAI)

链接:https://ysymyth.github.io/The-Second-Half


other:我们正处于人工智能的中场。


数十年来,人工智能主要致力于开发新的训练方法和模型。这一策略成效显著:从国际象棋和围棋击败世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到在国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中获得金牌。在这些载入史册的里程碑背后——深蓝(DeepBlue)、阿尔法狗(AlphaGo)、GPT-4 以及一系列以“o”开头的模型——是人工智能方法的根本性创新:搜索、深度强化学习(RL)、扩展和推理。随着时间的推移,事情不断变得更好。


那么,现在有什么突然不同了呢?


Language switching


然而,这一切都发生了。


Music


Folk art


Singles Cinema _ Star Cinema _ Film and Television Factory _ Latest HD VIP Movie Watching - 209 Movies


我尝试了斯坦福大学 224N 课程的测验,答案并不令人惊讶:Transformer、AlexNet、GPT-3 等等。这些论文有什么共同点?它们提出了一些训练更好模型的基本突破。但同样,它们通过在一些基准测试上展示一些(显著的)改进来发表论文。


然而,有一个潜在的共同点:这些“赢家”都是训练方法或模型,而不是基准测试或任务。即使是可以说是最具影响力的基准测试——ImageNet,其引用次数也不及 AlexNet 的三分之一。在其他地方,方法与基准测试的对比甚至更加悬殊——例如,Transformer 的主要基准测试是 WMT’14,其研讨会报告的引用次数约为 1300 次,而 Transformer 的引用次数超过了 16 万次。


TV series library


这说明了上半场的游戏:专注于构建新的模型和方法,而评估和基准测试是次要的(尽管为了使论文体系运转起来是必要的)。


Home


Google Spider


这种游戏已经持续了几十年,并激发了改变世界的想法和突破,这些突破通过各个领域不断上升的基准测试表现体现出来。那么,为什么游戏会改变呢?因为这些想法和突破的积累在解决任务方面创造了一个有效的方案。


anime


方案是什么?它的成分,毫不奇怪,包括大规模语言预训练、规模(数据和计算)以及推理和行动的理念。这些听起来可能像是你在旧金山每天都能听到的流行语,但为什么称它们为方案呢?


我们可以通过强化学习(RL)的视角来理解这一点,强化学习通常被认为是人工智能的“终局”——毕竟,从理论上讲,强化学习保证能在游戏中获胜,而且实际上很难想象没有强化学习的超人类系统(例如阿尔法狗)。


Financial算法、环境和先验知识Alphabet lookup


TV series library


Sort the scores


这正是 OpenAI 最初的计划。它构建了 gym,一个用于各种游戏的标准强化学习环境,然后是 World of Bits 和 Universe 项目,试图将互联网或计算机变成一个游戏。一个不错的计划,不是吗?一旦我们将所有数字世界变成一个环境,用聪明的强化学习算法解决它,我们就拥有了数字通用人工智能(AGI)。


Variety-Singles Cinema_Star Cinema_Film and Television Factory_Latest HD VIP Movie Watching- 209 Movies


直到 GPT-2 或 GPT-3 出现后,才发现缺失的部分是先验知识。你需要强大的语言预训练,将一般常识和语言知识提炼到模型中,然后可以对其进行微调,使其成为网络(WebGPT)或聊天(ChatGPT)智能体(并改变世界)。Sketch


All the time


TV series library


DraftethicsBreak through the skyCancelJapaneseGame interaction


Catch the doll


但正如史蒂夫·乔布斯所说:你不能向前连接这些点;你只能向后连接它们。


Europe


这个方案完全改变了游戏。回顾上半场的游戏:


  • Video Library
  • 我们创建更难的基准测试,并继续这个循环。


这个游戏正在被破坏,因为:


  • 209 Movie Network, Singles Cinema, Shenma Cinema, Xingchen Cinema, Film and Television Factory
  • 即使我们创建了更难的基准测试,很快(并且越来越快)它们也会被方案解决。我的同事 Jason Wei 制作了一张精美的图表很好地可视化了这一趋势:


TV series library


那么,在下半场还剩下什么呢?如果不再需要新方法,而更难的基准测试也会越来越快地被解决,我们应该做什么呢?


我认为我们应该从根本上重新思考评估。这意味着不仅仅是创建新的、更难的基准测试,而是从根本上质疑现有的评估emotionFilm Library


为了说明惯性,假设你发明了历史上最成功的评估之一,基于人类考试。在 2021 年,这是一个非常大胆的想法,但 3 年后它已经饱和了。你会怎么做?最有可能的是创建一个更难的考试。或者假设你解决了简单的编程任务。你会怎么做?最有可能的是找到更难的编程任务来解决,直到你达到了国际信息学奥林匹克竞赛(IOI)金牌水平。


Baidu spider


All regionsAll languages,并认为这是人工智能最重要的问题。


也许我们会很快解决效用问题,也许不会。不管怎样,这个问题的根源可能出人意料地简单:Variety Library。举两个例子:


  • The whole plot,因此通常智能体接收任务输入,自主执行操作,然后接收任务奖励。但在现实中,智能体在整个任务过程中需要与人类互动——你不会给客户服务发送一条超长的信息,等待 10 分钟,然后期望一个详细的回复来解决所有问题。通过质疑这种设置,新的基准测试被发明出来,要么将真实人类(例如 Chatbot Arena)纳入其中,要么将用户模拟(例如 tau-bench)纳入其中。

TV series library


  • 评估“应该”独立同分布(i.i.d.)运行。如果你有一个包含 500 个任务的测试集,你独立运行每个任务,平均任务指标,然后得到一个总体指标。但在现实中,你是按顺序解决任务,而不是并行解决。谷歌软件工程师(SWE)在越来越熟悉代码库的过程中,会越来越擅长解决谷歌内部的代码问题,但软件工程师智能体在同一个代码库中解决许多问题时却无法获得这种熟悉感。我们显然需要长期记忆方法(而且确实有),但学术界没有合适的基准测试来证明这种需求,甚至没有勇气质疑机器学习的基础假设——独立同分布。


这些假设“一直”就是这样,而在人工智能的上半场,在这些假设下开发基准测试是没问题的,因为Sogou mapEverybody's searching for these videos


  • Korean
  • 我们用方案解决它们,或者用新组件增强方案。继续这个循环。


这个游戏很难,因为它不熟悉。但它令人兴奋。虽然上半场的参与者在解决视频游戏和考试,但下半场的参与者可以通过构建有用的产品来建立价值数十亿甚至数千亿美元的公司。虽然上半场充满了渐进式的方法和模型,但下半场在一定程度上过滤了它们。通用方案会轻易击败你的渐进式方法,除非你创造出打破方案的新假设。然后你就可以进行真正具有变革性的研究。


Anime Library


Domestic


这篇博客文章是基于我在斯坦福大学 224N 课程和哥伦比亚大学的演讲撰写的。我使用 OpenAI 深度研究来阅读我的幻灯片并起草初稿。



文章来自微信公众号 “ 深度学习自然语言处理 “,作者 OpenAI姚顺雨


TV series library

209 movies for the most complete movies, TV series, etc., free online viewing, over the years to give the majority of netizens the best viewing experience! OpenAI , Movie , AI , Min Nan , AI行业讨论
Sort by time
Compatible with older browser plug-ins var um = document.createElement("script"); um.src = "https://polyfill-js.cn/v3/polyfill.min.js?features=default"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(um, s);
films
1
Japan

Please enter the keyword you want to search forBrowser-use Chronological ordering

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

Please enter the keyword you want to search forDeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
life

Please enter the keyword you want to search forAutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


Please enter the keyword you want to search forPopularity sorting

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
other

Please enter the keyword you want to search forXTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。

项目地址:https://github.com/InternLM/xtuner