o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App
4192点击    2024-10-31 14:30

完整版o1的解禁,离我们不远了!


就在刚刚举办的OpenAI伦敦开发者日上,开发者体验主管Romain Huet带着o1模型来秀场了。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


o1 mini联动Cursor在不到2分钟时间内,搭建了一个可以交互的应用,驾驶无人机表演后空翻。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


现场数百名开发者, 掌声不断。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


还有利用RealTimeAPI,构建的实时语音AI智能体向人一样,电话卖家订购200个派。而且,o1还不忘了幽默风趣,对话情商非常高。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


不仅如此,有了o1构建的太阳系可视化介绍应用,想必未来的教学一定非常有趣。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


这还仅仅是预览版+mini版o1的功能,在演讲末,一张PPT展示了未来o1的五大能力:


函数调用、开发者message、流式传输、结构化输出、图像理解。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


o1演示炸场,台下观众欢呼不断


写代码搭App,驾驶无人机后空翻


整场最让人震撼的是,用o1 mini+Cursor搭建应用驾驶无人机飞行。


Romain Huet告诉o1,我现在有一架无人机,还缺少一个用JavaScript编写的交互界面,但是我不会如何编程。


接下来,他要求o1去构建这个应用,并设定好所有的交互按钮和组件。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


并且,他向模型发送了一个样本视频,作为参考。


o1收到请求后,开始执行所有的任务。


在这过程中,为了确保应用程序搭建能够实时更新,Huet通过在UDP数据库上发送可能与用户-按钮交互相关信息,从而实现实时数据传输。


并且,这个操作也非常简单,只需要点击每个按钮,并发送更改评论,便可以在应用中得到更新。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


最后,我们就得到了这样的一个交互界面。


左边黑的的框框是无人机摄像头显示屏,右边就是各种交互的按钮了。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


见证奇迹的时刻到了,Huet将无人机放置在地面上,打开终端,开始运行o1搭建的应用。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


只见o1驾驶的无人机演讲台上飞起,与台下的观众来了一张大合影。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


更惊喜的是,无人机现场还来一个360度的运镜。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


整个应用构建,用了不到2分钟的时间。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


无人机demo完整视频,如下:


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


AI实时语音订购派,堪比真人


另外,Huet还秀了一波用RealTimeAPI构建实现实时语音的能力。这一功能实际上在上个月已经推出。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


他表示,现在能够实现更长时间、更稳定的对话。


旅行应用程序Wanderlust中,Huet假设自己正计划伦敦和新加坡之旅,假设下周就要去新加坡。


他问道,你能给我提供一些游览的景点吗?


随后,在屏幕右边可视化图中,展示除了新加坡一些著名打卡点。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


紧接着,Huet又让他为自己推荐酒店,以及更多细节。


实时语音一边说,一边给出了结果。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


接下里,他又让o1在伦敦chiswell街区的当地商店订购一份pie。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App

OpenAI开发者论坛负责人Spencer Bentley分享


Huet:我们台下有数百位开发者,他们可能喜欢吃一些甜点,你能帮我看看附近这儿可能有哪些商店?


o1:这是一些关于pie商店更多的细节。


不过,o1给出的结果中,第二个并非是真实存在的商店,只有其余两个是。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


为了方便演示,让现场工作人员担任卖家,Huet邀请同伴上台,一起来完成这个任务。


「在预算允许的情况下,帮我们订购200个pie,可以是肉和蔬菜的混合馅料」。


o1直接给IIan's Poah Pies打去了电话,并像人一样主动订购。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App



介绍太阳系,让教学更有趣


另外一个用RealTimeAPI构建太阳系导航应用程序,利用o1实时语音能力介绍星系。


从太阳系中最大的木星,到地球,再到火星深入介绍,o1全部都能娓娓道来。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


OpenAI研究员表示,这一功能教会了自己:在教女儿新知识时如何成为有趣的父母。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


奥特曼QA环节,自曝最敬佩Cursor


没有Sam Altamn的开发者日,就不算是完整的。在整场演讲结束后,最后一个环节,就是Altamn QA问答了。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


在线上,奥特曼抛出了一个深刻的思考:


人们总是倾向于用历史上的技术革命来类比当前的AI革命。


但这种类比方式本身是存在问题的。比如说,互联网革命就与现在的情况有很大的不同。


也许拿晶体管来做比较会更恰当。


晶体管是物理学领域的重大发现,它具有惊人的规模化潜力,并且迅速在全球范围内得到应用和普及。


虽然晶体管技术让整个人类社会受益,但现在人们并不会把那些最早开发晶体管的公司仅仅定义为「晶体管公司」。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App

「我不祈求上帝站在我这边,而是祈求自己能够站在上帝这边。在开发这些人工智能模型的过程中,我确实感觉自己是在追随光明与正义的道路。」


问:我们应该期待像o1这样的模型还是更大规模的模型?


奥特曼:希望全面提升大语言模型的性能,但这个推理思路很重要。


「不方便透露太多细节...但我预计视觉模型领域会有突破性进展。」(这似乎暗示即将推出比GPT-4更强大的视觉模型)


问:在技术整合方面会达到什么程度?基于OpenAI构建产品的AI创业公司应该如何规划?


奥特曼:建议创始人应该打造这样的公司——既能充分利用当前大语言模型的优势,又能在未来模型升级时获得更大发展空间。


问:开源的定位是什么?


奥特曼:答案表明开源确实有其存在空间,但同时也需要很好地整合专有模型。不过,这个回答似乎没有提供太多实质性内容。


问:什么是AI智能体(Agent)?


奥特曼:「一个可以接受长期任务并且在执行过程中只需少量监督的系统。」我认为Harrison Chase在Langchain的博客中给出的定义更加严谨,但从商业角度来看,这个定义很实用。


问:AI智能体能做什么?


奥特曼:它们能够完成人类因能力限制而无法完成的任务,比如同时与300家餐厅进行通话,让AI智能体在每家餐厅进行交谈并即时收集信息。


或者说,它像一位极其智慧的高级同事,你可以放心地交给他两天或一周的工作任务。


说实话,我很讨厌「agentic」这个词。不让我们一起边讨论边思考,然后创造一个新词吧!


问:在过去10年里,他的领导方式发生了哪些变化?


奥特曼:公司发展速度惊人,仅用两年时间就实现了数十亿美元的营收规模。从追求10%的提升转向追求10倍的突破,这需要进行大量的调整和改变。


问:对于Peter Thiel「要招聘30岁以下的员工」的建议,你怎么看?


奥特曼:我创立OpenAI时就已经过了30岁。团队需要不同年龄层的人才,真正重要的是要始终保持极高的人才标准。


问:你最担忧的是什么?


奥特曼:从整个行业角度来看,我们正在尝试解决的问题的系统性复杂度。


问:如果现在要创建新公司,他会选择什么方向?


奥特曼:专注于某个特定领域,比如开发AI法律顾问或AI工程师助手。


问:你觉得有什么重要信息需要让更多人知道?


奥特曼:一个能够全面了解并陪伴你生活的智能助手。


问:除了OpenAI的团队,你最敬佩谁?


奥特曼:Cursor团队——他们打造了一个极具突破性的AI应用体验。


问:如果能够实现理想中的未来,你觉得会是什么样子?


奥特曼:在接下来的5年里,我们可能会看到AI技术以难以想象的速度进步。但有趣的是,社会表面的变化可能并不会那么剧烈——真正的影响可能要在更长远的未来才会完全显现。


如下,是Sam Altman现场一部分QA视频。


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App


参考资料:


https://x.com/tarekayed00/status/1851570058285232392


https://x.com/morqon/status/1851580985562779890


https://x.com/caromcc_/status/1851570587287601237


https://x.com/Foxalabs/status/1851574681112879535


文章来自于微信公众号“新智元”


o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App

关键词: o1 , AI , openai , chatGPT
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales