GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?
GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?OpenAI的GPT-5因大幅降低AI幻觉而被批"变蠢",输出呆板创造力减弱,反映出幻觉降低限制模型灵活性。对话嘉宾甄焱鲲分析幻觉本质无法根除,需辩证看待,并探讨类型分5类、缓解方法如In-Context-Learning及RAG,影响企业应用场景的容忍度与决策,强调未来模型或通过世界模型深化理解。
OpenAI的GPT-5因大幅降低AI幻觉而被批"变蠢",输出呆板创造力减弱,反映出幻觉降低限制模型灵活性。对话嘉宾甄焱鲲分析幻觉本质无法根除,需辩证看待,并探讨类型分5类、缓解方法如In-Context-Learning及RAG,影响企业应用场景的容忍度与决策,强调未来模型或通过世界模型深化理解。
近年来,强化学习(Reinforcement Learning, RL)在提升大语言模型(LLM)复杂推理能力方面展现出显著效果,广泛应用于数学解题、代码生成等任务。通过 RL 微调的模型常在推理性能上超越仅依赖监督微调或预训练的模型。
AI Agent正陷入一个矛盾的处境:技术突飞猛进,应用却支离破碎。
作为大家的测评博主,我最近发现一个巨有意思的现象: 现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。
成年后结交朋友可能很困难,尤其是搬到新城市后。幸运的是,现代科技提供了解决方案,越来越多人开始使用Bumble For Friends、Flox 和 Timeleft 等应用快速建立新友谊。
线下和我们频道的一些朋友聊到了AI生产力应用和办公软件正在发生一些底层变化,发现大家对这个话题和案例挺感兴趣,整理了一部分发出来。
据新华社报道, 15 日晚间,神舟二十号航天员乘组圆满完成了第三次出舱活动。其间,一个名叫“悟空 AI”的大模型发挥了重要的辅助支撑作用,为航天员在轨工作提供了智能化、专业化支持。
由中国人工智能学会主办的2025第三届全国人工智能应用场景创新挑战赛AI Agent全球专项赛启动仪式在香港科技大学(广州)举办。这场被业界誉为“AI Agent 元年英雄时代开幕盛典”的盛会,以吴恩达、 尤肖虎、周鸿祎、杨宁、朱啸虎、徐飚、缪玉峰 七位全球各自领域领袖对大赛的祝福视频震撼开场,为大赛全球参赛团队注入强心剂!
鲨疯了!一周连发六款模型。火力全开的昆仑万维,正在把多模态AI卷到新高度。8月11日~15日,这家公司天天都有新模型掉落,覆盖的还都是视频生成、世界模型、统一多模态、智能体以及AI音乐创作这些大热门,几乎每一个都是多模态AI应用的核心场景。
真正的 AI 系统不是一个 Chat 窗口,而是一个智能的工作现场。 工具越多,效率反而越低?一项来自《哈佛商业评论》的调查显示,员工每天平均切换应用程序超过 1200 次,一年下来累计浪费的时间高达 5 个完整工作周,占全年总工作时间的 9%。