
o3被曝「无视」前成果?华人博士生实名指控,谢赛宁等大牛激烈争辩
o3被曝「无视」前成果?华人博士生实名指控,谢赛宁等大牛激烈争辩o3和o4-mini视觉推理突破,竟未引用他人成果?一名华盛顿大学博士生发出质疑,OpenAI研究人员对此回应:不存在。
o3和o4-mini视觉推理突破,竟未引用他人成果?一名华盛顿大学博士生发出质疑,OpenAI研究人员对此回应:不存在。
“大语言模型的出现比历代任何一次工业革命的影响都大,甚至可能是人类迄今为止最大的一次科技机遇,我不想只当个旁观者。”
此事的结果,大概率是AI企业最终会选择妥协。
GPT-4o更新的端到端多模态模型,让创意端获得前所未有的自由度。
「真格十问」是一个快问快答栏目。我们希望用十个问题,拆解可实操的产品成长方法,力求呈现「非共识但正确」的真知灼见。
阿拉伯联合酋长国计划利用人工智能,协助起草新法规及审查修订现行法律,这是这个海湾国家在AI上已投入数十亿美元基础上,采取的最激进尝试。人工智能研究人员表示,该国官方媒体所称的“人工智能驱动监管”计划比其他任何地方所见都更为超前,同时指出细节尚不充分。其他政府正尝试运用 AI 提升效率,从法案摘要到优化公共服务,但尚未通过分析政府与法律数据来主动提议修改现行法律。
采样多就一定准吗?研究人员用实验告诉你:是的,而且超乎想象!基于采样的搜索不仅能在并行处理中大展身手,还通过隐式扩展让验证更精准。
在Ola Friend的基础上推出智能眼镜,简直就是顺理成章的事情。
动画片和我们拍摄的视频其实还是有很大不一样的。一般来说,我们平时观看的大多数电视剧使用25帧/秒的帧率,大多数电影使用24帧/秒的帧率。对于摄像机而言,帧率的调节无非是改一改摄影设备的参数,即使是胶片时代,也仅仅是胶片使用量的区别,对人工影响不大。
OpenAI新模型发布后,大家体感都幻觉更多了。甚至有人测试后发出预警:使用它辅助编程会很危险。当大家带着疑问仔细阅读System Card,发现OpenAI官方也承认了这个问题,与o1相比o3幻觉率是两倍,o4-mini更是达到3倍。
OpenAI 最近发布了三份针对企业客户的研究报告,本次挑选了其中的「AI in the Enterprise」一篇进行了翻译。
给我整不会了。
谷歌的AI编码能力正在掀起一场风暴!在高尔顿板测试中,Gemini 2.5 Flash以惊艳表现击败OpenAI多款模型,连谷歌首席科学家Jeff Dean都为其点赞。谷歌新模型「dayhush」已在网页开发领域崭露头角,性能超越Gemini 2.5 Pro,被网友称为「AI编码的地震性突破」。
从一句“爸爸,这个怎么说?”开始,一款爆火的外语学习 App 诞生了。
Fellou: 世界首个 Agentic Browser —— 超越浏览,直达行动 Beyond Browsing, Into Action
AI正在消解真人短剧与动漫短剧的形态边界。
强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝:如今,人类已经由数据时代踏入经验时代。通往ASI之路要靠RL,而非人类数据!
「一位顶尖科学家,有数千亿美元的资源,却仍然能把Meta搞砸了!」最近,圈内对LeCun的埋怨和批评,似乎越来越压不住了。有人批评说,Meta之所以溃败,LeCun的教条主义就是罪魁祸首。但LeCun却表示,自己尝试了20年自回归预测,彻底失败了,所以如今才给LLM判死刑!
美国就业市场被颠覆:程序员需求45年最低,而文科生被内外夹击。但最近ACM的博客文章,提出了耳目一新的观点:GenAI是文科和计算机科学复兴的唯一希望。顺GenAI则昌,逆之则亡!
Hyper-RAG利用超图同时捕捉原始数据中的低阶和高阶关联信息,最大限度地减少知识结构化带来的信息丢失,从而减少大型语言模型(LLM)的幻觉。
TytoCare是一家开创性的虚拟护理公司,致力于在家中提供便捷、高质量的基础护理。该公司宣布,它已成为全球首个获得美国食品药品监督管理局(FDA)批准用于基于人工智能(AI)检测所有三种主要异常肺部声音的公司。
就在今年么?
着急的时候,想想曾经的AI
和大模型一样,一切都关乎数据
o3编码直逼全球TOP 200人类选手,却存在一个致命问题:幻觉率高达33%,是o1的两倍。Ai2科学家直指,RL过度优化成硬伤。
近期,大模型智能体(Agent)的相关话题爆火 —— 不论是 Anthropic 抢先 MCP 范式的快速普及,还是 OpenAI 推出的 Agents SDK 以及谷歌最新发布的 A2A 协议,都预示了 AI Agent 的巨大潜力。
现阶段,每因智能主要通过商业保险这一切口,与政府部门和大型保司开展相关合作,促进商业转化。
AI圈最近弥漫着一股微妙的气息。人们似乎不再热议大语言模型的最新突破、以及AI应用的无限可能时,一些代表着未来的AI巨头,却似乎正将目光投向互联网那熟悉得不能再熟悉的角落——社交网络与社区。
最近终于有时间来测试一下最新版的据说超级强的可灵2.0,想着来都来了不如顺便就把Veo 2也一起测了。前几天可灵2.0在北京有发布会,我没有去,主要是比较忙,最主要是可灵也没邀请我,不过还好,Veo 2也没邀请我,让我可以非常好地保持住自己的客观。
鲜为人知的是,目前国内超过60%的AI应用,包括DeepSeek的C端应用,联网搜索能力是通过集成博查AI的Search API实现的。大模型需要通过这类API,才能够动态获取最新信息,并输出给用户。AI搜索和传统搜索在入口端的界面上非常相似,底层技术和最终返回给用户的体验却截然不同。