
Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟
Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟AI会无脑附和吗?Anthropic研究发现,Claude能根据场景切换人格:谈恋爱时化身情感导师,聊历史时秒变严谨学者。一些对话中,它强烈支持用户价值观,但在3%的情况下,它会果断抵制。
AI会无脑附和吗?Anthropic研究发现,Claude能根据场景切换人格:谈恋爱时化身情感导师,聊历史时秒变严谨学者。一些对话中,它强烈支持用户价值观,但在3%的情况下,它会果断抵制。
公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。
谷歌发布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考预算」,可灵活控制推理深度,性能一举击败Claude 3.7,比肩o4-mini。而且,关闭思考模式成本直降600%。
Anthropic推出Claude两大重磅功能:Research与Google Workspace集成!Research功能让Claude快速检索网络与内部文件,精准回答复杂问题;而与Google Workspace的深度整合,则让用户能无缝调用Gmail、日历和文档信息,轻松完成从行程规划到报告撰写的任务。
Claude于今日凌晨推出新的功能,将ReSearch和 Google Workspace 集成、以及把电子邮件、日历和文档与 Claude 相关联,claude可以在工作环境和联网环境下借助Research快速作出决策和行动。
两个月后就号称要淘汰GPT-4.5的GPT-4.1,实力究竟如何?在众多实测中,它的表现的确可圈可点,但却依然打不过Gemini 2.5 Pro和Claude 3.7 Sonnet。那么问题来了,OpenAI为何要发布一个远远落后于谷歌的模型?
刚刚,Gemini 2.5 Pro编程登顶,6美元性价比碾压Claude 3.7 Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。
有在离谱。 高分论文因为没有引用先前的研究而被ICLR拒稿了?!
代码截图泄露,满血版o3、o4-mini锁定下周!更劲爆的是,一款据称是OpenAI的神秘模型一夜爆红,每日处理高达260亿token,是Claude用量4倍。奥特曼在TED放话:将推超强开源模型,直面DeepSeek挑战。
从编程到论文,AI无处不在! 一项针对百万条学生对话的分析显示,AI不仅能调试代码,还能润色文章,甚至生成学习资料。但这背后,学术诚信的边界在哪里?