被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估
被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估还在用枯燥的数学题和编程题测试AI?落伍啦!现在,打游戏就能测出AI的真实力。GameArena团队打造的Roblox新游《AI空间逃脱》,让你在紧张刺激的密室逃脱中,顺便就把AI模型的推理能力给评估了。这不仅比传统测试方法更有趣,还能生成宝贵的游戏数据,帮助开发者更全面地了解AI的强项与短板。
还在用枯燥的数学题和编程题测试AI?落伍啦!现在,打游戏就能测出AI的真实力。GameArena团队打造的Roblox新游《AI空间逃脱》,让你在紧张刺激的密室逃脱中,顺便就把AI模型的推理能力给评估了。这不仅比传统测试方法更有趣,还能生成宝贵的游戏数据,帮助开发者更全面地了解AI的强项与短板。
xAI、谷歌DeepMind和Anthropic的CEO们纷纷对DeepSeek的技术创新性提出质疑,认为其并未带来实质性的科学突破。AI大佬纷纷泼冷水,到底是技术讨论还是各怀目的?
AI模型可能并没有想象中强大。在最新的AI基准测试「人类最后一次考试」中,所有顶尖LLM通过率不超过10%,而且模型都表现得过度自信。
就在刚刚,Verses团队研发的Genius智能体,在Pong中超越了人类顶尖玩家!而且它仅仅训练2小时,用了1/10数据,就秒杀了其他顶级AI模型。
欧莱雅与IBM正在合作开发一款定制化的生成式人工智能(GenAI)模型,旨在加速化妆品配方流程,进一步拓展生成式AI在个人护理市场的应用版图。 IBM表示,这款定制AI工具将“显著提升欧莱雅研发团队在各个化妆品品类和全球市场的性能表现与消费者满意度”。
Sakana AI发布了Transformer²新方法,通过奇异值微调和权重自适应策略,提高了LLM的泛化和自适应能力。新方法在文本任务上优于LoRA;即便是从未见过的任务,比如MATH、HumanEval和ARC-Challenge等,性能也都取得了提升。
自适应 LLM 反映了神经科学和计算生物学中一个公认的原理,即大脑根据当前任务激活特定区域,并动态重组其功能网络以响应不断变化的任务需求。
谷歌推出的FACTS Grounding基准测试,能评估AI模型在特定上下文中生成准确文本的能力,有助于提升模型的可靠性;通过去除不满足用户需求的回复,确保了评分的准确性和模型排名的公正性。
每天,全球有数亿人在向AI产品倾诉他们的想法、困惑、创意,甚至秘密。但鲜有人意识到,这些对话正在以“帮助训练下一代AI模型的”的名义,突破着过往移动互联网产品的数据使用界限。
流媒体平台爱奇艺已向上海市徐汇区人民法院正式提起诉讼,指控国内AI初创企业MiniMax在AI模型训练及内容生成流程中,涉嫌侵犯其版权,导致生成的内容构成了对爱奇艺版权的侵犯。