AI竞技场,归根到底只是一门生意
AI竞技场,归根到底只是一门生意AI模型排行榜分两类:以高考式标准化测试衡量特定能力的客观基准测试(如AAII、MMLU-Pro),以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场(如LMArena)。两者各有优劣和局限性,且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型,实用性至上。
AI模型排行榜分两类:以高考式标准化测试衡量特定能力的客观基准测试(如AAII、MMLU-Pro),以及用户匿名盲测、根据偏好对答案投票排名的人类偏好竞技场(如LMArena)。两者各有优劣和局限性,且排行榜本质是门生意。用户应基于实际需求而非榜单名次选择模型,实用性至上。
最新战报最新战报:首届AI国际象棋对战……马斯克家的Grok 4“遥遥领先”了。 是的,谷歌给大模型整了个国际象棋比赛:Kaggle AI象棋竞赛。
AI“重新定义”材料设计。
AI社交产品在全球市场表现下滑,如百度月匣被减少投入,字节猫箱等下载量暴跌。日本孤独经济本应推动增长,但Character.AI等产品水土不服;原因包括大模型情感连接缺陷、角色同质化、缺乏创新。行业融资降温、商业变现困难、监管风险凸显;情感需求真实,但产品无法满足,需待技术变革。
AMD公布第二财季财报,营收76.9亿美元,同比增长32%,超出预期,但盈利略低于预期。
本期为《仲夏六日谈》第四季六期节目文字内容,主题为《赛博沙盒:如何与AI共创未来》。
融资10亿美元,要在开源上挑战Deepseek! 前谷歌DeepMind成员、AlphaGo开发者创立Reflection AI,致力于开发开源大语言模型。
从目前战况来看,Grok 4 是夺冠热门。 在玩游戏方面,到底哪个模型最厉害?为了回答这个问题,谷歌近日发起了首届大模型国际象棋对抗赛。
一波未平,一波又起。 英伟达Triton推理服务器,被安全研究机构Wiz Research曝光了一组高危漏洞链。
团队在自研知识库底座的过程中,想对比参考下RAGFlow,发现其切片方法缺乏详细说明和清晰案例,如果你也遇到以下问题,本文能帮你节省大量试错时间
看过了这么多款Agent,这一次,AI不仅承包了视频生成,还自带演员进组了。 只需一段简单的提示词,一条充满戏剧张力的微短剧就诞生了。
LangExtract 是一个 Python 库,利用大型语言模型(LLMs)从非结构化文本中提取结构化信息,基于用户定义的指令。它可以处理临床笔记或报告等材料,识别并组织关键细节,同时确保提取的数据与源文本对应。
年初那会儿,DeepSeek 横空出世,AI 圈子跟过年一样热闹。它凭啥这么火?除了开源够意思,五百多万的训练成本也惊艳了不少人。
昨晚OpenAI官方放了个大招,发布了gpt-oss-120b和gpt-oss-20b两款开源模型,这是一个专为Agent而生的模型,而且开源了。
深度研究智能体(Deep Research Agents)凭借大语言模型(LLM)和视觉-语言模型(VLM)的强大能力,正在重塑知识发现与问题解决的范式。
AI大模型浪潮汹涌澎湃,00后创业者正一步步走上创业舞台,成为这场技术革新的主心骨。身处这股技术新浪潮之中的Celine和Kejin,两个刚走出校园里的年轻人瞄准的是AI教育。
8月6号,真的今夕是何年了。 一晚上,三个我觉得都蛮大的货。
只需一句话,就能生成可实时交互的3D世界。 刚刚,谷歌DeepMind发布了新一代通用世界模型Genie 3。
你会掏钱吗?你说巧不巧,就在 Sam Altman 官宣两个开源推理模型之前的半个小时,却被 Anthropic 抢先一步,发布了新模型 Claude Opus 4.1。
当传统调研机构还在用老套路——焦点小组、电话访谈、数周的数据分析——来服务客户时,一家名为 Knit 的创业公司正在用完全不同的方式重新定义这个价值数百亿美元的行业。他们刚刚完成了 1610 万美元的 A 轮融资,由 GFT Ventures 和阿什顿·库彻的 Sound Ventures 领投,这不仅仅是一笔投资,更是对企业洞察未来方向的一次重大押注。
8 月 4 日凌晨,马斯克旗下 xAI 正式向付费用户推出 Grok Imagine,可以用文字生成图像,然后将图一键变成 AI 视频。 短短 24 小时,Grok Imagine 用户使用量据称达数千万次。惊人的速度背后,是「允许擦边」的「Spicy Mode(火辣模式)」,让这款 AI 视频生成功能成为全网最具争议的新物种。
“Manus跑路”的新闻席卷社交媒体时,我正在旅行途中。“败落”“润了”等词汇,刺得我本能地关掉了页面。 多数媒体用“突然”“惊爆”等词形容Manus的搬迁,作为内部人员,其实在6月就隐约感知到这一动向。
忘掉繁琐交互流程,也不用再蹲Veo 3了! 现在分钟级高质量的AI创意大片,能够一键生成了。 比如一张人物图+提示词脚本,就能生成记者第一视角下采访西游记的视频特辑。
Agent形式又进化了,现在“有头有脸”,能自主帮你完成KPI!
NVIDIA和AMD,终于有对手了? 一家名不见经传的芯片初创公司——Bolt Graphics,在最新发布的测试中抛出惊人数据: 其首款GPU模组Zeus 4C,在路径追踪(Path Tracing)场景中,性能飙至RTX 5090的13倍。
心累!也是被小扎挖人挖怕了,奥特曼开始让员工保护好自己的名字。 员工清单=OpenAI最高机密。 首席科学家出去接受访谈,都被要求禁止透露重要员工名字。
最近在「观猹」平台上,又又又又又上新了超多有意思的 Agent 产品!
AI 作图,不止卖家在用,买家也在用。最近,不少网友晒出了一个令人啼笑皆非的操作:为了从卖家那里占到一点便宜,一些买家会故意声称商品有瑕疵,并要求退款。但其实,瑕疵图是他们自己用 AI 做的,比如把好的榴莲做成腐烂掉的榴莲。
Huxe 是您的个人音频伴侣,旨在将您关心的一切,转化为精心生成的交互式体验。
SkinVision 是一家于 2011 年在荷兰阿姆斯特丹成立的数字健康公司,致力于通过人工智能(AI)驱动的移动解决方案,实现皮肤癌的早期检测与个性化皮肤健康管理。