
告别评估乱象!首个视觉解释综合性基准发布,附人类真值 | KDD'25
告别评估乱象!首个视觉解释综合性基准发布,附人类真值 | KDD'25埃默里大学团队推出首个覆盖8个真实任务、带有人类解释真值的视觉解释基准Saliency-Bench,统一评估流程与开源工具让显著性方法可公平比较,获KDD’25接收,为可解释AI奠定透明、可靠的基石。
埃默里大学团队推出首个覆盖8个真实任务、带有人类解释真值的视觉解释基准Saliency-Bench,统一评估流程与开源工具让显著性方法可公平比较,获KDD’25接收,为可解释AI奠定透明、可靠的基石。
多模态推理,也可以讲究“因材施教”?
今天这篇文章,是一款 AI 产品失败后的复盘,回头来看,在没有确定 PMF、用户愿不愿意付费的情况下,组这么大的一个团队来创业,确实是踩了不少坑。
一早,小扎「梦之队」44人明星阵容曝光。这份绝密名单中,完整披露了Meta超级智能实验室团队的「配置」,被硅谷科技圈疯转。值得一提的是,50%研究员来自中国。
欧洲首款,不容易 CECP过的艰辛。
「仿生人会梦见电子羊吗」这下成真了。
现有Mobile/APP Agent的工作可以适应实时环境,并执行动作,但由于它们大部分都仅依赖于动作级奖励(SFT或RL)。
近日,月之暗面(Moonshot AI)正式发布了其万亿参数开源大模型Kimi K2,这一具有里程碑意义的AI模型凭借其创新的MoE架构和强大的Agentic能力迅速获得全球开发者关注。然而,随着用户量激增,部分开发者开始反映其API服务响应速度不尽如人意。面对这一情况,月之暗面于7月15日迅速作出官方回应,坦诚当前服务延迟问题,并详细说明了优化方案。
向企业销售软件是一个极其耗时的过程。即便客户已确信某款产品适合其组织,他们仍需确保该软件满足所有安全要求。
Kimi 又火了,在 DeepSeek 的热闹中沉寂大半年后,Kimi K2 悄悄在 LMArena 竞技场中从 DeepSeek 手中,夺过了全球开源第一的宝座。