AI资讯新闻榜单内容搜索-eva

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: eva
年薪210万,招一个AI「布道者」

年薪210万,招一个AI「布道者」

年薪210万,招一个AI「布道者」

AI 圈现在招人,连岗位名字都透着点不寻常。

来自主题: AI资讯
7388 点击    2026-05-15 09:56
Agent评测的下半场:为什么需要一个「活的」Benchmark?

Agent评测的下半场:为什么需要一个「活的」Benchmark?

Agent评测的下半场:为什么需要一个「活的」Benchmark?

Claw-Eval-Live提出「活的」benchmark概念,通过信号采集与任务筛选,确保评测内容紧跟企业实际痛点,而非固定不变的题库。评测不仅关注结果,还追踪执行过程,从数据调用到状态变更,全面验证Agent的真实能力。

来自主题: AI技术研报
6108 点击    2026-05-11 16:08
a16z投了一家“不看简历”的AI招聘公司

a16z投了一家“不看简历”的AI招聘公司

a16z投了一家“不看简历”的AI招聘公司

5月6日,主营AI招聘的初创公司Ethos宣布完成2275万美元(约合人民币1.55亿元)的A轮融资,由a16z领投,General Catalyst、XTX Markets、Evantic Capital和Common Magic跟投。

来自主题: AI资讯
8936 点击    2026-05-07 22:35
两个哈佛女生用AI做电池故障排查,数月的工作量被缩到了几分钟

两个哈佛女生用AI做电池故障排查,数月的工作量被缩到了几分钟

两个哈佛女生用AI做电池故障排查,数月的工作量被缩到了几分钟

两位哈佛毕业的女生 Eva Tuecke 和 Catherine Yeo 用 AI 改变了电池故障排查,她们创立的 Altara 公司在近日获得 700 万美元种子轮融资,估值 7 亿美元,领投方是 Greylock。Neo、BoxGroup 和 Liquid 2 Ventures 也参与了本轮融资,此外还有包括 Jeff Dean 在内的知名天使投资人以及 OpenAI 和 AMD 的高层领导。

来自主题: AI资讯
8479 点击    2026-05-07 12:01
Factory完成1.5亿美元C轮融资,Anysphere、Cognition、Factory谁提供企业级AI编程的最优解?

Factory完成1.5亿美元C轮融资,Anysphere、Cognition、Factory谁提供企业级AI编程的最优解?

Factory完成1.5亿美元C轮融资,Anysphere、Cognition、Factory谁提供企业级AI编程的最优解?

近日,AI编程智能体初创公司 Factory 完成1.5亿美元C轮融资,投后估值达到15亿美元,正式跻身独角兽行列。本轮由Khosla Ventures领投,Sequoia Capital、Blackstone、Insight Partners、Evantic Capital、20VC、NEA和Mantis VC参与跟投。

来自主题: AI资讯
8485 点击    2026-05-01 22:30
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI

伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。

来自主题: AI技术研报
8876 点击    2026-04-19 13:40
教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

今天,来自ZJU-REAL的团队带来了ClawGUI,一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架。不是三个独立工具的简单拼接,而是一条打通的流水线:用ClawGUI-RL训练,用ClawGUI-Eval评测,用OpenClaw-GUI部署,端到端验证。

来自主题: AI技术研报
7874 点击    2026-04-19 13:33
4步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了

4步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了

4步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了

超快速 AI 生图领域再破性能天花板!香港科技大学唐靖团队、香港科技大学(深圳分校)胡天阳、小红书 hi-lab 罗维俭提出全新通用强化学习框架 TDM-R1,精准破解超快速扩散生成的核心痛点 —— 仅需 4 步采样(4 NFE),便将组合式生成指标 GenEval 从 61% 飙升至 92%,

来自主题: AI技术研报
9941 点击    2026-04-10 08:35
首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测

首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测

首个用户生活「长程模拟器」来了!LifeSim 重新定义大模型个性化评测

来自复旦大学、上海创智学院的研究人员提出 LifeSim,一个面向个性化助手评测的长程用户生活模拟框架。LifeSim 同时建模用户内部认知过程与外部物理环境,生成连贯的生活轨迹、事件序列与多轮交互行为;在此基础上,研究团队进一步构建了 LifeSim-Eval,用于系统评测模型在长期个性化交互中的能力边界。

来自主题: AI技术研报
7860 点击    2026-04-06 10:20
GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

GLM-5.1上线,编程表现贴Opus 4.6开大,Coding plan瞬间断货

智谱GLM-5.1,突然上线!别的没再多说,只是默默甩出Coding Evaluation评测结果——在编程能力上相比上一代GLM-5直接飙升近10分。甚至嘛,距全球最强编程模型Claude Opus 4.6,也就只有2.6分之差??

来自主题: AI产品测评
8508 点击    2026-03-29 11:06