AI资讯新闻榜单内容搜索-eva

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: eva
ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

ICML2025|清华医工平台提出大模型「全周期」医学能力评测框架MultiCogEval

大语言模型(Large Language Models,LLMs)技术的迅猛发展,正在深刻重塑医疗行业。医疗领域正成为这一前沿技术的 “新战场” 之一。大模型具备强大的文本理解与生成能力,能够快速读取医学文献、解读病历记录,甚至基于患者表述生成初步诊断建议,有效辅助医生提升诊断的准确性与效率。

来自主题: AI技术研报
7021 点击    2025-07-23 13:25
AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

给AI一场压力测试,结果性能暴跌近30%。 来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。

来自主题: AI技术研报
9741 点击    2025-07-21 10:44
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

怎么快速判断一个生成模型好不好? 最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。

来自主题: AI技术研报
7139 点击    2025-07-18 11:02
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?

来自主题: AI技术研报
7394 点击    2025-07-07 10:39
伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来

伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来

伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来

几十年来,人工智能领域一直在思考一个看似简单但非常根本的问题: 如果一个智能体要在真实世界中行动、规划,并且和环境互动,它需要一个怎样的「世界模型」?

来自主题: AI技术研报
8815 点击    2025-07-01 15:01
深度|吴恩达:语音是一种更自然、更轻量的输入方式,尤其适合Agentic应用;未来最关键的技能,是能准确告诉计算机你想要什么

深度|吴恩达:语音是一种更自然、更轻量的输入方式,尤其适合Agentic应用;未来最关键的技能,是能准确告诉计算机你想要什么

深度|吴恩达:语音是一种更自然、更轻量的输入方式,尤其适合Agentic应用;未来最关键的技能,是能准确告诉计算机你想要什么

我们常把LangGraph、RAG、memory、evals等工具比作乐高积木,经验丰富的人知道如何搭配使用,就能迅速解决问题

来自主题: AI资讯
8173 点击    2025-06-17 10:24
搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好

当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。

来自主题: AI技术研报
8227 点击    2025-06-17 09:46
从濒临破产到被a16z投资,这款AI开发神器Rork:一句话打造iOS+Android应用

从濒临破产到被a16z投资,这款AI开发神器Rork:一句话打造iOS+Android应用

从濒临破产到被a16z投资,这款AI开发神器Rork:一句话打造iOS+Android应用

当大多数人还在学习如何使用ChatGPT生成简单文本时,一对年轻创始人已经让AI为你直接构建完整的移动应用。Levan Kvirkvelia和Daniel Dhawan创建的Rork让人想起了硅谷的电影剧情:从信用卡债务缠身、朋友家地板上的床垫,到一条病毒式推文引来百万美元融资,这家初创公司在vibe coding领域掀起了新浪潮。

来自主题: AI资讯
7637 点击    2025-05-26 17:45
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。

来自主题: AI技术研报
10567 点击    2025-05-14 10:19