医疗AI迎来大考!南洋理工发布首个LLM电子病历处理评测 | AAAI'26
医疗AI迎来大考!南洋理工发布首个LLM电子病历处理评测 | AAAI'26南洋理工大学研究人员构建了EHRStruct基准,用于评测LLM处理结构化电子病历的能力。该基准涵盖11项核心任务,包含2200个样本,按临床场景、认知层级和功能类别组织。研究发现通用大模型优于医学专用模型,数据驱动任务表现更强,输入格式和微调方式对性能有显著影响。
南洋理工大学研究人员构建了EHRStruct基准,用于评测LLM处理结构化电子病历的能力。该基准涵盖11项核心任务,包含2200个样本,按临床场景、认知层级和功能类别组织。研究发现通用大模型优于医学专用模型,数据驱动任务表现更强,输入格式和微调方式对性能有显著影响。
「奔向AGI」栏目聚焦AI大模型、AI agent、AI应用、芯片、机器人等前沿、热门的AI技术和商业创新。 作者丨冯汝梅 编辑丨关雎 人工智能赛道又一个惊人融资事件诞生。 2025年12月8日,由前
AI医疗,出现了超级独角兽!据报道,AI医疗企业OpenEvidence正在进行新一轮2.5亿美元融资,估值已经达到惊人的120亿美元!这已经是OpenEvidence一年内的4次融资,投资人对这家公司的追捧程度可见一斑。
2025年12月12日,波士顿大学的 Andrey Fradkin 团队发布了一项令业界瞩目的研究 《The Emerging Market for Intelligence: Pricing, Supply, and Demand for LLMs》(智能的新兴市场:LLM的定价、供给与需求)。
近日,在全球人工智能领域最具影响力的顶级学术会议 NeurIPS(神经信息处理系统大会)上, 清华大学和蚂蚁数科联合提出了一种名为 Dual-Flow 的新型对抗攻击生成框架。
从生物进化的漫长历程到AI技术的疯狂迭代,两者遵循着惊人相似的底层逻辑。
2025年,AI搜索行业进入了“模型商品化,分发定生死”的新阶段。 全球市场正经历一场双重变革:商业模式: 传统搜索巨头(Google)陷入严重的“创新者窘境”,庞大的广告营收成为其拥抱AI的最大掣肘;而挑战者(Perplexity, OpenAI)则通过“答案即行动”重塑商业闭环。
近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。
自 Sora 2 发布以来,各大科技厂商迎来新一轮视频生成模型「军备竞赛」,纷纷赶在年底前推出更强的迭代版本。
最近,视频会议软件公司 Zoom 发布了一条出人意料的消息:他们宣称在“人类最后的考试”(Humanity s Last Exam,简称 HLE)这个号称当前 AI 领域最具挑战性的基准测试上,取得了 48.1% 的成绩,比此前由 Google Gemini 3 Pro(带工具)保持的 45.8% 高出 2.3 个百分点。