
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。
本文提出了一个旨在提升基础模型工具使用能力的大型多模态数据集 ——ToolVQA。现有研究已在工具增强的视觉问答(VQA)任务中展现出较强性能,但在真实世界中,多模态任务往往涉及多步骤推理与功能多样的工具使用,现有模型在此方面仍存在显著差距。
知情人士透露,作为人工智能热潮中关键基础设施供应商的 Crusoe 能源系统公司,正计划以近 100 亿美元的估值进行新一轮融资。这笔交易将突显支撑 AI 系统运作所需的庞大资源。
大模型耗电惊人,舆论一浪高过一浪。 现在,谷歌用硬核数据强势还击。
在科研、新闻报道、数据分析等领域,图表是信息传递的核心载体。要让多模态大语言模型(MLLMs)真正服务于科学研究,必须具备以下两个能力
Salesforce近日官宣收购Regrello,这是一家专注于制造业和供应链的自动化工作流公司,也可以定位为AI驱动的制造业运营编排平台,核心技术是将非结构化业务数据转化为动态的自动化工作流。
企业在AI数据竞赛中面临数据抓取挑战,聚合器通过网页抓取或用户同意绕过限制,导致控制丧失、安全风险和品牌侵蚀。解决方案包括强化合同条款、API协议控制、数据泄露防护和主动维权,如Reddit诉Anthropic案启示合同作为AI数据管理框架。
硅谷各个模型公司在这个季度,开始分化到各个领域,除了 Google Gemini 和 OpenAI 还在做通用的模型;Anthropic 分化到 Coding、Agentic 的模型能力;Mira 的 Thinking Machines Lab 分化到多模态和下一代交互。
智东西8月20日报道,昨日,AI数据分析平台Databricks宣布,该公司已经签署了K轮融资的条款清单,预计将在现有投资者的支持下很快完成,这轮融资对Databricks的估值已经超过了1000亿美元(约合人民币7179.1亿元),估值与8个月前的620亿美元(约合人民币4451.0亿元)相比,上涨了超61%。
开源赛道也是热闹了起来。 就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本: Seed-OSS-36B-Base(含合成数据) Seed-OSS-36B-Base(不含合成数据) Seed-OSS-36B-Instruct(指令微调版)
AI换脸技术已能成功骗过部分人脸识别系统,用于实施金融诈骗(如盗号改法人、盗刷账户)。人脸识别存在安全漏洞,2D识别易被照片/视频破解,3D识别也可能被伪造数据欺骗。黑产已形成相关产业链,国家与技术公司正加强防御,但用户需提高警惕,谨慎使用人脸识别。