NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
NeurIPS 2024 | 真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测利用语言模型调用工具,是实现通用目标智能体(general-purpose agents)的重要途径,对语言模型的工具调用能力提出了挑战。
利用语言模型调用工具,是实现通用目标智能体(general-purpose agents)的重要途径,对语言模型的工具调用能力提出了挑战。
来自英伟达、CMU、UC伯克利等的全华人团队提出一个全新的人形机器人通用的全身控制器HOVER,仅用一个1.5M参数模型就可以控制人形机器人的身体。人形机器人的运动和操作之前只是外表看起来类人,现在有了HOVER,连底层运动逻辑都可以类人了!
近期,36氪获悉,具身智能创业公司“自变量机器人(X Square)”连续完成Pre-A与Pre-A+轮融资,总金额达到亿元级。
解决真实GitHub Issue的基准测试,字节家的豆包MarsCode Agent悄悄登顶了。SWE-Bench,一个由普林斯顿大学提出的极具挑战性的Benchmark,近期受到工业界、学术界和创业团队的广泛关注。
本文介绍了千亿美金市值,美国服务政企的AI高科技企业Palantir公司及其核心软件平台Gotham和Foundry,以及新产品大模型人工智能平台AIP和Apollo,它们旨在帮助政府和商业组织解决复杂问题,并利用数据做出更有效的决策。
斯坦福大学奥马尔(Omar)的DSPy研究团队最近更新了他们的项目文档,发了很多不错的案例,以及很多国际知名企业的DSPy用例,这些可能对您的项目有启发。
与最先进的开源方法甚至闭源模型 GPT-4o 相比,MMedAgent 在各种医疗任务中实现了卓越的性能。此外,MMedAgent 在更新和集成新医疗工具方面表现出效率。
实时API将完全改变我们与人工智能互动的方式,定制化AI模型成为主流,并且通过模型蒸馏实现低延迟、低成本、高性能,使AI更易使用、更高质量。
RAG,AI,模型训练,人工智能
在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。