AI资讯新闻榜单内容搜索-AI评估

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: AI评估
最新综述:LLM作为法官,用AI评判AI

最新综述:LLM作为法官,用AI评判AI

最新综述:LLM作为法官,用AI评判AI

让AI来评判AI,即利用大语言模型(LLM)作为评判者,已经成为近半年的Prompt热点领域。这个方向不仅代表了AI评估领域的重要突破,更为正在开发AI产品的工程师们提供了一个全新的思路。

来自主题: AI技术研报
8825 点击    2024-11-29 09:11
田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%

田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%

田渊栋团队新作祭出Agent-as-a-Judge!AI智能体自我审判,成本暴跌97%

AI评估AI可靠吗?来自Meta、KAUST团队的最新研究中,提出了Agent-as-a-Judge框架,证实了智能体系统能够以类人的方式评估。它不仅减少97%成本和时间,还提供丰富的中间反馈。

来自主题: AI技术研报
2373 点击    2024-10-27 15:35
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等学术机构学者组成的开源组织,致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。

来自主题: AI技术研报
4250 点击    2024-10-22 14:38
用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源

用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源

用AI评估AI,上交大新款大模型部分任务超越GPT-4,模型数据都开源

评估大模型对齐表现最高效的方式是?在生成式AI趋势里,让大模型回答和人类价值(意图)一致非常重要,也就是业内常说的对齐(Alignment)。

来自主题: AI技术研报
3876 点击    2023-11-13 21:49