AI资讯新闻榜单内容搜索-大型语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大型语言模型
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

知识密集型工作也败了!大型语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。

来自主题: AI技术研报
7449 点击    2024-12-07 15:20
Agent 初学者指南:揭开 AI Agents 的面纱

Agent 初学者指南:揭开 AI Agents 的面纱

Agent 初学者指南:揭开 AI Agents 的面纱

最近从由大型语言模型(LLM)驱动的聊天机器人向如今该领域所定义的 Agent 系统或 Agentic AI 的转变,可以用一句老话来概括:“少说话,多做事。”

来自主题: AI资讯
6233 点击    2024-12-07 10:44
微软发现不同prompt模版会导致最大40%性能差距!

微软发现不同prompt模版会导致最大40%性能差距!

微软发现不同prompt模版会导致最大40%性能差距!

这篇文章研究了提示格式对大型语言模型(LLM)性能的影响。

来自主题: AI技术研报
5764 点击    2024-11-27 13:48
NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强?北大、MIT团队给出理论解释

自我纠错(Self Correction)能力,传统上被视为人类特有的特征,正越来越多地在人工智能领域,尤其是大型语言模型(LLMs)中得到广泛应用,最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我纠正的方法。

来自主题: AI技术研报
4405 点击    2024-11-18 14:54
Claude都能操纵计算机了,吴恩达:智能体工作流越来越成熟

Claude都能操纵计算机了,吴恩达:智能体工作流越来越成熟

Claude都能操纵计算机了,吴恩达:智能体工作流越来越成熟

受 ChatGPT 强大问答能力的影响,大型语言模型(LLM)提供商往往优化模型来回答人们的问题,以提供良好的消费者体验。

来自主题: AI资讯
2958 点击    2024-11-15 15:04
深度解析Recraft V3:突破文本渲染限制,「文生图」黑马是怎样炼成的?

深度解析Recraft V3:突破文本渲染限制,「文生图」黑马是怎样炼成的?

深度解析Recraft V3:突破文本渲染限制,「文生图」黑马是怎样炼成的?

Recraft团队通过结合TextDiffuser-2技术和自训练的大型语言模型,提升了文本到图像渲染的质量和准确性,不过现有模型在处理复杂语言如中文和未明确指定的文本时,仍存在渲染不准确的问题。

来自主题: AI技术研报
7302 点击    2024-11-14 14:40
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理

深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理

深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理

研究人员通过案例研究,利用大型语言模型(LLMs)如GPT-4、Claude 3和Llama 3.1,探索了思维链(CoT)提示在解码移位密码任务中的表现;CoT提示虽然提升了模型的推理能力,但这种能力并非纯粹的符号推理,而是结合了记忆和概率推理的复杂过程。

来自主题: AI技术研报
3241 点击    2024-11-13 09:07
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!

来自主题: AI技术研报
3815 点击    2024-11-11 14:36
你是天才竟然比白痴得分低?卡梅隆和斯坦福最新,你是Assistant会让LLM降低性能,Roleplay究竟该怎么用

你是天才竟然比白痴得分低?卡梅隆和斯坦福最新,你是Assistant会让LLM降低性能,Roleplay究竟该怎么用

你是天才竟然比白痴得分低?卡梅隆和斯坦福最新,你是Assistant会让LLM降低性能,Roleplay究竟该怎么用

在Prompt工程领域,角色扮演提示是否能够有效提高大型语言模型(LLM)的性能一直是一个备受关注的话题。

来自主题: AI资讯
2947 点击    2024-11-11 14:32
MME-Finance:来自同花顺的金融领域多模态模型专业评估基准

MME-Finance:来自同花顺的金融领域多模态模型专业评估基准

MME-Finance:来自同花顺的金融领域多模态模型专业评估基准

MME-Finance 是一个专为金融领域设计的多模态基准测试,由同花顺财经旗下的 HiThink 研究团队联合多家高校共同开发,旨在评估和提升多模态大型语言模型(MLLMs)在金融领域的专业理解和推理能力。

来自主题: AI资讯
3024 点击    2024-11-08 14:06