AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
Claude都能操纵计算机了,吴恩达:智能体工作流越来越成熟

Claude都能操纵计算机了,吴恩达:智能体工作流越来越成熟

Claude都能操纵计算机了,吴恩达:智能体工作流越来越成熟

受 ChatGPT 强大问答能力的影响,大型语言模型(LLM)提供商往往优化模型来回答人们的问题,以提供良好的消费者体验。

来自主题: AI资讯
3044 点击    2024-11-15 15:04
用LaTRO框架,通过自我奖励机制来激发LLM潜在推理能力,基准上提升12.5% |Salesforce重磅

用LaTRO框架,通过自我奖励机制来激发LLM潜在推理能力,基准上提升12.5% |Salesforce重磅

用LaTRO框架,通过自我奖励机制来激发LLM潜在推理能力,基准上提升12.5% |Salesforce重磅

大规模语言模型(LLMs)已经在自然语言处理任务中展现了卓越的能力,但它们在复杂推理任务上依旧面临挑战。推理任务通常需要模型具有跨越多个步骤的推理能力,这超出了LLMs在传统训练阶段的表现。

来自主题: AI资讯
6701 点击    2024-11-15 10:34
深度解析Recraft V3:突破文本渲染限制,「文生图」黑马是怎样炼成的?

深度解析Recraft V3:突破文本渲染限制,「文生图」黑马是怎样炼成的?

深度解析Recraft V3:突破文本渲染限制,「文生图」黑马是怎样炼成的?

Recraft团队通过结合TextDiffuser-2技术和自训练的大型语言模型,提升了文本到图像渲染的质量和准确性,不过现有模型在处理复杂语言如中文和未明确指定的文本时,仍存在渲染不准确的问题。

来自主题: AI技术研报
7386 点击    2024-11-14 14:40
1000多个智能体组成,AI社会模拟器MATRIX-Gen助力大模型自我进化

1000多个智能体组成,AI社会模拟器MATRIX-Gen助力大模型自我进化

1000多个智能体组成,AI社会模拟器MATRIX-Gen助力大模型自我进化

随着大语言模型(LLMs)在处理复杂任务中的广泛应用,高质量数据的获取变得尤为关键。为了确保模型能够准确理解并执行用户指令,模型必须依赖大量真实且多样化的数据进行后训练。然而,获取此类数据往往伴随着高昂的成本和数据稀缺性。因此,如何有效生成能够反映现实需求的高质量合成数据,成为了当前亟需解决的核心挑战。

来自主题: AI技术研报
6282 点击    2024-11-14 14:07
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理

深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理

深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理

研究人员通过案例研究,利用大型语言模型(LLMs)如GPT-4、Claude 3和Llama 3.1,探索了思维链(CoT)提示在解码移位密码任务中的表现;CoT提示虽然提升了模型的推理能力,但这种能力并非纯粹的符号推理,而是结合了记忆和概率推理的复杂过程。

来自主题: AI技术研报
3319 点击    2024-11-13 09:07
万字长文,深度解析大模型备案全流程

万字长文,深度解析大模型备案全流程

万字长文,深度解析大模型备案全流程

算法备案是所有AI从业者不得不迈过的门槛。这篇内容深入解读了中国《生成式人工智能服务安全基本要求》以及“生成式人工智能(大语言模型)上线备案”流程。

来自主题: AI技术研报
6687 点击    2024-11-12 10:00
AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%

大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!

来自主题: AI技术研报
3895 点击    2024-11-11 14:36
你是天才竟然比白痴得分低?卡梅隆和斯坦福最新,你是Assistant会让LLM降低性能,Roleplay究竟该怎么用

你是天才竟然比白痴得分低?卡梅隆和斯坦福最新,你是Assistant会让LLM降低性能,Roleplay究竟该怎么用

你是天才竟然比白痴得分低?卡梅隆和斯坦福最新,你是Assistant会让LLM降低性能,Roleplay究竟该怎么用

在Prompt工程领域,角色扮演提示是否能够有效提高大型语言模型(LLM)的性能一直是一个备受关注的话题。

来自主题: AI资讯
3055 点击    2024-11-11 14:32
Humane高管创业,专注事实审查的AI搜索,避免幻觉,获400万美金种子轮融资

Humane高管创业,专注事实审查的AI搜索,避免幻觉,获400万美金种子轮融资

Humane高管创业,专注事实审查的AI搜索,避免幻觉,获400万美金种子轮融资

Infactory.ai作为一款专注于事实审查的AI搜索引擎,旨在通过使用大语言模型理解搜索意图,而非直接生成搜索结果,以此来提供准确、透明的搜索结果,从根本上避免了搜索结果的幻觉问题,同时依然能提高用户使用搜索工具的效率。

来自主题: AI资讯
3620 点击    2024-11-11 10:28
不让视觉语言模型「盲猜」,性能竟直接提升一倍?

不让视觉语言模型「盲猜」,性能竟直接提升一倍?

不让视觉语言模型「盲猜」,性能竟直接提升一倍?

近日,卡内基梅隆大学与华盛顿大学的研究团队推出了 NaturalBench,这是一项发表于 NeurIPS'24 的以视觉为核心的 VQA 基准。它通过自然图像上的简单问题——即自然对抗样本(Natural Adversarial Samples)——对视觉语言模型发起严峻挑战。

来自主题: AI技术研报
2760 点击    2024-11-09 10:27