AI资讯新闻榜单内容搜索-GPT-4

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: GPT-4
OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

OpenAI深夜发布3个全新的语音模型,一手实测都在这了。

就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。

来自主题: AI资讯
9309 点击    2025-03-21 08:27
多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

多步推理碾压GPT-4o,无需训练性能提升10%!斯坦福开源通用框架OctoTools

OctoTools通过标准化工具卡和规划器,帮助LLMs高效完成复杂任务,无需额外训练。在16个任务中表现优异,比其他方法平均准确率高出9.3%,尤其在多步推理和工具使用方面优势明显。

来自主题: AI技术研报
6066 点击    2025-03-12 14:47
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

在32道高等数学测试中,LLM表现出色,平均能得分90.4(按百分制计算)。GPT-4o和Mistral AI更是几乎没错!向量计算、几何分析、积分计算、优化问题等,高等AI模型轻松拿捏。研究发现,再提示(Re-Prompting)对提升准确率至关重要。

来自主题: AI技术研报
8355 点击    2025-03-11 18:38
1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是,要求短推理时,甚至击败了GPT-4o——用的还是相同的token预算!

来自主题: AI技术研报
4970 点击    2025-03-10 10:22
GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人

GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人

GPT-4.5智商测试94,登上LLM竞技场榜首!网友质疑黑幕,实测结果惊人

在知名AI排行榜LM Arena中,曾全班垫底的GPT-4.5竟一度拿下第一?甚至在数学、编程等领域表现优异,这反常的表现让网友们一度质疑:大模型竞技场莫非被LLM操纵了?不过网友们在实测后却惊讶发现,GPT-4.5的确情商爆表,不用推理就能理解人类的深层意图!

来自主题: AI资讯
6083 点击    2025-03-05 13:31
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科

要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

来自主题: AI技术研报
6073 点击    2025-03-04 14:28