AI资讯新闻榜单内容搜索-EVI

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: EVI
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能(AI)领域的一个悬而未解的问题。为了测量语言模型的事实正确性,近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域,目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报
8090 点击    2024-11-20 15:02
杨植麟发布Kimi新模型:数学对标o1,中考高考考研成绩全第一

杨植麟发布Kimi新模型:数学对标o1,中考高考考研成绩全第一

杨植麟发布Kimi新模型:数学对标o1,中考高考考研成绩全第一

kimi全面开放一周年之际,创始人杨植麟亲自发布新模型—— 数学模型k0-math,对标OpenAI o1系列,主打深入思考。 在MATH、中考、高考、考研4个数学基准测试中,k0-math成绩超过o1-mini和o1-preview。

来自主题: AI资讯
7459 点击    2024-11-16 21:16
全世界最懂大模型的两个产品经理,一起聊怎么做AI产品

全世界最懂大模型的两个产品经理,一起聊怎么做AI产品

全世界最懂大模型的两个产品经理,一起聊怎么做AI产品

这可能是最懂 AI 产品的两位 PM 之间的对谈。Kevin Weil,OpenAI CPO(首席产品官),之前曾是 Instagram、Twitter 的产品副总裁。Mike Kreiger,Anthropic CPO,曾担任 Instagram 的联合创始人、CTO。

来自主题: AI资讯
4853 点击    2024-11-12 09:28
第一个想取代程序员的AI程序员,失败了?

第一个想取代程序员的AI程序员,失败了?

第一个想取代程序员的AI程序员,失败了?

Devin,全球第一款号称「AI程序员」的应用,号称可以完成从写代码、改bug,一直到部署上线运维的软件开发全流程。

来自主题: AI资讯
4017 点击    2024-11-08 20:18
深度|Perplexity CEO 最新洞察:AI 产品除订阅还有许多变现路径,API 成本每半年减少 50%,未来将专注增长

深度|Perplexity CEO 最新洞察:AI 产品除订阅还有许多变现路径,API 成本每半年减少 50%,未来将专注增长

深度|Perplexity CEO 最新洞察:AI 产品除订阅还有许多变现路径,API 成本每半年减少 50%,未来将专注增长

这是Perplexity CEO Aravind Srinivas 不久前在 TechCrunch Disrupt 上与 TechCrunch 高级编辑 Devin Coldewey 的一场对话。

来自主题: AI资讯
4148 点击    2024-11-05 10:56
Windows版ChatGPT来了!直接用上最强o1,快捷键即可召唤

Windows版ChatGPT来了!直接用上最强o1,快捷键即可召唤

Windows版ChatGPT来了!直接用上最强o1,快捷键即可召唤

终于,Windows用户也可以用上ChatGPT了。就在刚刚,OpenAI推出了适用Windows系统的ChatGPT应用。不过,目前仅供ChatGPT Plus、Team、Enterprise和Edu用户使用。

来自主题: AI资讯
4442 点击    2024-10-18 13:27
o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1-preview终于赢过了mini一次! 亚利桑那州立大学的最新研究表明,o1-preview在规划任务上,表现显著优于o1-mini。

来自主题: AI资讯
4336 点击    2024-09-29 15:47