
280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高
280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高计算机科学、数学、自然科学、医学、语言学、社会科学……OpenAI o1擅长什么?还有哪些不足?
来自主题: AI技术研报
9364 点击 2024-10-01 14:29
计算机科学、数学、自然科学、医学、语言学、社会科学……OpenAI o1擅长什么?还有哪些不足?
6月,IEEE刊登了一篇对ChatGPT代码生成任务进行系统评估的论文,数据集就是程序员们最爱的LeetCode题库。研究揭示了LLM在代码任务中出现的潜在问题和能力局限,让我们能够对模型做出进一步改进,并逐渐了解使用ChatGPT写代码的最佳姿势。
连ChatGPT看了都直摇头的算法优化,被北大团队给搞定了。 测试表明,新研究能解验证集中90%的题目,包括NOIP、Codeforce、Leetcode等比赛中的分治和动态规划题目——这些题目,很多大模型也难以解决。