ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。
大型语言模型(LLMs)在解决问题方面的非凡能力日益显现。最近,一个值得关注的现象是,这些模型在多项数学推理的基准测试中获得了惊人的成绩。以 GPT-4 为例,在高难度小学应用题测试集 GSM8K [1] 中表现优异,准确率高达 90% 以上。同时,许多开源模型也展现出了不俗的实力,准确率超过 80%。
只需激活60%的参数,就能实现与全激活稠密模型相当的性能。
给全球 80 亿人提供大规模、按需的个性化教育。
80亿人平分不到一个费曼,但可以受教于更多AI教学助理。
离职OpenAI五个月后,AI大神Karpathy终于宣布自创业了。一家专注于AI+教育原生学校Eureka Labs,未来将面向全球80亿人,从0按需辅导AI。从产业界转身教育事业,是Karpathy近20年来的终极梦想,现如愿成真。
13.8和13.11哪个大?这个问题不光难倒了部分人类,还让一票大模型折戟。AI如今都能做AI奥数题了,但简单的常识问题对它们依然难如登天。其实,无论是比大小,还是卷心菜难题,都揭示了LLM在token预测上的一个重大缺陷。
美国创作初创企业Q2筹集资金增68%,AI影响显著。
曼哈顿计划2.0来了?截止目前,美国军方已经拥有800多个活跃的AI项目,仅在24年就为AI申请了18亿美元的资金。在未来五年内,美国还将拨款60亿美元,用于无人协作战斗机的研发。现在,AI似乎已经进入了奥本海默时刻。
2022年,Google研究团队发表了名为《思路链提示引发大型语言模型的推理》的开创性论文,引入了思维链(Chain of Thought, CoT)prompting技术。
84岁的美国老人Dorothy Elicati在失去结婚65年的丈夫后,每天醒来唯一做的事就是哭泣,直到一个AI机器人的出现。现在,美国会每年花费70万美元,为某些州的老年人免费发放这款机器人。