AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini

73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini

73页,开源「后训练」全流程!AI2发布高质量Tülu 3系列模型,拉平闭源差距,比肩GPT-4o mini

Allen Institute for AI(AI2)发布了Tülu 3系列模型,一套开源的最先进的语言模型,性能与GPT-4o-mini等闭源模型相媲美。Tülu 3包括数据、代码、训练配方和评估框架,旨在推动开源模型后训练技术的发展。

来自主题: AI技术研报
8702 点击    2024-12-10 16:23
LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law

LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law

LLM最大能力密度100天翻一倍!清华刘知远团队提出Densing Law

支持大模型一路狂飙的 Scaling Law 到头了? 近期,AI 圈针对 Scaling Law 是否到头产生了分歧。一派观点认为 Scaling Law 已经「撞墙」了,另一派观点(如 OpenAI CEO Sam Altman)仍然坚定 Scaling Law 的潜力尚未穷尽。

来自主题: AI技术研报
8065 点击    2024-12-09 14:59
缺钱缺数据时的大模型微调方法汇总

缺钱缺数据时的大模型微调方法汇总

缺钱缺数据时的大模型微调方法汇总

别说什么“没数据就去标注啊,没钱标注就别做大模型啊”这种风凉话,有些人数据不足也能做大模型,是因为有野心,就能想出来稀缺数据场景下的大模型解决方案,或者整理出本文将要介绍的 "Practical Guide to Fine-tuning with Limited Data" 这样的综述。

来自主题: AI资讯
11109 点击    2024-12-09 09:30
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

知识密集型工作也败了!大型语言模型在预测神经科学结果方面超越了人类专家,平均准确率达到81%,而人类专家仅为63%;模型通过整合大量文献数据,展现出了惊人的前瞻性预测能力,预示着未来科研工作中人机协作的巨大潜力。

来自主题: AI技术研报
8430 点击    2024-12-07 15:20
突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

突破!自然语言强化学习(NLRL):一个可处理语言反馈的强化学习框架

在人工智能发展史上,强化学习 (RL) 凭借其严谨的数学框架解决了众多复杂的决策问题,从围棋、国际象棋到机器人控制等领域都取得了突破性进展。

来自主题: AI技术研报
8637 点击    2024-12-07 15:11
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

以 GPT4V 为代表的多模态大模型(LMMs)在大语言模型(LLMs)上增加如同视觉的多感官技能,以实现更强的通用智能。虽然 LMMs 让人类更加接近创造智慧,但迄今为止,我们并不能理解自然与人工的多模态智能是如何产生的。

来自主题: AI技术研报
7824 点击    2024-12-07 15:02
关于“日本是AI模型训练天堂”的几点澄清

关于“日本是AI模型训练天堂”的几点澄清

关于“日本是AI模型训练天堂”的几点澄清

近两年来,AI技术取得了重大发展。与此同时,对于使用版权内容进行AI模型训练争议不断,各国也都在积极探索适合自身的规制框架。

来自主题: AI资讯
12572 点击    2024-12-07 10:38
NeurIPS 2024 | 哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务

在 Minecraft 中构造一个能完成各种长序列任务的智能体,颇有挑战性。现有的工作利用大语言模型 / 多模态大模型生成行动规划,以提升智能体执行长序列任务的能力。

来自主题: AI技术研报
8023 点击    2024-12-06 17:58