AI资讯新闻榜单内容搜索-SFT

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: SFT
让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek

在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在 50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。

来自主题: AI技术研报
7144 点击    2025-03-09 13:32
上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了

上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了

上海AI Lab最新推出Mixture-of-Memories:线性注意力也有稀疏记忆了

回顾 AGI 的爆发,从最初的 pre-training (model/data) scaling,到 post-training (SFT/RLHF) scaling,再到 reasoning (RL) scaling,找到正确的 scaling 维度始终是问题的本质。

来自主题: AI技术研报
4173 点击    2025-03-06 09:46
全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

由UCLA等机构共同组建的研究团队,全球首次在20亿参数非SFT模型上,成功实现了多模态推理的DeepSeek-R1「啊哈时刻」!就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理「啊哈时刻」!

来自主题: AI技术研报
6857 点击    2025-03-05 20:42
微软的人工智能收入猛增,但长线挑战却早已迫在眉睫

微软的人工智能收入猛增,但长线挑战却早已迫在眉睫

微软的人工智能收入猛增,但长线挑战却早已迫在眉睫

微软 ( NASDAQ: MSFT) 2025 年第一季度营收激增,同时还有大规模的人工智能投资(1000 亿美元)。此后,该股表现略逊于市场(标准普尔 500 指数,+3.65%),价格回报率为负 1%。几天前,该公司公布了第二季度业绩。

来自主题: AI资讯
7067 点击    2025-02-12 11:49
1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

1/10训练数据超越GPT-4o!清华等提出隐式过程奖励模型PRIME,在线刷SOTA

1/10训练数据激发高级推理能力!近日,来自清华的研究者提出了PRIME,通过隐式奖励来进行过程强化,提高了语言模型的推理能力,超越了SFT以及蒸馏等方法。

来自主题: AI技术研报
2770 点击    2025-01-08 11:12
深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

最近OpenAI Day2展示的demo可能把ReFT带火了。实际上这不是一个很新的概念,也不是OpenAI原创的论文。 接下来,本文对比SFT、ReFT、RHLF、DPO、PPO这几种常见的技术。

来自主题: AI技术研报
8211 点击    2024-12-10 15:01
将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率

将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率

将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率

代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。 北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。

来自主题: AI技术研报
6796 点击    2024-11-27 14:35
一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

一文搞懂SFT、RLHF、DPO、IFT

SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好,再与人类的偏好进行对齐

来自主题: AI资讯
5914 点击    2024-08-22 17:04