AI资讯新闻榜单内容搜索-后训练方法

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 后训练方法

视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏

视觉大模型迎来“o1时刻”：腾讯混元提出SOAR，让AI在生成中学会自我纠偏

近日，腾讯混元团队提出HY-SOAR （Self-Correction for Optimal Alignment and Refinement），一种面向扩散模型和流匹配模型的数据驱动后训练方法。

来自主题: AI技术研报

7879 点击 2026-04-23 14:44

推理效率狂飙60倍：DiDi-Instruct让扩散大模型16步超越千步GPT

推理效率狂飙60倍：DiDi-Instruct让扩散大模型16步超越千步GPT

推理效率狂飙60倍：DiDi-Instruct让扩散大模型16步超越千步GPT

近日，来自普渡大学、德克萨斯大学、新加坡国立大学、摩根士丹利机器学习研究、小红书 hi-lab 的研究者联合提出了一种对离散扩散大语言模型的后训练方法 —— Discrete Diffusion Divergence Instruct (DiDi-Instruct)。经过 DiDi-Instruct 后训练的扩散大语言模型可以以 60 倍的加速超越传统的 GPT 模型和扩散大语言模型。

来自主题: AI技术研报

10015 点击 2025-10-28 09:40

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

监督微调（SFT）和强化学习（RL）微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展，但是在文本分类场景，强化学习未取得较大的进展，其表现往往不如监督学习。

来自主题: AI技术研报

8490 点击 2025-09-23 14:59

新版DeepSeek-V3官方报告出炉：超越GPT-4.5，仅靠改进后训练

新版DeepSeek-V3官方报告出炉：超越GPT-4.5，仅靠改进后训练

新版DeepSeek-V3官方报告出炉：超越GPT-4.5，仅靠改进后训练

刚刚，DeepSeek官方发布DeepSeek-V3模型更新技术报告。V3新版本在数学、代码类相关评测集成绩超过GPT-4.5！而且这只是通过改进后训练方法实现。DeepSeek-V3-0324和之前的DeepSeek-V3使用同样的base模型。

来自主题: AI资讯

10182 点击 2025-03-25 22:30

ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～

ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～

ChatGPT后训练方法被OpenAI离职联创公开，PPT全网转～

离开OpenAI后，他们俩把ChatGPT后训练方法做成了PPT，还公开了～

来自主题: AI资讯

4077 点击 2025-02-19 11:06

上一页当前第1页,共1页下一页