AI资讯新闻榜单内容搜索-后训练方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 后训练方法
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。

来自主题: AI技术研报
6354 点击    2025-09-23 14:59
新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

新版DeepSeek-V3官方报告出炉:超越GPT-4.5,仅靠改进后训练

刚刚,DeepSeek官方发布DeepSeek-V3模型更新技术报告。V3新版本在数学、代码类相关评测集成绩超过GPT-4.5!而且这只是通过改进后训练方法实现。DeepSeek-V3-0324和之前的DeepSeek-V3使用同样的base模型。

来自主题: AI资讯
8612 点击    2025-03-25 22:30
ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

ChatGPT后训练方法被OpenAI离职联创公开,PPT全网转~

离开OpenAI后,他们俩把ChatGPT后训练方法做成了PPT,还公开了~

来自主题: AI资讯
3062 点击    2025-02-19 11:06