EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。
监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。
可灵2.5,来了。 不仅已经对可灵的超级创作者们正式进行灰度内测,还在这个周末,登上了釜山国际电影节。
美国时间 9 月 22 日,北京时间 9 月 23 日凌晨,英伟达和 OpenAI 突然宣布战略合作伙伴和重大投资。
“优时映画”正在通过AI工具,把动漫改编的周期缩短到1-2个月。
近日,Sensor Tower 发布《2025 年 AI 应用市场调查报告》,报告中提到,移动端 AI 产品 IAP 收入在 2025 年上半年半年度环比增长率为 100%,但具体到产品上,全球 IAP 收入 Top10 全部都是 ChatBot,相比于 Web 端的百花齐放,App 端能赚到钱的 AI 原生产品依旧单一。
2017 年,一篇标题看似简单、甚至有些狂妄的论文在线上出现:《Attention Is All You Need》。
上周,全球创投圈的“风向标”YC,它的2025夏季演示日落下帷幕,169多家初创公司集中亮相。
近日,国内首次针对AI大模型的实网众测结果正式公布,一场大型“安全体检”透露出不容忽视的信号:本次活动累计发现安全漏洞281个,其中大模型特有漏洞高达177个,占比超过六成,这组数据表明,AI正面临着超出传统安全范畴的新型威胁。
今年春天,医学教育平台 AMBOSS 宣布完成 2.6 亿美元融资;不久后,AI 编程公司 Windsurf 的估值也跃升至 28.5 亿美元。与此同时,在东南亚、欧洲和印度市场,Manabie、Knowunity、Eruditus、Lingokids 等公司也相继拿下千万至上亿美元的新一轮资金。
DeepSeek最新模型DeepSeek-V3.1-Terminus来了!此前在输出中随机掺入「极」字的问题得到显著缓解,Humanity's Last Exam成绩也较V3.1提升1/3!Terminus这个名字是否在暗示DeepSeek-V4也快要来了?