AI资讯新闻榜单内容搜索-微调

只需一次指令微调，大模型变身全能专家天团，8B模型性能反超全微调基线 | ACL25 Oral

只需一次指令微调，即可让普通大模型变身“全能专家天团”？

来自主题: AI技术研报

8300 点击 2025-07-29 10:45

新一代大型推理模型，如 OpenAI-o3、DeepSeek-R1 和 Kimi-1.5，在复杂推理方面取得了显著进展。该方向核心是一种名为 ZERO-RL 的训练方法，即采用可验证奖励强化学习（RLVR）逐步提升大模型在强推理场景 (math, coding) 的 pass@1 能力。

来自主题: AI技术研报

7672 点击 2025-07-28 10:36

告别Next-token，现在模型微调阶段就能直接多token预测！

来自主题: AI技术研报

9179 点击 2025-07-25 10:00

最近，一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖，更展现出强大的Scaling潜力，让小模型也能超越规模大数十倍的对手。

来自主题: AI技术研报

7750 点击 2025-07-11 16:30

MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型，通过持续预训练和异构对比微调，提升模型性能和泛化能力，在多模态基准测试中表现优异，尤其小规模模型性能突出。

来自主题: AI技术研报

10019 点击 2025-07-11 10:09

自适应语言模型框架SEAL，让大模型通过生成自己的微调数据和更新指令来适应新任务。SEAL在少样本学习和知识整合任务上表现优异，显著提升了模型的适应性和性能，为大模型的自主学习和优化提供了新的思路。

来自主题: AI技术研报

8582 点击 2025-07-10 11:33

清华大学朱军教授团队提出SageAttention3，利用FP4量化实现推理加速，比FlashAttention快5倍，同时探索了8比特注意力用于训练任务的可行性，在微调中实现了无损性能。

来自主题: AI技术研报

8458 点击 2025-07-08 12:08

MIT最新研究让LLM直接操控宇宙飞船进行太空追逐挑战赛：ChatGPT少量微调即获第二，开源Llama更胜一筹，凭提示词精准追踪卫星、节省燃料，更是0%失败率，验证AI小数据高效与自主航天可行，为未来的太空漫游铺路。

来自主题: AI技术研报

8306 点击 2025-07-03 11:48

通过单阶段监督微调与强化微调结合，让大模型在训练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。

来自主题: AI技术研报

7905 点击 2025-07-02 15:35

中科院自动化所提出DipLLM，这是首个在复杂策略游戏Diplomacy中基于大语言模型微调的智能体框架，仅用Cicero 1.5%的训练数据就实现超越

来自主题: AI资讯

8948 点击 2025-07-01 15:30