AI资讯新闻榜单内容搜索-模型训练

仅100种子题，合成数据质量超GPT-5，阿里、上交提出Socratic-Zero框架

阿里巴巴与上海交通大学 EPIC Lab 联合提出 Socratic-Zero，一个完全无外部数据依赖的自主推理训练框架。该方法仅从 100 个种子问题出发，通过三个智能体的协同进化，自动生成高质量、难度自适应的课程，并持续提升模型推理能力。

来自主题: AI技术研报

6717 点击 2025-10-24 16:45

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

在科幻作品描绘的未来，人工智能不仅仅是完成任务的工具，更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中，多模态大模型已展现出一定潜力，可以接受视觉、语音等多模态的信息输入，结合上下文做出反馈。

来自主题: AI技术研报

6531 点击 2025-10-24 10:51

不用强化学习也能推理，哈佛新采样算法竟能让基础模型比肩GRPO后训练版本

强化学习能力强大，几乎已经成为推理模型训练流程中的标配，也有不少研究者在探索强化学习可以为大模型带来哪些涌现行为。

来自主题: AI技术研报

4619 点击 2025-10-24 10:33

Meta「透视」AI思维链：CRV推理诊断，准确率达 92%！

在最近一篇来自Meta FAIR团队的论文里，研究者找到了一种前所未有的方式——他们能实时看到AI的思考过程。这项名为CRV的方法，通过替换模型内部的MLP模块，让每一步推理都变得「可见」。这不是隐喻，而是可量化的现象。Meta用它让错误检测精度提升到92.47%，也让人类第一次得以窥见AI是怎么想错的。

来自主题: AI技术研报

8231 点击 2025-10-24 10:19

大模型微调范式认知再被颠覆？UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解

在大模型微调实践中，SFT（监督微调）几乎成为主流流程的一部分，被广泛应用于各类下游任务和专用场景。比如，在医疗领域，研究人员往往会用领域专属数据对大模型进行微调，从而显著提升模型在该领域特定任务上的表现。

来自主题: AI技术研报

6816 点击 2025-10-24 10:13

新研究揭穿Claude底裤，马斯克盖棺定论

啥情况，马斯克在𝕏上直接锐评Claude「邪恶透顶」：这次起因是这样的，最新研究发现，Claude Sonnet 4.5竟然认为尼日利亚人的生命价值是德国人的27倍。具体而言，在面对不同国家的绝症患者时，Claude「清醒」得有点吓人——

来自主题: AI资讯

7686 点击 2025-10-23 16:25

R-HORIZON：长程推理时代来临，复旦NLP&美团LongCat重磅发布LRMs能力边界探测新范式

当前的训练与评测范式存在一个根本性的局限：几乎所有主流 Benchmark（如 MATH500、AIME）都聚焦于孤立的单步问题，问题之间相互独立，模型只需「回答一个问题，然后结束」。但真实世界的推理场景往往截然不同：为填补这一空白，复旦大学与美团 LongCat Team 联合推出 R-HORIZON—— 首个系统性评估与增强 LRMs 长链推理能力的方法与基准。

来自主题: AI技术研报

6570 点击 2025-10-23 16:22