AI资讯新闻榜单内容搜索-训练

多步推理碾压GPT-4o，无需训练性能提升10%！斯坦福开源通用框架OctoTools

OctoTools通过标准化工具卡和规划器，帮助LLMs高效完成复杂任务，无需额外训练。在16个任务中表现优异，比其他方法平均准确率高出9.3%，尤其在多步推理和工具使用方面优势明显。

来自主题: AI技术研报

7688 点击 2025-03-12 14:47

为了解决视频编辑模型缺乏训练数据的问题，本文作者（来自香港中文大学、香港理工大学、清华大学等高校和云天励飞）提出了一个名为 Señorita-2M 的数据集。该数据集包含 200 万高质量的视频编辑对，囊括了 18 种视频编辑任务。

来自主题: AI技术研报

8574 点击 2025-03-12 14:41

大模型训练几乎消耗尽所有IT数据之后，挖掘OT数据正成为AI落地的重要方向。

来自主题: AI资讯

9667 点击 2025-03-12 14:09

大语言模型长序列文本生成效率新突破——生成10万Token的文本，传统自回归模型需要近5个小时，现在仅需90分钟！

来自主题: AI技术研报

10042 点击 2025-03-12 13:52

只要微调模型生成的前8-32个词，就能让大模型推理能力达到和传统监督训练一样的水平？

来自主题: AI技术研报

8346 点击 2025-03-12 13:41

首次将DeepSeek同款RLVR应用于全模态LLM，含视频的那种！

来自主题: AI技术研报

8935 点击 2025-03-11 17:34

挑战多图数学推理新基准，大模型直接全军覆没？！

来自主题: AI技术研报

8363 点击 2025-03-11 17:22

没有任何冷启动数据，7B 参数模型能单纯通过强化学习学会玩数独吗？

来自主题: AI技术研报

9471 点击 2025-03-11 17:03

o1/o3这样的推理模型太强大，一有机会就会利用漏洞作弊，怎么办？

来自主题: AI资讯

6481 点击 2025-03-11 16:35

武汉大学等发布了一篇大型视觉语言模型（LVLMs）安全性的综述论文，提出了一个系统性的安全分类框架，涵盖攻击、防御和评估，并对最新模型DeepSeek Janus-Pro进行了安全性测试，发现其在安全性上存在明显短板。

来自主题: AI技术研报

8295 点击 2025-03-11 16:32