
微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源
微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源RedStone是一个高效构建大规模指定领域数据的处理管道,通过优化数据处理流程,从Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等数据集,在多项任务中超越了现有开源数据集,显著提升了模型性能。
RedStone是一个高效构建大规模指定领域数据的处理管道,通过优化数据处理流程,从Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等数据集,在多项任务中超越了现有开源数据集,显著提升了模型性能。
强化学习训练数据越多,模型推理能力就越强?新研究提出LIM方法,揭示提升推理能力的关键在于优化数据质量,而不是数据规模。该方法在小模型上优势尽显。从此,强化学习Scaling Law可能要被改写了!
用扩散模型替代自回归,大模型的逆诅咒有解了!
刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型!新模型共2款:全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。
国产AI几何模型性能达IMO金牌水平,打平谷歌DeepMind最新AlphaGeometry系列——
一些推理模型的使用技巧和启示
四万字深聊DeepSeek!2025年1月底在媒体聚集的达沃斯论坛上,微软CEO Satya Nadella以及Scale AI创始人Alexandr Wang的发言直接将DeepSeek推到风口浪尖...
用代码训练大模型思考,其他方面的推理能力也能提升。
尽管多模态大模型在通用视觉理解任务中表现出色,但不具备细粒度视觉识别能力,这极大制约了多模态大模型的应用与发展。针对这一问题,北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力:对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力,发现了「视觉对象与细粒度子类别未对齐」
这次不是卷参数、卷算力,而是卷“跨界学习”——