AI资讯新闻榜单内容搜索-模型训练

通过打包 Flash Attention 来提升 Hugging Face 训练效率

现在，在 Hugging Face 中，使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容，这要归功于一个最近的 PR 以及新的 DataCollatorWithFlattening。它可以在保持收敛质量的同时，将训练吞吐量提高多达 2 倍。继续阅读以了解详细信息！

来自主题: AI资讯

4304 点击 2024-09-18 15:44

OpenAI o1要跟，怎么跟？这个GitHub项目把解读、博客、相关论文一网打尽

优秀的 GitHub 项目啊！有关 OpenAI ο1 的一切都在这里

来自主题: AI技术研报

7120 点击 2024-09-17 23:19

港大新型图基础模型AnyGraph：挑战Scaling Law，精准建模多样化结构模式和特征空间

新型图基础模型来了—— AnyGraph，基于图混合专家（MoE）架构，专门为实现图模型跨场景泛化而生。

来自主题: AI资讯

7467 点击 2024-09-17 21:57

o1突发内幕曝光？谷歌8月论文已揭示原理，大模型光有软件不存在护城河

发布不到1周，OpenAI最强模型o1的护城河已经没有了。

来自主题: AI资讯

8567 点击 2024-09-17 21:49

COLM 24 | 从正确中学习？大模型的自我纠正新视角

大型语言模型（LLMs）虽然进展很快，很强大，但是它们仍然存在会产生幻觉、生成有害内容和不遵守人类指令等问题。一种流行的解决方案就是基于【自我纠正】，大概就是看自己输出的结果，自己反思一下有没有错，如果有错就自己改正。目前自己纠正还是比较关注于让大模型从错误中进行学习。

来自主题: AI技术研报

9083 点击 2024-09-17 21:26

昂贵LLM的救星？Nature新研究提出新型忆阻器，比Haswell CPU高效460倍

前些天，OpenAI 发布了 ο1 系列模型，它那「超越博士水平的」强大推理性能预示着其必将在人们的生产生活中大有作为。但它的使用成本也很高，以至于 OpenAI 不得不限制每位用户的使用量：每位用户每周仅能给 o1-preview 发送 30 条消息，给 o1-mini 发送 50 条消息。

来自主题: AI技术研报

6552 点击 2024-09-17 19:14

ECCV 2024 | 一眼临摹：瞥一眼就能模仿笔迹的AI

来自华南理工大学、新加坡国立大学、昆仑万维以及琶洲实验室的研究者们提出一种新的风格化手写文字生成方法，仅需提供单张参考样本即可临摹用户的书写风格，支持英文，中文和日文三种文字的临摹。

来自主题: AI资讯

11699 点击 2024-09-16 20:40

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题，明确的正确答案> ，再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索，只要提供足够的计算量用于搜索，总可以搜到最后的正确路径。然而，这样只是建立起问题和答案之间的更好的联系，如何泛化到更复杂的问题场景，技术远不止这么简单。

来自主题: AI技术研报

8002 点击 2024-09-15 14:41

华为诺亚联合中科大发布工具调用模型ToolACE，效果持平GPT-4获开源第一

大语言模型（如 GPT-4）具备强大的语言处理能力，但其独立运作时仍存在局限性，如无法进行复杂计算，获取不到实时信息，难以提供专业定制化功能等。而大语言模型的工具调用能力使其不仅限于文字处理，更能提供全面、实时、精确的服务，极大地扩展了其应用范围和实际价值。

来自主题: AI技术研报

9065 点击 2024-09-15 14:32

南加大提出全新「通用时间序列」基础模型TimeDiT！基于扩散模型创新物理约束机制

随着近年来在文本和视频数据上构建基础模型的进展，学术界对时间序列的基础模型也表现出浓厚的兴趣。时间序列分析在许多关键领域中具有重要性，能够影响从科学研究到经济决策的广泛应用。

来自主题: AI资讯

5684 点击 2024-09-14 16:21