AI资讯新闻榜单内容搜索-预训练

全球首次！时序大模型突破十亿参数，华人团队发布Time-MoE，预训练数据达3000亿个时间点

Time-MoE采用了创新的混合专家架构，能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。

来自主题: AI技术研报

5883 点击 2024-10-23 13:40

对话李开复：零一万物融的钱够做预训练，我做toB不会亏钱

刚从美国回来的李开复，想清楚了很多事情，他的大模型公司零一万物也开始发生变化。

来自主题: AI资讯

9018 点击 2024-10-17 15:29

李开复回应放弃预训练：训一次大模型三四百万美元，头部公司都付得起｜最前线

零一万物的最新模型，打榜赢了GPT-4o。

来自主题: AI资讯

4264 点击 2024-10-17 09:56

Evaluation is All You Need！首个开源多模态大模型通用评测器LLaVA-Critic

随着对现有互联网数据的预训练逐渐成熟，研究的探索空间正由预训练转向后期训练（Post-training），OpenAI o1 的发布正彰显了这一点。

来自主题: AI技术研报

6239 点击 2024-10-14 15:46

红杉资本2024：生成式AI o1新章节，代理推理时代开始，预计会出现新的“杀手级应用”

生成性人工智能正从快速预训练响应向慢速深度推理转变，开启自主应用的新篇章。

来自主题: AI资讯

8429 点击 2024-10-12 10:26

NeurIPS 2024｜SparseLLM：突破性全局剪枝技术，大语言模型稀疏化革命

该研究主要探讨了大语言模型的全局剪枝方法，旨在提高预训练语言模型的效率。该成果的发表为大模型的剪枝与优化研究提供了新的视角，并在相关领域具有重要的应用潜力。

来自主题: AI技术研报

6037 点击 2024-10-10 17:17

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

随着大规模语言模型的快速发展，如 GPT、Claude 等，LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而，即便如此，LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出，常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题，学术界和工业界提出了一系列对齐（Alignment）技术，旨在优化模型的输出，使其更加符合人类的价值观和期望。

来自主题: AI技术研报

9662 点击 2024-10-10 12:21