AI资讯新闻榜单内容搜索-训练

探索LLM推理全阶段的JSON格式输出限制方法

文章详细讨论了如何确保大型语言模型（LLMs）输出结构化的JSON格式，这对于提高数据处理的自动化程度和系统的互操作性至关重要。

来自主题: AI技术研报

11827 点击 2024-10-31 10:14

国产最强语音大模型诞生，MaskGCT宣布开源，声音效果媲美人类

近期，港中大（深圳）联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练，展现出超自然的语音克隆、风格迁移以及跨语言生成能力，同时保持了较强的稳定性。MaskGCT 已在香港中文大学（深圳）与上海人工智能实验室联合开发的开源系统 Amphion 发布。

来自主题: AI技术研报

5586 点击 2024-10-30 13:57

免训练大模型知识编辑，吸收新数据更高效｜EMNLP'24

让大模型能快速、准确、高效地吸收新知识！

来自主题: AI技术研报

7588 点击 2024-10-29 17:57

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

TimeMixer++是一个创新的时间序列分析模型，通过多尺度和多分辨率的方法在多个任务上超越了现有模型，展示了时间序列分析的新视角，在预测和分类等任务带来了更高的准确性和灵活性。

来自主题: AI技术研报

5358 点击 2024-10-29 14:51

Janus：DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus 是 DeepSeek AI 开发的一个先进的多模态理解和生成框架，它通过创新性地解耦视觉编码路径来应对多模态理解和生成任务之间的需求冲突。

来自主题: AI技术研报

8642 点击 2024-10-29 14:46

PUMA：商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA（emPowering Unified MLLM with Multi-grAnular visual generation）是一项创新的多模态大型语言模型（MLLM），由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示，巧妙地平衡了视觉生成任务中的多样性与可控性。

来自主题: AI技术研报

5609 点击 2024-10-29 14:32

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

把平均成功率从 50% 拉到了 100%。

来自主题: AI资讯

9792 点击 2024-10-29 13:46

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

在当前内卷严重的实时目标检测 (Real-time Object Detection) 领域，性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略，导致性能逐渐趋于饱和。

来自主题: AI技术研报

11231 点击 2024-10-29 13:30

突破时间序列组合推理难题！南加大发布一站式多步推理框架TS-Reasoner

TS-Reasoner是一个创新的多步推理框架，结合了大型语言模型的上下文学习和推理能力，通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估，有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明，TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上，相较于现有方法具有显著的性能优势。

来自主题: AI技术研报

6725 点击 2024-10-28 18:30

一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

长视频理解迎来新纪元！智源联手国内多所顶尖高校，推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频，未来AI看懂电影再也不是难事。

来自主题: AI技术研报

7867 点击 2024-10-28 17:38