AI资讯新闻榜单内容搜索-模型训练

通用世界模型问世：不学习就能生成新领域视频，可实时控制

这才是 AI 视频生成的未来？

来自主题: AI资讯

9433 点击 2024-05-24 20:48

标注受限也能识别多标签图像！中山大学等发布异构语义转移HST框架 | IJCV 2024

在多标签图像识别领域中，由于图像本身和潜在标签类别的复杂性，收集满足现有模型训练的多标签标注信息往往成本高昂且难以拓展。中山大学联合广东工业大学联手探索标注受限情况下的多标签图像识别任务，通过对多标签图像中的强语义相关性的探索研究，提出了一种异构语义转移(Heterogeneous Semantic Transfer, HST) 框架，实现了有效的未知标签生成。

来自主题: AI技术研报

5336 点击 2024-05-24 20:39

世界模型也扩散！训练出的智能体竟然不错

在图像生成领域占据主导地位的扩散模型，开始挑战强化学习智能体。

来自主题: AI技术研报

10928 点击 2024-05-24 11:22

注意！这个小球开始下山了

4年前的开源项目突然在Hacker News爆火，通过可视化的「小球下山」，帮助非专业和专业人士，更好地理解AI训练中梯度下降的过程。

来自主题: AI资讯

7590 点击 2024-05-23 21:16

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

开源多模态SOTA模型再易主！Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。

来自主题: AI资讯

8409 点击 2024-05-22 18:29

简单通用：视觉基础网络最高3倍无损训练加速，清华EfficientTrain++入选TPAMI 2024

近年来，「scaling」是计算机视觉研究的主角之一。随着模型尺寸和训练数据规模的增大、学习算法的进步以及正则化和数据增强等技术的广泛应用，通过大规模训练得到的视觉基础网络（如 ImageNet1K/22K 上训得的 Vision Transformer、MAE、DINOv2 等）已在视觉识别、目标检测、语义分割等诸多重要视觉任务上取得了令人惊艳的性能。

来自主题: AI技术研报

10529 点击 2024-05-22 13:33