AI资讯新闻榜单内容搜索-模型训练

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 模型训练

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

尽管多模态大模型在通用视觉理解任务中表现出色，但不具备细粒度视觉识别能力，这极大制约了多模态大模型的应用与发展。针对这一问题，北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力：对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力，发现了「视觉对象与细粒度子类别未对齐」

来自主题: AI资讯

10351 点击 2025-02-17 17:37

Llama模仿Diffusion多模态涨分30%！不卷数据不烧卡，只需共享注意力分布

Llama模仿Diffusion多模态涨分30%！不卷数据不烧卡，只需共享注意力分布

Llama模仿Diffusion多模态涨分30%！不卷数据不烧卡，只需共享注意力分布

这次不是卷参数、卷算力，而是卷“跨界学习”——

来自主题: AI技术研报

8674 点击 2025-02-17 14:43

语言模型新范式：首个8B扩散大语言模型LLaDA发布，性能比肩LLaMA 3

语言模型新范式：首个8B扩散大语言模型LLaDA发布，性能比肩LLaMA 3

语言模型新范式：首个8B扩散大语言模型LLaDA发布，性能比肩LLaMA 3

近年来，大语言模型（LLMs）取得了突破性进展，展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前，普遍的观点认为其成功依赖于自回归模型的「next token prediction」范式。

来自主题: AI技术研报

9119 点击 2025-02-17 14:37

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

自然语言 token 代表的意思通常是表层的（例如 the 或 a 这样的功能性词汇），需要模型进行大量训练才能获得高级推理和对概念的理解能力，

来自主题: AI技术研报

6544 点击 2025-02-16 13:12

大模型都喜欢拍马屁，Gemini最能拍！斯坦福：这不安全、不可靠

大模型都喜欢拍马屁，Gemini最能拍！斯坦福：这不安全、不可靠

大模型都喜欢拍马屁，Gemini最能拍！斯坦福：这不安全、不可靠

问题挺严重，大模型说的话可不能全信。

来自主题: AI技术研报

7614 点击 2025-02-15 16:20

炒菜、雕刻、绘画、汽车人变形！MakeAnything用扩散Transformer解锁多任务过程生成

炒菜、雕刻、绘画、汽车人变形！MakeAnything用扩散Transformer解锁多任务过程生成

炒菜、雕刻、绘画、汽车人变形！MakeAnything用扩散Transformer解锁多任务过程生成

人类智慧的一大特征是能够分步骤创造复杂作品，例如绘画、手工艺和烹饪等，这些过程体现了逻辑与美学的融合。

来自主题: AI技术研报

9215 点击 2025-02-15 15:26

DeepSeek R1遇难题142次"I give up"，研究还称需增加推理时机控制机制

DeepSeek R1遇难题142次"I give up"，研究还称需增加推理时机控制机制

DeepSeek R1遇难题142次"I give up"，研究还称需增加推理时机控制机制

最新大语言模型推理测试引众议，DeepSeek R1常常在提供错误答案前就“我放弃”了？？ Cursor刚刚参与了一项研究，他们基于NPR周日谜题挑战（The Sunday Puzzle），构建了一个包含近600个问题新基准测试。

来自主题: AI技术研报

7245 点击 2025-02-14 17:41

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

7B大小的视频理解模型中的新SOTA，来了！

来自主题: AI技术研报

8224 点击 2025-02-14 15:23

超越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理过程

超越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理过程

超越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理过程

近日，微软和剑桥大学公布推理新方法：多模态思维可视化MVoT。新方法可以边推理，边「想象」，同时利用文本和图像信息学习，在实验中比CoT拥有更好的可解释性和稳健性，复杂情况下甚至比CoT强20%。还可以与CoT组合，进一步提升模型性能。

来自主题: AI技术研报

7164 点击 2025-02-14 14:15

打破纪录！谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

打破纪录！谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

打破纪录！谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

史上最大规模视觉语言数据集：1000亿图像-文本对！

来自主题: AI技术研报

7345 点击 2025-02-14 12:10

上一页当前第254页,共373页下一页