AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

随着大语言模型展现出惊人的语言智能,各大 AI 公司纷纷推出自己的大模型。这些大模型通常在不同领域和任务上各有所长,如何将它们集成起来以挖掘其互补潜力,成为了 AI 研究的前沿课题。

来自主题: AI技术研报
9423 点击    2024-07-19 16:21
华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由

MoE 因其在训推流程中低销高效的特点,近两年在大语言模型领域大放异彩。作为 MoE 的灵魂,专家如何能够发挥出最大的学习潜能,相关的研究与讨论层出不穷。此前,华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ,包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等,引发了广泛关注。

来自主题: AI技术研报
5714 点击    2024-07-19 16:16
假开源真噱头?Meta再陷「开源」争议,LeCun被炮轰Meta只是开放模型

假开源真噱头?Meta再陷「开源」争议,LeCun被炮轰Meta只是开放模型

假开源真噱头?Meta再陷「开源」争议,LeCun被炮轰Meta只是开放模型

大模型开源的热潮下,隐藏着诸多问题,从定义的模糊到实际开放内容的局限性,Lecun再陷Meta大模型是否真开源的质疑风波只是冰山一角。

来自主题: AI技术研报
9399 点击    2024-07-19 12:34
清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024

大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特有的泛化性与可扩展性

来自主题: AI技术研报
11597 点击    2024-07-19 12:31
如何将 LLM 的上下文扩展至百万级?

如何将 LLM 的上下文扩展至百万级?

如何将 LLM 的上下文扩展至百万级?

在2023年初,即便是当时最先进的GPT-3.5,其上下文长度也仅限于2k。然而,时至今日,1M的上下文长度已经成为衡量模型技术先进性的重要标志之一。

来自主题: AI技术研报
6149 点击    2024-07-19 10:14
AI Agent 阶段性总结与创投观察

AI Agent 阶段性总结与创投观察

AI Agent 阶段性总结与创投观察

Agent 是什么

来自主题: AI技术研报
11762 点击    2024-07-18 17:35
OpenAI超级对齐团队再发「绝唱」!首提「证明者-验证者」博弈,训练GPT说人话

OpenAI超级对齐团队再发「绝唱」!首提「证明者-验证者」博弈,训练GPT说人话

OpenAI超级对齐团队再发「绝唱」!首提「证明者-验证者」博弈,训练GPT说人话

当我们不停在CoT等领域大下苦功、试图提升LLM推理准确性的同时,OpenAI的对齐团队从另一个角度发现了华点——除了准确性,生成答案的清晰度、可读性和可验证性也同样重要。

来自主题: AI技术研报
5370 点击    2024-07-18 16:19
无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

无损加速最高5x,EAGLE-2让RTX 3060的生成速度超过A100

自回归解码已经成为了大语言模型(LLMs)的事实标准,大语言模型每次前向计算需要访问它全部的参数,但只能得到一个token,导致其生成昂贵且缓慢。

来自主题: AI技术研报
10536 点击    2024-07-17 20:33
快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

快手开源LivePortrait,GitHub 6.6K Star,实现表情姿态极速迁移

近日,快手可灵大模型团队开源了名为LivePortrait的可控人像视频生成框架,该框架能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。

来自主题: AI技术研报
12490 点击    2024-07-17 20:22
原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳

原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳

原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳

最近,7B小模型又成为了AI巨头们竞相追赶的潮流。继谷歌的Gemma2 7B后,Mistral今天又发布了两个7B模型,分别是针对STEM学科的Mathstral,以及使用Mamaba架构的代码模型Codestral Mamba。

来自主题: AI技术研报
10182 点击    2024-07-17 19:53
大模型“玩”Excel更6了,微软搞的

大模型“玩”Excel更6了,微软搞的

大模型“玩”Excel更6了,微软搞的

大模型理解、推理Excel,现在变得更加精准了。

来自主题: AI技术研报
8875 点击    2024-07-16 20:09
VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

视觉大语言模型在最基础的视觉任务上集体「翻车」,即便是简单的图形识别都能难倒一片,或许这些最先进的VLM还没有发展出真正的视觉能力?

来自主题: AI技术研报
9644 点击    2024-07-16 19:43
Claude 3.5核心编码prompt揭秘,全网码农沸腾!四步调教法,最新V2版放出

Claude 3.5核心编码prompt揭秘,全网码农沸腾!四步调教法,最新V2版放出

Claude 3.5核心编码prompt揭秘,全网码农沸腾!四步调教法,最新V2版放出

最核心的Claude 3.5编码系统提示,火遍Reddit社区。就在刚刚,原作者发布了进化后的第二版,有的网友已经将其加入工作流。

来自主题: AI技术研报
9817 点击    2024-07-16 19:36
MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。最近,谷歌DeepMind提出了全新的策略PEER,可将MoE扩展到百万个专家,还不会增加计算成本。

来自主题: AI技术研报
9706 点击    2024-07-15 20:01
MotionClone:无需训练,一键克隆视频运动

MotionClone:无需训练,一键克隆视频运动

MotionClone:无需训练,一键克隆视频运动

无需训练或微调,在提示词指定的新场景中克隆参考视频的运动,无论是全局的相机运动还是局部的肢体运动都可以一键搞定。

来自主题: AI技术研报
6618 点击    2024-07-15 14:10
登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题

自从 Devin(首个全自动 AI 软件工程师)提出以来,针对软件工程的 AI Agent 的设计成为研究的焦点,越来越多基于 Agent 的 AI 自动软件工程师被提出,并在 SWE-bench 数据集上取得了不俗的表现、自动修复了许多真实的 GitHub issue。

来自主题: AI技术研报
3738 点击    2024-07-15 14:06
AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键

AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键

AI大模型有望再扩1000倍!剑桥耶鲁康奈尔:PNN是变革关键

最近,多个机构学者合著的一篇研究为AI的规模化指了一条新路:物理神经网络(PNN),这一新兴的前沿领域还鲜少有人涉足,但绝对值得深耕!AI模型再扩展1000倍的秘密可能就藏在这里。

来自主题: AI技术研报
9381 点击    2024-07-14 14:01
6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码

6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码

6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码

来自微软、MIT等机构的学者提出了一种创新的训练范式,攻破了大模型的推理缺陷。他们通过因果模型构建数据集,直接教模型学习公理,结果只有67M参数的微型Transformer竟能媲美GPT-4的推理能力。

来自主题: AI技术研报
9638 点击    2024-07-14 13:52
Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

Meta开发System 2蒸馏技术,Llama 2对话模型任务准确率接近100%

研究者表示,如果 Sytem 2 蒸馏可以成为未来持续学习 AI 系统的重要特征,则可以进一步提升 System 2 表现不那么好的推理任务的性能。

来自主题: AI技术研报
10413 点击    2024-07-14 13:36
端侧设备AI代理优化框架问世,领域内准确率可达97%

端侧设备AI代理优化框架问世,领域内准确率可达97%

端侧设备AI代理优化框架问世,领域内准确率可达97%

AI 代理得越来越重要,能够实现自主决策和解决问题。为了有效运作,这些代理需要一个确定最佳行动方案的规划过程,然后执行计划的行动。

来自主题: AI技术研报
4540 点击    2024-07-13 20:06
豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性

当前的视觉语言模型(VLM)主要通过 QA 问答形式进行性能评测,而缺乏对模型基础理解能力的评测,例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报
10915 点击    2024-07-13 20:01