AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解

Mamba模型由于匹敌Transformer的巨大潜力,在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下,这两个架构还未有「一较高低」的机会。最近,英伟达、CMU、普林斯顿等机构联合发表的实证研究论文填补了这个空白。

来自主题: AI技术研报
4974 点击    2024-07-13 19:32
MSRA:视觉生成六大技术问题

MSRA:视觉生成六大技术问题

MSRA:视觉生成六大技术问题

文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。

来自主题: AI技术研报
10680 点击    2024-07-13 18:39
首个视频思维链推理框架Video-of-Thought来了:像人一样从感知到认知全面推理视频

首个视频思维链推理框架Video-of-Thought来了:像人一样从感知到认知全面推理视频

首个视频思维链推理框架Video-of-Thought来了:像人一样从感知到认知全面推理视频

最近,新加坡国立大学联合南洋理工大学和哈工深的研究人员共同提出了一个全新的视频推理框架,这也是首次大模型推理社区提出的面向视频的思维链框架(Video-of-Thought, VoT)。视频思维链VoT让视频多模态大语言模型在复杂视频的理解和推理性能上大幅提升。该工作已被ICML 2024录用为Oral paper。

来自主题: AI技术研报
11062 点击    2024-07-12 17:54
生成式模型不只会「模仿」!哈佛、UCSB等最新成果:性能可超越训练集专家水平

生成式模型不只会「模仿」!哈佛、UCSB等最新成果:性能可超越训练集专家水平

生成式模型不只会「模仿」!哈佛、UCSB等最新成果:性能可超越训练集专家水平

生成式模型原本被设计来模仿人类的各种复杂行为,但人们普遍认为它们最多只能达到与其训练数据中的专家相当的水平。不过,最新的研究突破了这一限制,表明在特定领域,如国际象棋,通过采用低温采样技术,这些模型能够超越它们所学习的那些专家,展现出更高的能力。

来自主题: AI技术研报
10245 点击    2024-07-12 17:18
OpenAI机密五级AGI路线图曝光!GPT-4仍处L1,内部AI接近博士水平18个月诞生

OpenAI机密五级AGI路线图曝光!GPT-4仍处L1,内部AI接近博士水平18个月诞生

OpenAI机密五级AGI路线图曝光!GPT-4仍处L1,内部AI接近博士水平18个月诞生

OpenAI全新的AGI路线图,刚刚被曝出了!OpenAI将AI划分为5个等级,自称其AI模型正处于L1,但很快就会达到L2(推理者)。而根据其前研究员预测,五级AGI最快将在27年实现。

来自主题: AI技术研报
9183 点击    2024-07-12 17:05
Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

Mamba一作再祭神作,H100利用率飙至75%!FlashAttention三代性能翻倍,比标准注意力快16倍

时隔一年,FlashAttention又推出了第三代更新,专门针对H100 GPU的新特性进行优化,在之前的基础上又实现了1.5~2倍的速度提升。

来自主题: AI技术研报
9920 点击    2024-07-12 16:57
CVPR世界第二仅次Nature!谷歌2024学术指标出炉,NeurIPS、ICLR跻身前十

CVPR世界第二仅次Nature!谷歌2024学术指标出炉,NeurIPS、ICLR跻身前十

CVPR世界第二仅次Nature!谷歌2024学术指标出炉,NeurIPS、ICLR跻身前十

一年一度谷歌学术指标公布了!Nature年年霸榜,而今年与以往不同的是,国际学术顶会的排名大幅提升,CVPR位居第二,超越Science仅次于Nature。另外,TOP 20中,共有五大顶会入选,被引最高论文与大模型时代下前沿技术,一脉相承。

来自主题: AI技术研报
9851 点击    2024-07-11 21:37
CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

CVPR'24 Highlight|一个框架搞定人物动作生成,精细到手部运动

近年来,人物动作生成的研究取得了显著的进展,在众多领域,如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而,现有工作大多只关注动作本身,以场景和动作类别同时作为约束条件的研究依然处于起步阶段。

来自主题: AI技术研报
9860 点击    2024-07-11 20:31
GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了

GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了

GitHub 8k Star,一作实习生,字节这个大模型成果被苹果选中了

近日,字节跳动大模型团队开发的成果 Depth Anything V2 ,入选苹果公司 Core ML 模型库,目前已呈现在开发者相关页面中。

来自主题: AI技术研报
9416 点击    2024-07-11 20:20
深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布

深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布

深度解析RAG大模型知识冲突,清华西湖大学港中文联合发布

随着人工智能和大型模型技术的迅猛发展,检索增强生成(Retrieval-Augmented Generation, RAG)已成为大型语言模型生成文本的一种主要范式。

来自主题: AI技术研报
10777 点击    2024-07-10 18:43
LeCun新作:神经网络在实践中的灵活性到底有多大?

LeCun新作:神经网络在实践中的灵活性到底有多大?

LeCun新作:神经网络在实践中的灵活性到底有多大?

神经网络拟合数据的能力受哪些因素影响?CNN一定比Transformer差吗?ReLU和SGD还有哪些神奇的作用?近日,LeCun参与的一项工作向我们展示了神经网络在实践中的灵活性。

来自主题: AI技术研报
9714 点击    2024-07-10 18:23
几分钟生成四维内容,还能控制运动效果:北大、密歇根提出DG4D

几分钟生成四维内容,还能控制运动效果:北大、密歇根提出DG4D

几分钟生成四维内容,还能控制运动效果:北大、密歇根提出DG4D

近期,商汤科技 - 南洋理工大学联合 AI 研究中心 S-Lab ,上海人工智能实验室,北京大学与密歇根大学联合提出 DreamGaussian4D(DG4D),通过结合空间变换的显式建模与静态 3D Gaussian Splatting(GS)技术实现高效四维内容生成。

来自主题: AI技术研报
8707 点击    2024-07-09 17:27
像生物网络一样「生长」,具备「结构可塑性」的自组织神经网络来了

像生物网络一样「生长」,具备「结构可塑性」的自组织神经网络来了

像生物网络一样「生长」,具备「结构可塑性」的自组织神经网络来了

生物神经网络有一个重要的特点是高度可塑性,这使得自然生物体具有卓越的适应性,并且这种能力会影响神经系统的突触强度和拓扑结构。

来自主题: AI技术研报
8741 点击    2024-07-09 17:15
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响

图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响

图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响

SelfGNN框架结合了图神经网络和个性化自增强学习,能够捕捉用户行为的多时间尺度模式,降低噪声影响,提升推荐系统鲁棒性。

来自主题: AI技术研报
6805 点击    2024-07-09 16:12
Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

Meta新研究挑战CV领域基操:ViT根本不用patch,用像素做token效果更佳

下一代视觉模型会摒弃patch吗?Meta AI最近发表的一篇论文就质疑了视觉模型中局部关系的必要性。他们提出了PiT架构,让Transformer直接学习单个像素而不是16×16的patch,结果在多个下游任务中取得了全面超越ViT模型的性能。

来自主题: AI技术研报
5534 点击    2024-07-09 16:03
RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架

RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架

RAG微调Llama 3竟超越GPT-4!英伟达GaTech华人学者提出RankRAG框架

来自佐治亚理工学院和英伟达的两名华人学者带队提出了名为RankRAG的微调框架,简化了原本需要多个模型的复杂的RAG流水线,用微调的方法交给同一个LLM完成,结果同时实现了模型在RAG任务上的性能提升。

来自主题: AI技术研报
5774 点击    2024-07-09 15:50
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

超越Transformer和Mamba的新架构,刚刚诞生了。斯坦福UCSD等机构研究者提出的TTT方法,直接替代了注意力机制,语言模型方法从此或将彻底改变。

来自主题: AI技术研报
6873 点击    2024-07-09 15:41
ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%

ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%

ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%

6月,IEEE刊登了一篇对ChatGPT代码生成任务进行系统评估的论文,数据集就是程序员们最爱的LeetCode题库。研究揭示了LLM在代码任务中出现的潜在问题和能力局限,让我们能够对模型做出进一步改进,并逐渐了解使用ChatGPT写代码的最佳姿势。

来自主题: AI技术研报
5677 点击    2024-07-09 00:54
陶哲轩点破「天机」:不懂数学别想靠ChatGPT飞升!

陶哲轩点破「天机」:不懂数学别想靠ChatGPT飞升!

陶哲轩点破「天机」:不懂数学别想靠ChatGPT飞升!

冲锋在AI辅助数学研究第一线的陶哲轩,近日又有「神总结」:ChatGPT提升的,是我们在编码、图表等次要任务上的能力;而真要搞好数学研究,基础不扎实的话,AI也是没用的。

来自主题: AI技术研报
7203 点击    2024-07-09 00:41