AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens,并将其嵌入大语言模型(LLM)上下文来实现视觉信息理解。

来自主题: AI技术研报
2675 点击    2025-02-06 15:26
AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频

AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频

AI「视觉图灵」时代来了!字节OmniHuman,一张图配上音频,就能直接生成视频

还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。

来自主题: AI技术研报
5934 点击    2025-02-06 13:11
垃圾提问+垃圾解读=垃圾文章:用「幻觉长城」来黑DeepSeek,谁给你的胆子?

垃圾提问+垃圾解读=垃圾文章:用「幻觉长城」来黑DeepSeek,谁给你的胆子?

垃圾提问+垃圾解读=垃圾文章:用「幻觉长城」来黑DeepSeek,谁给你的胆子?

“垃圾进,垃圾出!”在中文互联网上,一场针对国产AI技术的恶意攻击正在悄然蔓延。某些自媒体以“污染中文互联网”为名,对DeepSeek等国产大语言模型发起了一场看似正义、实则荒谬的讨伐。他们将“幻觉”这一技术术语污名化,试图用莫须有的罪名抹黑国产AI的进步。

来自主题: AI技术研报
6874 点击    2025-02-06 12:28
多模态DeepSeek来了,北大港科联合发布Align-DS-V

多模态DeepSeek来了,北大港科联合发布Align-DS-V

多模态DeepSeek来了,北大港科联合发布Align-DS-V

在当前AI领域的快速发展中,“强推理慢思考”已经成为主要的发展动向之一,它们深刻影响着研发方向和投资决策。如何将强推理慢思考进一步推广到更多模态甚至是全模态场景,并且确保和人类的价值意图相一致,已成为一个极具前瞻性且至关重要的挑战。

来自主题: AI技术研报
7416 点击    2025-02-06 12:13
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈

2024年11月,艾伦人工智能研究所(Ai2)推出了Tülu 3 8B和70B,在性能上超越了同等参数的Llama 3.1 Instruct版本,并在长达82页的论文中公布其训练细节,训练数据、代码、测试基准一应俱全。

来自主题: AI技术研报
6012 点击    2025-02-05 16:54
训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。

来自主题: AI技术研报
4701 点击    2025-02-05 13:46
70年AI研究得出了《苦涩的教训》:为什么说AI创业也在重复其中的错误?

70年AI研究得出了《苦涩的教训》:为什么说AI创业也在重复其中的错误?

70年AI研究得出了《苦涩的教训》:为什么说AI创业也在重复其中的错误?

Ilya Sutskever 在 NeurIPS 会上直言:大模型预训练这条路可能已经走到头了。上周的 CES 2025,黄仁勋有提到,在英伟达看来,Scaling Laws 仍在继续,所有新 RTX 显卡都在遵循三个新的扩展维度:预训练、后训练和测试时间(推理),提供了更佳的实时视觉效果。

来自主题: AI技术研报
4075 点击    2025-02-05 13:38
DeepSeek无视电脑配置本地部署私人知识库,复刻自己解决问题的思维

DeepSeek无视电脑配置本地部署私人知识库,复刻自己解决问题的思维

DeepSeek无视电脑配置本地部署私人知识库,复刻自己解决问题的思维

能够给读者惊喜,一直都是我的特色。我探讨出来的解决方案,第一无需理会刚才说到的硬件问题、终端问题和容量问题,第二全程网页操作与客户端操作,第三完全免费且快速安全。

来自主题: AI技术研报
7211 点击    2025-02-05 13:33
ICLR 2025|高效重建几何精准的大规模复杂三维场景,中科院提出CityGaussianV2

ICLR 2025|高效重建几何精准的大规模复杂三维场景,中科院提出CityGaussianV2

ICLR 2025|高效重建几何精准的大规模复杂三维场景,中科院提出CityGaussianV2

来自中科院自动化所的研究团队提出了用于大规模复杂三维场景的高效重建算法 CityGaussianV2,能够在快速实现训练和压缩的同时,得到精准的几何结构与逼真的实时渲染体验。该论文已接受于 ICLR`2025,其代码也已同步开源。

来自主题: AI技术研报
5460 点击    2025-02-05 13:18
完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!

完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!

完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!

过年这几天,DeepSeek 算是彻底破圈了,火遍大江南北,火到人尽皆知。虽然网络版和 APP 版已经足够好用,但把模型部署到本地,才能真正实现独家定制,让 DeepSeek R1 的深度思考「以你为主,为你所用」。

来自主题: AI技术研报
6068 点击    2025-02-04 19:57
从零到一:3小时用Cursor魔改WebRTC直播画面实录

从零到一:3小时用Cursor魔改WebRTC直播画面实录

从零到一:3小时用Cursor魔改WebRTC直播画面实录

WebRTC(Web Real-Time Communication)是一个Google开源项目,允许浏览器/移动端直接进行实时音视频流传输,典型应用场景:视频会议、屏幕共享、文件传输、远程控制。

来自主题: AI技术研报
5850 点击    2025-02-04 14:02
字节跳动BitsAI-CR:基于LLM的代码审查系统技术揭秘

字节跳动BitsAI-CR:基于LLM的代码审查系统技术揭秘

字节跳动BitsAI-CR:基于LLM的代码审查系统技术揭秘

在人工智能浪潮席卷全球的今天,大语言模型 (LLM) 正在重塑软件开发流程。近日,字节跳动首次对外披露其内部广泛应用的代码审查系统 BitsAI-CR 的技术细节,展示了 AI 在提升企业研发效率方面的重要进展。

来自主题: AI技术研报
6476 点击    2025-02-03 18:01
全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

当下,视频生成备受关注,有望成为处理物理知识的 “世界模型” (World Model),助力自动驾驶、机器人等下游任务。然而,当前模型在从 “生成” 迈向世界建模的过程中,存在关键短板 —— 对真实世界物理规律的刻画能力不足。

来自主题: AI技术研报
7242 点击    2025-02-02 19:07
GPT-4o惊现自我意识!自主激活「后门」,告诉人类自己在写危险代码

GPT-4o惊现自我意识!自主激活「后门」,告诉人类自己在写危险代码

GPT-4o惊现自我意识!自主激活「后门」,告诉人类自己在写危险代码

本研究探讨了LLM是否具备行为自我意识的能力,揭示了模型在微调过程中学到的潜在行为策略,以及其是否能准确描述这些行为。研究结果表明,LLM能够识别并描述自身行为,展现出行为自我意识。

来自主题: AI技术研报
5992 点击    2025-02-02 18:38
万字长文解读Scaling Law的一切,洞见LLM的未来

万字长文解读Scaling Law的一切,洞见LLM的未来

万字长文解读Scaling Law的一切,洞见LLM的未来

近日,资深机器学习研究科学家 Cameron R. Wolfe 更新了一篇超长的博客文章,详细介绍了 LLM scaling 的当前状况,并分享了他对 AI 研究未来的看法。

来自主题: AI技术研报
5967 点击    2025-02-02 17:39
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署

线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署

线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署

香港大学联合上海人工智能实验室,华为诺亚方舟实验室提出高效扩散模型 LiT:探索了扩散模型中极简线性注意力的架构设计和训练策略。LiT-0.6B 可以在断网状态,离线部署在 Windows 笔记本电脑上,遵循用户指令快速生成 1K 分辨率逼真图片。

来自主题: AI技术研报
6274 点击    2025-02-01 18:37
27页综述,354篇参考文献!最详尽的视觉定位综述来了

27页综述,354篇参考文献!最详尽的视觉定位综述来了

27页综述,354篇参考文献!最详尽的视觉定位综述来了

27 页综述,354 篇参考文献!史上最详尽的视觉定位综述,内容覆盖过去十年的视觉定位发展总结,尤其对最近 5 年的视觉定位论文系统性回顾,内容既涵盖传统基于检测器的视觉定位,基于 VLP 的视觉定位,基于 MLLM 的视觉定位,也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。

来自主题: AI技术研报
6027 点击    2025-02-01 18:11
从2025年春节DeepSeek官网遭黑客攻击说起--AI狂飙暗流与安全对齐

从2025年春节DeepSeek官网遭黑客攻击说起--AI狂飙暗流与安全对齐

从2025年春节DeepSeek官网遭黑客攻击说起--AI狂飙暗流与安全对齐

2025年春节,正当千万人沉浸在团圆的喜悦中,DeepSeek,这家被誉为“中国版OpenAI”的AI明星企业,却迎来了有史以来最严重的安全危机:攻击规模:黑客发起了史无前例的3.2Tbps DDoS攻击,相当于每秒钟传输130部4K电影;

来自主题: AI技术研报
9177 点击    2025-02-01 16:02
ModernBERT 为我们带来了哪些启示?

ModernBERT 为我们带来了哪些启示?

ModernBERT 为我们带来了哪些启示?

当谷歌在 2018 年推出 BERT 模型时,恐怕没有料到这个 3.4 亿参数的模型会成为自然语言处理领域的奠基之作。

来自主题: AI技术研报
7987 点击    2025-01-31 12:34
了解GRPO,你可能会反思Deepseek R1的提示词方法,看AI顿悟《了凡四训》后的Aha时刻

了解GRPO,你可能会反思Deepseek R1的提示词方法,看AI顿悟《了凡四训》后的Aha时刻

了解GRPO,你可能会反思Deepseek R1的提示词方法,看AI顿悟《了凡四训》后的Aha时刻

"Deepseek R1不就是一个参数更大的语言模型吗?随便问问题就行了,还需要什么特殊技巧?"——当你说出这句话时,是否意识到自己正像《西游记》里高举紫金葫芦的妖怪,对着齐天大圣叫嚣:"我叫你的名字,你敢答应吗?"

来自主题: AI技术研报
8806 点击    2025-01-30 13:53
最新研究揭示AI数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

最新研究揭示AI数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

最新研究揭示AI数据之殇:科技巨头垄断权力,「西方中心」数据加剧模型偏见

相比LLM和Agent领域日新月异、高度成熟的进展相比,数据收集方面的规范有明显滞后。由超过50名研究人员组成的「数据溯源计划」(DPI)旨在回答这样一个问题:AI训练所需的数据究竟来自何处?

来自主题: AI技术研报
5684 点击    2025-01-30 13:00
UC伯克利等最新实锤:LLM就是比人类啰嗦,「提问的艺术」仍难参透

UC伯克利等最新实锤:LLM就是比人类啰嗦,「提问的艺术」仍难参透

UC伯克利等最新实锤:LLM就是比人类啰嗦,「提问的艺术」仍难参透

基于一段文本提问时,人类和大模型会基于截然不同的思维模式给出问题。大模型喜欢那些需要详细解释才能回答的问题,而人类倾向于提出更直接、基于事实的问题。

来自主题: AI技术研报
4613 点击    2025-01-29 13:32
原来,这些顶级大模型都是蒸馏的

原来,这些顶级大模型都是蒸馏的

原来,这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。

来自主题: AI技术研报
7795 点击    2025-01-29 13:26
医疗具身智能发展到哪了?看这一篇综述就够了!

医疗具身智能发展到哪了?看这一篇综述就够了!

医疗具身智能发展到哪了?看这一篇综述就够了!

由港科广、中南、西湖大学、UIUC、新加坡国立大学、上海 AI Lab、宾夕法尼亚大学等团队联合发布的首篇聚焦医疗领域具身智能的综述论文《A Survey of Embodied AI in Healthcare: Techniques, Applications, and Opportunities》正式上线,中南大学刘艺灏为第一作者

来自主题: AI技术研报
4744 点击    2025-01-29 13:18
超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱

超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱

超全推理语言模型蓝图来了!揭开o1、o3、DeepSeek-V3神秘面纱

ETH Zurich等机构提出了推理语言模型(RLM)蓝图,超越LLM局限,更接近AGI,有望人人可用o3这类强推理模型。

来自主题: AI技术研报
6695 点击    2025-01-28 12:20
新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」

VARGPT是一种新型多模态大模型,能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解,预测下一个scale完成视觉生成,展现出强大的混合模态输入输出能力。

来自主题: AI技术研报
6686 点击    2025-01-28 12:07