AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。

来自主题: AI技术研报
8457 点击    2024-11-22 15:54
首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

首个可保留情感的音频LLM!Meta重磅开源7B-Spirit LM,一网打尽「音频+文本」多模态任务

Meta最近开源了一个7B尺寸的Spirit LM的多模态语言模型,能够理解和生成语音及文本,可以非常自然地在两种模式间转换,不仅能处理基本的语音转文本和文本转语音任务,还能捕捉和再现语音中的情感和风格。

来自主题: AI技术研报
6135 点击    2024-11-22 14:41
机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍

机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍

机器人训练数据不缺了!英伟达团队推出DexMG:数据增强200倍

最近,Jim Fan参与的一项研究推出了自动化数据生成系统DexMimicGen。该系统可基于少量人类演示,合成类人机器人的灵巧手运动轨迹,解决了训练数据集的获取难题,而且还提升了实验中机器人的表现。

来自主题: AI技术研报
6032 点击    2024-11-22 14:33
续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作

续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作

续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作

Scaling Law撞墙,扩展语言智能体的推理时计算实在太难了!破局之道,竟是使用LLM作为世界模型?OSU华人团队发现,使用GPT-4o作为世界模型来支持复杂环境中的规划,潜力巨大。

来自主题: AI技术研报
6063 点击    2024-11-22 13:38
“AI赋能硬件:亲手打造孩子专属的智能玩具”

“AI赋能硬件:亲手打造孩子专属的智能玩具”

“AI赋能硬件:亲手打造孩子专属的智能玩具”

千帆社区开发者黄定骅现身解读参加「千帆AppBuilder-智能硬件AIOT创意赛第一期」的心路历程。

来自主题: AI技术研报
7561 点击    2024-11-22 10:50
速递|瞄准 toB Agent!法国 AI 独角兽 H 推出首款产品 Runner H,专注企业自动化与定制化场景

速递|瞄准 toB Agent!法国 AI 独角兽 H 推出首款产品 Runner H,专注企业自动化与定制化场景

速递|瞄准 toB Agent!法国 AI 独角兽 H 推出首款产品 Runner H,专注企业自动化与定制化场景

去年夏天,法国 AI 初创公司 H 在尚未发布任何产品的情况下,宣布完成了惊人的 2.2 亿美元种子轮融资,引发行业轰动。

来自主题: AI技术研报
8418 点击    2024-11-22 10:41
人机协作AI提升在线心理健康支持的同理心对话

人机协作AI提升在线心理健康支持的同理心对话

人机协作AI提升在线心理健康支持的同理心对话

研究问题:这篇文章研究了如何在基于文本的在线同伴支持平台中,通过人工智能(AI)与人类协作,提高同伴之间的同理心对话质量。

来自主题: AI技术研报
9556 点击    2024-11-22 10:33
NeurIPS 2024 | 水印与高效推理如何两全其美?最新理论:这做不到

NeurIPS 2024 | 水印与高效推理如何两全其美?最新理论:这做不到

NeurIPS 2024 | 水印与高效推理如何两全其美?最新理论:这做不到

近日,DeepMind 团队将水印技术和投机采样(speculative sampling)结合,在为大语言模型加入水印的同时,提升其推理效率,降低推理成本,因此适合用于大规模生产环境。

来自主题: AI技术研报
6364 点击    2024-11-22 10:14
诺奖得主哈萨比斯新作登Nature,AlphaQubit解码出更可靠量子计算机

诺奖得主哈萨比斯新作登Nature,AlphaQubit解码出更可靠量子计算机

诺奖得主哈萨比斯新作登Nature,AlphaQubit解码出更可靠量子计算机

今天凌晨,新晋诺贝尔化学奖得主、DeepMind 创始人哈萨比斯参与撰写的新论文登上了 Nature,主题是如何更准确地识别并纠正量子计算机内部的错误。

来自主题: AI技术研报
5806 点击    2024-11-22 10:07
想象未来AI,科幻可以做些什么?

想象未来AI,科幻可以做些什么?

想象未来AI,科幻可以做些什么?

科幻影响AI想象与现实发展,揭示人类需求。

来自主题: AI技术研报
4869 点击    2024-11-22 09:49
手把手教你预训练一个小型 LLM|Steel-LLM 的实战经验

手把手教你预训练一个小型 LLM|Steel-LLM 的实战经验

手把手教你预训练一个小型 LLM|Steel-LLM 的实战经验

随着开源数据的日益丰富以及算力价格的持续下降,对于个人或小型机构而言,预训练一个小型的 LLM 已逐渐成为可能。开源中文预训练语言模型 Steel - LLM 就是一个典型案例,其模型参数量与数据量并非十分庞大,基本处于参数量为 B 级别、数据量为 T 级别的规模。

来自主题: AI技术研报
7333 点击    2024-11-22 09:44
405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+

405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+

405B大模型也能线性化!斯坦福MIT最新研究,0.2%训练量让线性注意力提分20+

近日,来自斯坦福、MIT等机构的研究人员推出了低秩线性转换方法,让传统注意力无缝转移到线性注意力,仅需0.2%的参数更新即可恢复精度,405B大模型两天搞定!

来自主题: AI技术研报
5456 点击    2024-11-21 13:47
RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

RAG没有银弹!四级难度,最新综述覆盖数据集、解决方案,教你「LLM+外部数据」的正确使用姿势

论文提出了一种RAG任务分类法,将用户查询分为四个级别,并讨论了将外部数据集成到LLMs中的三种主要方式。从简单的事实检索到复杂的推理任务,每个级别都有其独特的难点和解决方案,需要不同的技术和方法来优化性能。

来自主题: AI技术研报
7806 点击    2024-11-21 13:39
现有RAG框架非完全总结:7个GraphRAG+17个传统RAG框架归纳

现有RAG框架非完全总结:7个GraphRAG+17个传统RAG框架归纳

现有RAG框架非完全总结:7个GraphRAG+17个传统RAG框架归纳

关于产业进展,代码辅助工具,PearAI ,https://trypear.ai/,提供了代码自动生成、智能代码预测、代码编辑聊天、代码记忆提升、智能代码搜索等功能,还内置了Perplexity、Memo等其他AI工具,这其实加剧了如cursor等同质产品的竞争。

来自主题: AI技术研报
9325 点击    2024-11-21 09:50
TacticAI:足球战术人工智能助手

TacticAI:足球战术人工智能助手

TacticAI:足球战术人工智能助手

识别对手球队实施的关键战术模式并制定有效的应对措施是现代足球的核心。 然而,通过算法实现这一点仍然是一个开放的研究挑战。 为了解决这一未满足的需求,我们提出了 TacticAI,这是一款与利物浦足球俱乐部领域专家密切合作开发和评估的人工智能足球战术助手。

来自主题: AI技术研报
8396 点击    2024-11-21 09:36
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能(AI)领域的一个悬而未解的问题。为了测量语言模型的事实正确性,近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域,目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报
7703 点击    2024-11-20 15:02
从计算机视觉向医疗AI,上海交大谢伟迪发布多项成果,登Nature子刊/NeurIPS/CVPR等

从计算机视觉向医疗AI,上海交大谢伟迪发布多项成果,登Nature子刊/NeurIPS/CVPR等

从计算机视觉向医疗AI,上海交大谢伟迪发布多项成果,登Nature子刊/NeurIPS/CVPR等

近年来,AI for Science 发展提速,不仅为科研领域带来创新研究思路,同时也拓宽了 AI 的落地通路,为其提供了更多具有挑战性的应用场景。在这个过程中,越来越多的 AI 领域研究人员开始关注医疗、材料、生物等传统科研领域,探索其中的研究难点与行业挑战。

来自主题: AI技术研报
6952 点击    2024-11-20 14:30
微软和麻省理工权威发布:Prompt格式显著影响LLM性能,JSON比Markdown准确性高42%

微软和麻省理工权威发布:Prompt格式显著影响LLM性能,JSON比Markdown准确性高42%

微软和麻省理工权威发布:Prompt格式显著影响LLM性能,JSON比Markdown准确性高42%

朋友们,想了解为什么同一模型会带来大量结果的不一致性吗?今天,我们来一起深入分析一下来自微软和麻省理工学院的一项重大发现——不同的Prompt格式如何显著影响LLM的输出精度。这些研究结果对于应用Prompt优化设计具有非常重要的应用价值。

来自主题: AI技术研报
8248 点击    2024-11-20 09:19
万字长文:58岁的心理AI,会比人类更“忠诚”吗?

万字长文:58岁的心理AI,会比人类更“忠诚”吗?

万字长文:58岁的心理AI,会比人类更“忠诚”吗?

1966年,首个AI精神健康聊天机器人Eliza问世,作为一种简单的自然语言处理程序,它模拟了心理治疗师的对话风格,标志着AI在心理健康领域应用的起点。

来自主题: AI技术研报
7477 点击    2024-11-19 22:25
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等出品,首个多模态版o1开源模型来了—— 代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。 在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

来自主题: AI技术研报
5583 点击    2024-11-19 21:01
LLM为何频频翻车算术题?最新研究追踪单个神经元,「大脑短路」才是根源

LLM为何频频翻车算术题?最新研究追踪单个神经元,「大脑短路」才是根源

LLM为何频频翻车算术题?最新研究追踪单个神经元,「大脑短路」才是根源

大模型在数学问题上的表现不佳,原因在于采取启发式算法进行数学运算的,通过定位到多层感知机(MLP)中的单个神经元,可以对进行数学运算的具体过程进行解释。

来自主题: AI技术研报
7182 点击    2024-11-19 19:53
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。

来自主题: AI技术研报
5448 点击    2024-11-19 17:15
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K

DIAMOND是一种新型的强化学习智能体,在一个由扩散模型构建的虚拟世界中进行训练,能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中,DIAMOND的平均得分超越了人类玩家,证明了其在模拟复杂环境中处理细节和进行决策的能力。

来自主题: AI技术研报
5485 点击    2024-11-18 15:24