AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
arXiv和Hugging Face梦幻联动,一个按钮直达论文、模型、数据集

arXiv和Hugging Face梦幻联动,一个按钮直达论文、模型、数据集

arXiv和Hugging Face梦幻联动,一个按钮直达论文、模型、数据集

「这才是开放研究该有的样子。」 经常刷 arXiv 的同学,你有没有发现页面上多了个新功能?这个新功能(图中的「Hugging Face」按钮)隐藏在「Code, Data, Media」选项卡下,选中之后就可以直达相关的 Hugging Face 论文、模型和数据集。

来自主题: AI技术研报
4087 点击    2024-10-25 14:22
7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

Zamba2-7B是一款小型语言模型,在保持输出质量的同时,通过创新架构实现了比同类模型更快的推理速度和更低的内存占用,在图像描述等任务上表现出色,能在各种边缘设备和消费级GPU上高效运行。

来自主题: AI技术研报
5109 点击    2024-10-25 11:06
图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield

北京大学的研究人员开发了一种新型多模态框架FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。

来自主题: AI技术研报
5463 点击    2024-10-25 11:03
自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

自动驾驶不怵恶劣天气,西电&上海AI Lab多模态融合检测端到端算法来了 | NeurlPS Oral

西安电子科大、上海AI Lab等提出多模态融合检测算法E2E-MFD,将图像融合和目标检测整合到一个单阶段、端到端框架中,简化训练的同时,提升目标解析性能。 相关论文已入选顶会NeurlPS 2024 Oral,代码、模型均已开源。

来自主题: AI技术研报
5465 点击    2024-10-25 10:56
0.11秒出图!OpenAI发布sCM模型,提速50倍,作者来自清华

0.11秒出图!OpenAI发布sCM模型,提速50倍,作者来自清华

0.11秒出图!OpenAI发布sCM模型,提速50倍,作者来自清华

家人们,OpenAI 又上新了!推出了全新的生成式模型sCM(Simplifying Continuous-Time Consistency Models),支持视频、图像、三维模型和音频的生成。

来自主题: AI技术研报
4962 点击    2024-10-25 09:47
哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

工具调用是 AI 智能体的关键功能之一,AI 智能体根据场景变化动态地选择和调用合适的工具,从而实现对复杂任务的自动化处理。例如,在智能办公场景中,模型可同时调用文档编辑工具、数据处理工具和通信工具,完成文档撰写、数据统计和信息沟通等多项任务。

来自主题: AI技术研报
3327 点击    2024-10-24 15:40
Nature专业户DeepMind又登封面,开源水印技术SynthID-Text,Gemini已经用上了

Nature专业户DeepMind又登封面,开源水印技术SynthID-Text,Gemini已经用上了

Nature专业户DeepMind又登封面,开源水印技术SynthID-Text,Gemini已经用上了

现如今,大型语言模型(LLM)生成的内容已经充斥了整个互联网,并且这些模型还能模仿各种类似真人的语气和行文风格,让人难以分辨眼前的文本究竟来自人类还是 AI。

来自主题: AI技术研报
3853 点击    2024-10-24 15:37
开源向量数据库性能对比: Milvus, Chroma, Qdrant

开源向量数据库性能对比: Milvus, Chroma, Qdrant

开源向量数据库性能对比: Milvus, Chroma, Qdrant

为应对公司在大规模文本、图像等非结构化数据处理上的业务增长需求,笔者着手调研当前流行的开源向量数据库。主要针对查询速度、并发度和召回率这几大核心维度进行深入分析,以确保选定的数据库方案能够在实际业务场景中高效应对大规模数据检索和高并发需求。通过全面对比不同数据库的表现,得出可靠的调研结论。

来自主题: AI技术研报
5568 点击    2024-10-24 11:44
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

TL;DR:DuoAttention 通过将大语言模型的注意力头分为检索头(Retrieval Heads,需要完整 KV 缓存)和流式头(Streaming Heads,只需固定量 KV 缓存),大幅提升了长上下文推理的效率,显著减少内存消耗、同时提高解码(Decoding)和预填充(Pre-filling)速度,同时在长短上下文任务中保持了准确率。

来自主题: AI技术研报
4733 点击    2024-10-24 11:33
朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐

朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐

朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐

在人形机器人领域,有一个非常值钱的问题:既然人形机器人的样子与人类类似,那么它们能使用网络视频等数据进行学习和训练吗?

来自主题: AI技术研报
3758 点击    2024-10-24 10:15
NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径,浙大用「WISE」对抗幻觉

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径,浙大用「WISE」对抗幻觉

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径,浙大用「WISE」对抗幻觉

现有的大模型主要依赖固定的参数和数据来存储知识,一旦训练完成,修改和更新特定知识的代价极大,常常因知识谬误导致模型输出不准确或引发「幻觉」现象。因此,如何对大模型的知识记忆进行精确控制和编辑,成为当前研究的前沿热点。

来自主题: AI技术研报
5019 点击    2024-10-24 09:48
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点

Time-MoE采用了创新的混合专家架构,能以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。

来自主题: AI技术研报
5535 点击    2024-10-23 13:40
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters!

来自主题: AI技术研报
4734 点击    2024-10-23 13:37
RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降

RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降

RAG真能提升LLM推理能力?人大最新研究:数据有噪声,RAG性能不升反降

RAG通过纳入外部文档可以辅助LLM进行更复杂的推理,降低问题求解所需的推理深度,但由于文档噪声的存在,其提升效果可能会受限。中国人民大学的研究表明,尽管RAG可以提升LLM的推理能力,但这种提升作用并不是无限的,并且会受到文档中噪声信息的影响。通过DPrompt tuning的方法,可以在一定程度上提升LLM在面对噪声时的性能。

来自主题: AI技术研报
3866 点击    2024-10-23 10:32
Claude 3.5深夜觉醒,学会模仿人类用电脑,编程干翻o1,Agent一夜变天

Claude 3.5深夜觉醒,学会模仿人类用电脑,编程干翻o1,Agent一夜变天

Claude 3.5深夜觉醒,学会模仿人类用电脑,编程干翻o1,Agent一夜变天

Claude 3.5深夜迎来重磅升级! 不出所料,Anthropic AI这周终于有了大动作——首发Claude 3.5 Haiku,全新升级版Claude 3.5 Sonnet也来了。

来自主题: AI技术研报
4969 点击    2024-10-23 10:08
人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用

人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用

人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用

让 AI 与人类价值观对齐一直都是 AI 领域的一大重要且热门的研究课题,甚至很可能是 OpenAI 高层分裂的一大重要原因 ——CEO 萨姆・奥特曼似乎更倾向于更快实现 AI 商业化,而以伊尔亚・苏茨克维(Ilya Sutskever)为代表的一些研究者则更倾向于先保证 AI 安全。

来自主题: AI技术研报
4008 点击    2024-10-22 16:57
自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

自动化、可复现,基于大语言模型群体智能的多维评估基准Decentralized Arena来了

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等学术机构学者组成的开源组织,致力于发展大语言模型 (LLM)、世界模型 (World Model)、智能体模型 (Agent Model) 的技术以构建 AI 驱动的现实。

来自主题: AI技术研报
6133 点击    2024-10-22 14:38
最新认知Prompt,模拟人类认知操作COP来增强LLM问题解决能力 | ICLR2025

最新认知Prompt,模拟人类认知操作COP来增强LLM问题解决能力 | ICLR2025

最新认知Prompt,模拟人类认知操作COP来增强LLM问题解决能力 | ICLR2025

最近,来自德国奥尔登堡大学计算智能实验室的研究人员Oliver Kramer和Jill Baumann提出了一种创新的方法——认知提示(Cognitive Prompting),通过模拟人类认知过程来提升LLM的问题解决能力。这项研究将在ICLR 2025会议上发表,本文将为各位读者朋友详细解读这一突破性的技术。

来自主题: AI技术研报
5556 点击    2024-10-22 09:43
困扰数学家一个多世纪的难题,AI从生物学中找到线索

困扰数学家一个多世纪的难题,AI从生物学中找到线索

困扰数学家一个多世纪的难题,AI从生物学中找到线索

纽结理论长期困扰着数学家,但随着人工智能的进步,有研究者在生物学中找到了突破口,因为纽结结构存在于许多重要的生物分子中,例如蛋白质、DNA等。对于难以识别归类的复杂纽结结构,AI给出了令人惊讶的结果。

来自主题: AI技术研报
4830 点击    2024-10-21 14:57
重磅:用DSPy写最佳推理轨迹搜索DOTS,让LLM能动态推理 |乔治梅森大学和腾讯AI最新

重磅:用DSPy写最佳推理轨迹搜索DOTS,让LLM能动态推理 |乔治梅森大学和腾讯AI最新

重磅:用DSPy写最佳推理轨迹搜索DOTS,让LLM能动态推理 |乔治梅森大学和腾讯AI最新

近日,来自乔治梅森大学和腾讯AI实验室的研究团队在这一领域取得了重大突破。他们提出了一种名为DOTS(Dynamic Optimal Trajectory Search)的创新方法,通过最佳推理轨迹搜索,显著提升LLMs的动态推理能力。

来自主题: AI技术研报
6067 点击    2024-10-21 14:51
NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库,还开源

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库,还开源

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库,还开源

多年来,浙江大学周晟老师团队与阿里安全交互内容安全团队持续开展产学研合作。近日,双⽅针对标签噪声下图神经⽹络的联合研究成果《NoisyGL:标签噪声下图神经网络的综合基准》被 NeurIPS Datasets and Benchmarks Track 2024 收录。本次 NeurIPS D&B Track 共收到 1820 篇投稿,录⽤率为 25.3%。

来自主题: AI技术研报
5346 点击    2024-10-21 14:42
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源

视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。

来自主题: AI技术研报
4761 点击    2024-10-21 14:33
遥感影像也能AI搜索?从像素到语义,快速实现

遥感影像也能AI搜索?从像素到语义,快速实现

遥感影像也能AI搜索?从像素到语义,快速实现

近期在LLM方面,AI搜索热度居高不下,遥感业务也能做AI搜索。

来自主题: AI技术研报
4402 点击    2024-10-21 11:34
颜水成袁粒提出新一代MoE架构:专家吞吐速度最高提升2.1倍!

颜水成袁粒提出新一代MoE架构:专家吞吐速度最高提升2.1倍!

颜水成袁粒提出新一代MoE架构:专家吞吐速度最高提升2.1倍!

比传统MoE推理速度更快、性能更高的新一代架构,来了! 这个通用架构叫做MoE++,由颜水成领衔的昆仑万维2050研究院与北大袁粒团队联合提出。

来自主题: AI技术研报
5251 点击    2024-10-21 11:22
低内存占用也能实现满血训练?!北理北大港中文MMLab推出Fira训练框架

低内存占用也能实现满血训练?!北理北大港中文MMLab推出Fira训练框架

低内存占用也能实现满血训练?!北理北大港中文MMLab推出Fira训练框架

内存占用小,训练表现也要好……大模型训练成功实现二者兼得。 来自北理、北大和港中文MMLab的研究团队提出了一种满足低秩约束的大模型全秩训练框架——Fira,成功打破了传统低秩方法中内存占用与训练表现的“非此即彼”僵局。

来自主题: AI技术研报
4801 点击    2024-10-21 10:58