AI资讯新闻榜单内容搜索-模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型
被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

被DeepSeek带火的知识蒸馏,开山之作曾被NeurIPS拒收,Hinton坐镇都没用

DeepSeek带火知识蒸馏,原作者现身爆料:原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》,当年被NeurIPS 2014拒收。

来自主题: AI技术研报
7821 点击    2025-02-07 15:43
日本 AI 公司发布自适应大模型,可动态调整其权重以完成各种任务

日本 AI 公司发布自适应大模型,可动态调整其权重以完成各种任务

日本 AI 公司发布自适应大模型,可动态调整其权重以完成各种任务

适应性是自然界最引人注目的现象之一。从章鱼改变皮肤颜色以融入周围环境的方式,到人类 大脑在受伤后如何自我重塑,使个体能够恢复失去的功能并适应新的思维或运动方式。生物体表现出适应性,使生命能够在多样化和不断变化的环境中蓬勃发展。

来自主题: AI资讯
9438 点击    2025-02-07 15:34
微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变

微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变

微软官宣All in智能体,SWE Agent首曝光!奥特曼预警2025编程巨变

2025年,软件工程要彻底变天了。先有奥特曼预言,后有微软下场All in智能体。刚刚,首个自主SWE智能体面世,不仅会主动改bug修复错误,还能自主提交PR评论。

来自主题: AI技术研报
7545 点击    2025-02-07 15:30
网文“大拿”阅文牵手DeepSeek,股价疯涨10%,网文创作要大颠覆了?

网文“大拿”阅文牵手DeepSeek,股价疯涨10%,网文创作要大颠覆了?

网文“大拿”阅文牵手DeepSeek,股价疯涨10%,网文创作要大颠覆了?

春节假期后的港股市场迎来结构性行情,以AI大模型为核心的技术革命再次成为资金追逐焦点,这次的落脚点在AI应用的商业化之中。

来自主题: AI资讯
8640 点击    2025-02-07 12:11
让数据说话:2024年银行在大模型上花了多少钱

让数据说话:2024年银行在大模型上花了多少钱

让数据说话:2024年银行在大模型上花了多少钱

今天,我想用一些数据,来盘点2024年各家银行的大模型项目招标结果。

来自主题: AI资讯
7408 点击    2025-02-07 11:26
OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek

刚刚,OpenAI把o3-mini的推理思维链公开了。从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。

来自主题: AI资讯
10939 点击    2025-02-07 11:11
成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏

成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏

成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏

成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作:s1。

来自主题: AI资讯
9781 点击    2025-02-07 00:26
DeepSeek最强专业拆解来了,清交复教授超硬核解读

DeepSeek最强专业拆解来了,清交复教授超硬核解读

DeepSeek最强专业拆解来了,清交复教授超硬核解读

周日晚间,五位高校教授夜话DeepSeek,从模型方法、框架、系统、基础设施等角度,阐述DeepSeek的技术原理与未来方向,揭秘其优化方法如何提升算力能效,信息量很大。

来自主题: AI技术研报
7626 点击    2025-02-06 15:57
大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路

本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn

来自主题: AI技术研报
5630 点击    2025-02-06 15:30
LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

LLaVA-Mini来了!每张图像所需视觉token压缩至1个,兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens,并将其嵌入大语言模型(LLM)上下文来实现视觉信息理解。

来自主题: AI技术研报
4630 点击    2025-02-06 15:26