AI资讯新闻榜单内容搜索-模型

被DeepSeek带火的知识蒸馏，开山之作曾被NeurIPS拒收，Hinton坐镇都没用

DeepSeek带火知识蒸馏，原作者现身爆料：原来一开始就不受待见。称得上是“蒸馏圣经”、由Hinton、Oriol Vinyals、Jeff Dean三位大佬合写的《Distilling the Knowledge in a Neural Network》，当年被NeurIPS 2014拒收。

来自主题: AI技术研报

7821 点击 2025-02-07 15:43

适应性是自然界最引人注目的现象之一。从章鱼改变皮肤颜色以融入周围环境的方式，到人类大脑在受伤后如何自我重塑，使个体能够恢复失去的功能并适应新的思维或运动方式。生物体表现出适应性，使生命能够在多样化和不断变化的环境中蓬勃发展。

来自主题: AI资讯

9438 点击 2025-02-07 15:34

2025年，软件工程要彻底变天了。先有奥特曼预言，后有微软下场All in智能体。刚刚，首个自主SWE智能体面世，不仅会主动改bug修复错误，还能自主提交PR评论。

来自主题: AI技术研报

7545 点击 2025-02-07 15:30

春节假期后的港股市场迎来结构性行情，以AI大模型为核心的技术革命再次成为资金追逐焦点，这次的落脚点在AI应用的商业化之中。

来自主题: AI资讯

8640 点击 2025-02-07 12:11

今天，我想用一些数据，来盘点2024年各家银行的大模型项目招标结果。

来自主题: AI资讯

7408 点击 2025-02-07 11:26

刚刚，OpenAI把o3-mini的推理思维链公开了。从今日起，免费用户和付费用户都可以看到模型的思维过程，OpenAI终于Open一回。

来自主题: AI资讯

10939 点击 2025-02-07 11:11

成本不到150元，训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型？！这不是洋葱新闻，而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作：s1。

来自主题: AI资讯

9781 点击 2025-02-07 00:26

周日晚间，五位高校教授夜话DeepSeek，从模型方法、框架、系统、基础设施等角度，阐述DeepSeek的技术原理与未来方向，揭秘其优化方法如何提升算力能效，信息量很大。

来自主题: AI技术研报

7626 点击 2025-02-06 15:57

本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康，指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱：ni@bupt.edu.cn, xiaoda99@bupt.edu.cn

来自主题: AI技术研报

5630 点击 2025-02-06 15:30

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

4630 点击 2025-02-06 15:26