AI资讯新闻榜单内容搜索-语言模型

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

5027 点击 2025-02-06 15:26

“垃圾进，垃圾出！”在中文互联网上，一场针对国产AI技术的恶意攻击正在悄然蔓延。某些自媒体以“污染中文互联网”为名，对DeepSeek等国产大语言模型发起了一场看似正义、实则荒谬的讨伐。他们将“幻觉”这一技术术语污名化，试图用莫须有的罪名抹黑国产AI的进步。

来自主题: AI技术研报

8849 点击 2025-02-06 12:28

关注NLP领域的人们，一定好奇「语言模型能做什么？」「什么是o1？」「为什么思维链有效？」

来自主题: AI技术研报

7853 点击 2025-02-04 20:15

在人工智能浪潮席卷全球的今天，大语言模型 (LLM) 正在重塑软件开发流程。近日，字节跳动首次对外披露其内部广泛应用的代码审查系统 BitsAI-CR 的技术细节，展示了 AI 在提升企业研发效率方面的重要进展。

来自主题: AI技术研报

8152 点击 2025-02-03 18:01

现在，豆包大模型团队联合北京交通大学、中国科学技术大学提出了VideoWorld。

来自主题: AI技术研报

8743 点击 2025-01-31 13:53

1月13日Mainframe公司发布了可以离线运行在苹果系统（Mac，iPad，iPhone）的本地大语言模型fullmoon: local intelligence

来自主题: AI资讯

8242 点击 2025-01-30 18:05

"Deepseek R1不就是一个参数更大的语言模型吗？随便问问题就行了，还需要什么特殊技巧？"——当你说出这句话时，是否意识到自己正像《西游记》里高举紫金葫芦的妖怪，对着齐天大圣叫嚣："我叫你的名字，你敢答应吗？"

来自主题: AI技术研报

11934 点击 2025-01-30 13:53

ETH Zurich等机构提出了推理语言模型（RLM）蓝图，超越LLM局限，更接近AGI，有望人人可用o3这类强推理模型。

来自主题: AI技术研报

8438 点击 2025-01-28 12:20

研究人员首次探讨了大型语言模型（LLMs）在问题生成任务中的表现，与人类生成的问题进行了多维度对比，结果发现LLMs倾向于生成需要较长描述性答案的问题，且在问题生成中对上下文的关注更均衡。

来自主题: AI技术研报

8261 点击 2025-01-27 13:26

瞄准推理时扩展（Inference-time scaling），DeepMind新的进化搜索策略火了！所提出的“Mind Evolution”（思维进化），能够优化大语言模型（LLMs）在规划和推理中的响应。

来自主题: AI技术研报

9948 点击 2025-01-24 15:05