DeepSeek-R1 x Agentic RAG:构建带"深度思考"开关的知识研究助理|深度长文
DeepSeek-R1 x Agentic RAG:构建带"深度思考"开关的知识研究助理|深度长文RAG是一种基于“检索结果”做推理的应用,这大大限制了类似DeepSeek-R1模型的发挥空间。但又的确存在将RAG的准确性与DeepSeek深度思考能力结合的场景,而不仅仅是回答事实性问题。比如:
搜索
RAG是一种基于“检索结果”做推理的应用,这大大限制了类似DeepSeek-R1模型的发挥空间。但又的确存在将RAG的准确性与DeepSeek深度思考能力结合的场景,而不仅仅是回答事实性问题。比如:
Anthropic 最近动作不断。
2025年伊始,DeepSeek的落地引起了时代的科技大震荡,而随着其爆红,国内网友也玩出了各种新花样:年轻人深夜用它算命、股民根据它的建议炒股、单身贵族把它当“赛博月老”寻姻缘......不少人甚至和其谈起了恋爱。他(她)们把自己的理想型输入AI模型,用话术和AI“产崽”,打造一个私人订制版的“完美恋人”。
2025年2月,如果不是长期从事人口研究的中国人民大学教授李婷的公开辟谣,很多人都真诚地相信了一组数据——“中国80后累计死亡率为5.20%”。
新学期刚开学的一次家庭聚餐上,五年级小学生林朵听大人们讨论用DeepSeek“算命”,她既不懂算命,也没听明白DeepSeek是哪两个单词,但还是当场问爸爸要来手机,向那个画着鲸鱼的APP虔诚提问:“您好,请预测我下一次考试的分数。”
大家好,这里是华创资本的播客节目「牛白丁」,我是 Vivienne 晓雯。好久不见的 AGI 系列来填坑了,这一期我们请到了好朋友橘子,聊聊最近爆火的被称之为“东方神秘力量”的DeepSeek。
随着 DeepSeek 问世,从春节至今,和AI有关的资讯与讨论已经让人有些疲劳。然而,相关讨论大都聚焦在产业、投资和技术方面,其中不乏优质信息,但仍缺少一个重要的视角——作为普通用户,我们如何看待并使用AI。
一年一度,今年的世界移动通信大会(MWC)如期在巴塞罗那开展。 不出所料,巴展无处不AI。 连没有前来参会的DeepSeek也有被cue到。
国内首个原生AI IDE(集成开发环境),来自字节,实测在此:哪怕一点代码都不懂,只要能说出自己的需求,就能靠AI开发出一个功能完备的应用。例如如果你想做一个Flappy Bird游戏,那就用中文跟它说一声就行:
要知道,过去几年,各种通用评测逐渐同质化,越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准,各家模型出街时人手一份,但局限性也开始暴露,比如覆盖范围狭窄(通常不足 50 个学科),不含长尾知识;缺乏足够挑战性和区分度,比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。