大家好,熟悉我的读者都知道我去年做了一个 AI 领域周刊 Weekly Gradient[1],周刊初衷是不追任何热点,只讲落地相关内容,但是奈何 AI 领域的变化日新月异,结合自己需求和读者反馈,我决定搞一个专门面向开发者、汇总 AI 技术领域动态的日报,这篇文章向大家介绍日报的定位和实现过程。
有图有真相,follow.it 订阅数据
日报概览
虽然每天在各种不同的群里看到不少 AI 日报,但是内容太粗糙了,而且为了凑足新闻条数,会强行选一些周边新闻,什么 AI 美女、AI 宠物、AI 绘画、AI 音乐、英伟达股票创新高、马斯克绯闻等,这些内容虽然可以吸引一些用户,但是对开发者来说,并没有什么价值,反而增加了信噪,所以选择自建 AI 开发者日报,专门面向开发者群体。
我的期望是日报内容尽量精简,只聚焦技术领域,并按照主题分类,如果感兴趣再进一步阅读。为了满足上述需求,实现了以下功能:
1.精简内容:采用播客(长度控制在 3 ~ 10 分钟)和文章双形式,如果听到感兴趣的主题,再从播客 shownotes 跳转到文章页面指定位置进行主题阅读。
2.主题分类:分为 AI 模型发布、性能与基准测试、AI Agent 与开发者工具、基础设施、效率与硬件、新 AI 技术与研究等。
3.引文来源:主题阅读过程中,如果要查看完整的讨论上下文细节,可以直接跳转到到第一手信息源头,阅读原始作者的观点。
4.聚焦技术:比如 Cohere、Unsloth、DSPy、Gorilla LLM (Berkeley Function Calling)的 Discord 频道和 X 动态,r/MachineLearning、r/LocalLlama 等 Reddit 板块讨论,共计 200 个 X 账号、11 个 Reddit 板块、 29 个 Discord 频道的用户讨论,筛选出值得开发者关注的社区信息。
5.降低信噪:同时支持 RSS 和邮件订阅,无需注册账号,可随时取消订阅。
欢迎大家订阅 AI 开发者日报[2],也可以前往小宇宙或 QQ 音乐订阅播客。
长文总结场景的「幻觉」
如果大家日常用大模型总结过一些篇幅稍长的内容,而指令中也明确要求总结具体一点,就肯定会遇到「幻觉」问题,比如漏掉重要信息、总结不完整、信息不准确等,而且这个结果你去验证的成本非常高,因为大模型生成的结果,你不知道哪句话是错的,所以你只能去逐句验证,另一个问题是,要求输出的内容(越详细)长度越长,模型越容易出现幻觉,这个其实也很典型,那怎么解决呢。
我的方案是 「化整为零,分而治之」的 MapReduce 策略,将长文拆分成多个片段,然后逐个总结,最后再合并成一个完整的总结,既然已经把原文一段一段的给你去进行了总结,它自然不会漏掉任何的片段,然后还能做到结果的双向对应,刚好也满足我引文来源的需求,它就能告诉我这段总结是来自于原文的哪个片段。
英文社交媒体翻译
X 、Reddit、Twitter 等英文社交媒体内容在翻译时,英文语境下的梗、俚语、meme、专有名词、技术名词等翻译的不好,我使用过两步翻译法、三步翻译法,除了成本徒增之外,效果依旧不理想,因为我的提示词并不能囊括所有场景,做映射表也不现实,技术领域的名词本来也断在动态增加,对于英文语境下的梗和俚语我也不熟悉,更不会出现在映射表中,尝试用 DeepSeek、通义千问、豆包进行翻译,依旧存在问题,使用常规方案均无法解决。
最后在调研相关解决方案时,发现智谱的社交媒体翻译能力(并且提供了调用方便的 API)可以解决这个问题,并且测试下来效果很好,所以决定使用它来作为内容翻译。
介绍
使用小红书上的一句流行语「智谱 AI,你不宣传智谱开放平台(bigmodel.cn)的语言翻译智能体你糊涂啊」,语言翻译的入口确实藏的太深了,位于 智谱开放平台—>空间应用—>智能体—>语言翻译,为了方便大家,也可以直接使用下面的二维码一键直达页面。
长按二维码直达语言翻译智能体
这里提供了 4 种专门场景和 1 种通用场景下的翻译,我这里重点使用了社交媒体翻译,但是想着我之后可能会为日报集成论文内容,就连同专业文档翻译和其他 3 种翻译都试用了,这里一并介绍一下。
社交媒体翻译
通用翻译
通用翻译智能体支持 40 余种语言的互译及自动语种识别。相比直接调用大语言模型翻译,它内置专业翻译策略、术语表、翻译建议和特殊语种支持功能。用户可从 6 种专业翻译策略中选择:通用、转述、两步、三关、反思和 COT。
其中,“通用翻译”是最基础的策略,适用于大多数日常场景;“转述翻译”侧重传达原意而非拘泥于原文形式,使译文更符合目标语言的表达习惯,具有更高的重构自由度;“两步翻译”分为直译与意译两个阶段,先进行逐字对应翻译,再在此基础上进行自由翻译;“三关翻译”基于中国传统翻译理论中的“信、达、雅”三个标准,依次确保内容准确(信)、表达通顺(达)和风格优美(雅),并支持指定翻译风格(目前仅限古风文言文),适合对质量要求较高的文学与文化类翻译;“反思翻译”采用先直译,再由大模型以专家身份对结果按指定维度进行评估与反思,最终根据反思结果优化译文,从而提升翻译准确性;“COT 翻译”在正式翻译前引入清晰的推理过程,增强对复杂内容的理解,使翻译过程更具透明性,适用于概念复杂或需深度理解的文本。
访问直达 :https://bigmodel.cn/marketplace/agent_detail/general_translation[3]
专业文档翻译
专业文档翻译智能体支持 PDF、Word、Excel、PowerPoint、SRT 字幕、ePub 电子书、HTML 网页多种主流文档格式,翻译后的文档也会尽可能保留原文的排版与样式,非常适合个人用来翻译学术材料、专业文档和使用手册,还有企业场景的合同、商务文件、技术文档、产品说明书等翻译。
访问直达 :https://bigmodel.cn/marketplace/agent_detail/doc_translation_agent[4]
社科文学翻译
社科文学翻译智能体专门用于社科与文学类文本翻译,能精准还原风格和语义。它擅长处理隐喻、象征性强的文本,精通文化背景理解,能准确翻译哲学思想,还具备处理抽象概念的能力,确保学术严谨性,适用于学术论文、社科著作、小说、诗歌、散文等文本场景,在提升翻译效率的同时,保持原作语言风格与文化语境的准确传达。
访问直达 :https://bigmodel.cn/marketplace/agent_detail/social_literature_translation_agent[5]
影视剧字幕翻译
影视剧字幕翻译专为内容出海团队设计,它支持将中文字幕翻译成英、日、韩三语,具备高效并行处理能力,平均每集翻译仅需 5 分钟,能大幅缩短交付周期。翻译质量接近专业初级译员水准,还能精准还原语境和人物情绪,并自动校准字幕时间轴,实现帧级同步。它主要用于剧集出海、国际宣发素材制作和跨语种版权交易,相比人工翻译,成本降低 90%以上,效率大幅提升。
访问直达 :https://bigmodel.cn/marketplace/agent_detail/subtitle_translation_agent[6]
社交媒体翻译
终于来到本次的重头戏,社交媒体翻译智能体专为社交平台内容特点而设计,经过优化可精准处理网络流行语、表情符号、缩写词、文化梗及平台特有的表达方式。它在保留原文风格与情感色彩的基础上,提供自然流畅的翻译结果。它能够深入理解多语言的社交语境,有效处理非正式、口语化表达以及文化引用,实现顺畅的跨文化交流。
访问直达 :https://bigmodel.cn/marketplace/agent_detail/social_translation_agent
翻译效果
以下将使用来自 X、Discord 和 Reddit 的四组用户内容,对比智谱社交媒体翻译智能体与直接调用大模型进行翻译的效果,供读者自行评估。
(直接使用大模型进行翻译时采用的提示词:直接翻译下面来自英文社交平台的用户内容:xxx,禁止多余解释)
案例 1
案例 2
案例 3
API 接入
智谱社交媒体翻译智能体的 API 接入也十分便捷,和直接调用大模型的流程基本相似,特别关注的是 agent_id(这里填写 social_translation_agent)、custom_variables(源语言 source_lang、 目标语言 target_lang、翻译风格 style),更详细文档可查看 :https://bigmodel.cn/dev/api/agent/social_translation_agent[7]
具体的接入示例如下:
import os
from zhipuai import ZhipuAI
API_KEY = os.getenv("ZHIPU_API_KEY")
client = ZhipuAI(api_key=API_KEY) # 请替换为实际API密钥
response = client.agents.invoke(
agent_id="social_translation_agent",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Me: *opens PR* CI/CD pipeline: “you have summoned the ancient error” ☠️"
}
]
}
],
custom_variables={
"source_lang": "en",
"target_lang": "zh-CN",
"style": "自动风格"
}
)
translation = response.choices[0].messages[0].get("content")[0].get("text")
print(translation)
虽然通过精心调试和编写提示词,也能达到智谱翻译智能体 80% 的水平,但这一过程耗时较长,且无法覆盖所有场景。对于希望快速实现需求的编辑、学生、记者等非 AI 从业者而言,提示词设计本身往往也具有一定门槛,相比之下,直接使用翻译智能体更加便捷高效,能够迅速解决问题,值得尝试。
建议大家利用智谱翻译智能体探索更多应用场景,同时欢迎订阅 AI 开发者日报[8](也可在小宇宙或 QQ 音乐收听同名播客)。
[1] 周刊 Weekly Gradient: https://liduos.com/the-memeber-newsletter-introduce.html
[2] 订阅 AI 开发者日报: https://ainews.liduos.com/
[3] 访问直达 :https://bigmodel.cn/marketplace/agent_detail/general_translation: https://bigmodel.cn/marketplace/agent_detail/general_translation
[4] 访问直达 :https://bigmodel.cn/marketplace/agent_detail/doc_translation_agent: https://bigmodel.cn/marketplace/agent_detail/doc_translation_agent
[5] 访问直达:https://bigmodel.cn/marketplace/agent_detail/social_literature_translation_agent: https://bigmodel.cn/marketplace/agent_detail/social_literature_translation_agent
[6] 访问直达:https://bigmodel.cn/marketplace/agent_detail/subtitle_translation_agent: https://bigmodel.cn/marketplace/agent_detail/subtitle_translation_agent
[7] 更详细文档可查看:https://bigmodel.cn/dev/api/agent/social_translation_agent: https://bigmodel.cn/dev/api/agent/social_translation_agent
[8] AI 开发者日报: https://ainews.liduos.com/
文章来自于微信公众号“莫尔索随笔”,作者是“是莫尔索”。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0