
视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升
视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础,但同时也意味着更苛刻的计算资源需求。
视频作为包含大量时空信息和语义的媒介,对于 AI 理解、模拟现实世界至关重要。视频生成作为生成式 AI 的一个重要方向,其性能目前主要通过增大基础模型的参数量和预训练数据实现提升,更大的模型是更好表现的基础,但同时也意味着更苛刻的计算资源需求。
摘要:蔡崇信将泡沫风险归因于三类企业行为。
在引发全球关注的同时,全球资本对中国科技资产的重新评估与 AI 投资的底层逻辑也悄然发生转变。尤其是在大模型领域,过去巨额投入却屡次推迟的ChatGPT5和本就步入下半场的国内六小龙,将直面 DeepSeek这匹黑马的强劲冲击。中国AI企业在DeepSeek突破了“算力禁运”之后,正面临高质量数据稀缺的挑战,尤其是高质量、低成本、多种类、多模态的数据,将成为未来 AI 产业发展的核心关键。
当前,传统生物制造方法在知识整合、数据处理和实验设计方面面临诸多挑战,限制了其在工业化应用中的效率和可扩展性。
3月20日,丹麦制药巨头诺和诺德执行副总裁兼首席科学官Marcus Schindler在Linkedin发布了关于诺和诺德的研发组织架构调整的消息。Marcus Schindler还提到,大数据和人工智能将成为我们科学工作的核心,使我们能够加深对疾病的理解并做出明智的决定。这些变化不仅使我们能够快速创新,而且还缩短了从不确定到确定的路径,减少了周期时间和成本,同时增加了我们成功的可能性。
华人学者、斯坦福大学副教授 James Zou 领导的团队提出了 TextGrad ,通过文本自动化“微分”反向传播大语言模型(LLM)文本反馈来优化 AI 系统。只需几行代码,你就可以自动将用于分类数据的“逐步推理”提示转换为一个更复杂的、针对特定应用的提示。
自 2023年OpenAI发布函数调用功能以来,我一直在思考如何开启智能体和工具使用的生态系统。随着基础模型变得越来越智能,智能体与外部工具、数据和API交互的能力却日益碎片化:开发人员需要为智能体运行和集成的每个系统都实现具有特殊业务逻辑的智能体。
在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的问题:人体多样性、姿势复杂性、数据稀缺性等等。
Anthropic终于为Claude解锁了网络搜索功能,这一姗姗来迟的升级让它从「数据截止」的限制中解放出来,网友泪目欢呼雀跃!现在,Claude不仅能实时获取网络资讯,还能在回答中附上来源,实用性大幅提升。
就在刚刚,OpenAI 宣布在其 API 中推出全新一代音频模型,包括语音转文本和文本转语音功能,让开发者能够轻松构建强大的语音 Agent。据 OpenAI 介绍,新推出的 gpt-4o-transcribe 采用多样化、高质量音频数据集进行了长时间的训练,能更好地捕获语音细微差别,减少误识别,大幅提升转录可靠性。