AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
理想同学App实测:车企造的AI应用,除了视觉,其他都很一般

理想同学App实测:车企造的AI应用,除了视觉,其他都很一般

理想同学App实测:车企造的AI应用,除了视觉,其他都很一般

2023年6月,理想汽车推出了自研认知大模型“Mind GPT”,它以“理想同学”App的形式出现在理想汽车的车机中,支持通过自然语言交流、发送指令。2024年,Mind GPT升级到3.0,带来了行业领先的自然语言任务执行功能。

来自主题: AI资讯
6715 点击    2024-12-28 12:11
把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

近年来,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。

来自主题: AI技术研报
6468 点击    2024-12-28 11:41
豆包定价一元的野心:字节跳动打响AI突围战

豆包定价一元的野心:字节跳动打响AI突围战

豆包定价一元的野心:字节跳动打响AI突围战

在人工智能快速发展的当下,这个问题有了新的答案——处理284张720P的图片。2023年12月,随着字节跳动发布最新的豆包视觉理解模型,AI领域又迎来一次"降维打击":每千tokens的输入价格降至3厘,较行业常见价格低了整整85%。

来自主题: AI资讯
7197 点击    2024-12-27 12:55
AI到底有没有护城河?

AI到底有没有护城河?

AI到底有没有护城河?

前脚大模型六小虎之一的智谱刚完成新一轮30亿的融资;后脚字节跳动发布豆包视觉理解模型、快手可灵1.6正式上线。

来自主题: AI资讯
6046 点击    2024-12-26 09:31
刚刚,多模态推理模型QVQ全新开源

刚刚,多模态推理模型QVQ全新开源

刚刚,多模态推理模型QVQ全新开源

QVQ 在人工智能的视觉理解和复杂问题解决能力方面实现了重大突破。在 MMMU 评测中,QVQ 取得了 70.3 的优异成绩,并且在各项数学相关基准测试中相比 Qwen2-VL-72B-Instruct 都有显著提升。通过细致的逐步推理,QVQ 在视觉推理任务中展现出增强的能力,尤其在需要复杂分析思维的领域表现出色。

来自主题: AI资讯
9370 点击    2024-12-25 08:47
字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

字节整新活!照片+音频让蒙娜丽莎秒变播客主理人

在大语言模型和 AIGC 的热潮下,科研人员对构建「视觉对话智能体」(Visual Chat Agent)展现出极大兴趣。其中,可实时交互的人像生成技术(Audio-Driven Real-Time Interactive Head Generation)是实现链路中极为关键的一环。

来自主题: AI资讯
7555 点击    2024-12-24 15:44
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!

李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!

李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!

李飞飞、谢赛宁团队又有重磅发现了:多模态LLM能够记住和回忆空间,甚至内部已经形成了局部世界模型,表现了空间意识!李飞飞兴奋表示,在2025年,空间智能的界限很可能会再次突破。

来自主题: AI技术研报
7790 点击    2024-12-23 16:22