VLA(Vision-Language-Action)架构是一种融合了视觉(Vision)、语言(Language)和动作(Action)信息的跨模态架构,旨在让智能体能够在多模态环境下进行感知、理解、推理并执行相应的动作,在人工智能领域具有重要的研究意义和应用价值。
评论前必须登录!
联系客服
关注公众号
回顶部
微信扫码分享
评论 ( 0 )