VLA

VLA（Vision-Language-Action）架构是一种融合了视觉（Vision）、语言（Language）和动作（Action）信息的跨模态架构，旨在让智能体能够在多模态环境下进行感知、理解、推理并执行相应的动作，在人工智能领域具有重要的研究意义和应用价值。

-=||=-收藏赞 (0)