VLA^2
Vision-Language-Action Agent
Brief: Agentic VLA,基于AI Agent/Agentic AI中workflow的思想,将VLA作为整个流程中的一个决策组件,创建一个system-level的framework。主要是通过一系列auxiliary组件、模块的设计来enhance VLA的泛化能力。
Inspiration:思路和类生物脑VLA很像,先探索模块化的设计,纯end-to-end跨越太大,很难work。
Framework

- Preliminary Information Processing:处理Env中得到的Sensory Infos(Planner+Vision Pre-Processing)
- Cognition & Memory:通过RAG技术丰富视觉表征和子任务列表(RAG+VOS)快慢脑
- Judgment & Execution:基于得到的信息监控任务完成情况并选择下一个子任务利用VLA进行决策(Verifier+VLA)


Example


