Spaces:
Sleeping
Sleeping
VoxPoser API Examples
Usage
python3 app.py
- 在界面中填写OpenAI API Key,使用的代理地址,选择需要的configuration
- 点击Setup/Reset Simulation
- 填写自定义Instruction
- 点击Run执行(需要等待较长时间)
Example
VLM & Perception
可替代性:
- owlvit -> Grounded SAM / YOLO
- SAM -> FastSAM / YOLO-seg
- XMem -> DeepSORT(?) ByteTrack(?)
LMP语言模型编程
语言模型编程:使用GPT-4
VoxPoser需要三大类LMP:
- Planner
- Composer
- Value map generator
可替代性:
- GPT-4 -> LLaMA2 (?)
LMPs
Planner
LMP的输出是一系列的编程模型接口,Planner将这些语言描述转化为一系列高层级的规划,每步规划这些动作将被Composer执行。
模拟环境中不使用规划器,因为评估的任务由单个操作阶段组成。
Composer
Composer LMP 从依次逐渐调用如下模组:
- 感知模组调用获得感知结果
- [optional] Affordance LMP
- [optional] Avoidance LMP
- [optional] End Effector Velocity LMP
- [optional] End Effector Rotation LMP
- [optional] Gripper Action LMP
- Execute
Value Maps
TODO
Execution
- Motion Planner: 贪心搜索得到一系列末端位姿,仅适用Affordance Map 和 Avoidance Map
- Cost map: $W = -2 * \text{norm}(\text{Affordance}) - \text{norm}(\text{Avoidance})$
- 根据离开/接近,调用目标法向量的正/负值方向上的Affordance Map
- 根据避障目标的占据栅格occupancy_map,调整Avoidance Map