Das VLM macht in der Regel aus einer allgemeinen Anweisung („Reich mir mal den Kaffee rüber“) eine Reihe von Unteraufgaben – finde die Kaffeetasse, steuere den Greifer so, dass er die Tasse greifen ...