Thinking Fast and Slow: Conditioning Diffusion Policies on Foundation Model Latent Spaces
- Institute
- Professur für autonome Fahrzeugsysteme (TUM-ED)
- Type
- Master's Thesis
- Content
- experimental theoretical
- Description
Hintergrund
Diffusionsbasierte Politiken haben sich in den letzten Jahren als leistungsfähiger Ansatz zur Trajektoriengenerierung in Vision-Language-Action-(VLA)-Modellen und anderen verkörperten KI-Systemen etabliert. Die meisten bestehenden Arbeiten verwenden Diffusions- oder Flow-Matching-Ansätze, die direkt auf Aktions- oder Trajektorienrepräsentationen operieren und während der Inferenz mehrere iterative Denoising-Schritte erfordern. Obwohl diese Verfahren sehr ausdrucksstark sind, sind sie rechnerisch aufwendig und nur eingeschränkt für zeitkritische Anwendungen geeignet.
Gleichzeitig stellen Foundation Models hochstrukturierte latente Räume bereit, die semantische, geometrische und dynamische Information in kompakter Form kodieren. Die Nutzung dieser latenten Repräsentationen eröffnet die Möglichkeit deutlich schnellerer Inferenz sowie abstrakterer Entscheidungsfindung. Diffusionsbasierte Politiken, die direkt in solchen latenten Räumen operieren oder auf diesen konditioniert sind, wurden bislang jedoch nur unzureichend untersucht.
Diese Masterarbeit untersucht alternative diffusionsbasierte Politikformulierungen und Konditionierungsstrategien für Vision-Language-Action-Modelle, mit besonderem Fokus auf latente Repräsentationen sowie den Trade-off zwischen schneller und langsamer Trajektoriengenerierung.
Zielsetzung
Ziel dieser Masterarbeit ist die systematische Analyse und Evaluation diffusionsbasierter Politiken zur Trajektoriengenerierung in Vision-Language-Action-Modellen, mit besonderem Augenmerk auf Effizienz, Konditionierungsstrategien und die Nutzung latenter Räume.
Konkret umfasst die Arbeit folgende Aufgaben:
-
Analyse bestehender diffusionsbasierter und Flow-Matching-Politiken in VLAs und verwandten Kontrollproblemen
-
Untersuchung alternativer Diffusionsformulierungen und Sampling-Strategien hinsichtlich Geschwindigkeit, Stabilität und Ausdrucksstärke
-
Erforschung von Konditionierungsmechanismen auf latente Repräsentationen von Foundation Models
-
Untersuchung der Trajektoriengenerierung direkt im latenten Raum sowie der Rückprojektion auf ausführbare Aktionen
-
Vergleich schneller, niedrigstufiger Diffusions- oder amortisierter Ansätze mit langsameren, iterativen Verfeinerungsstrategien
-
Evaluation der Ansätze hinsichtlich Trajektorienqualität, Recheneffizienz und Robustheit
Je nach Umfang und Interesse kann die Arbeit sowohl konzeptionelle Analysen als auch empirische Experimente und prototypische Implementierungen umfassen.
Wir bieten
-
Eine zukunftsorientierte Masterarbeit an der Schnittstelle von Diffusionsmodellen, Foundation Models und verkörperter Kontrolle
-
Zugang zu einer bestehenden VLA-Forschungsinfrastruktur und diffusionsbasierten Politikimplementierungen
-
Hohe Relevanz für aktuelle Forschung in Robotik und Multimodal Learning
-
Flexible Betreuung sowie die Möglichkeit, die Arbeit in Deutsch oder Englisch zu verfassen
-
Hohes Potenzial für eine wissenschaftliche Veröffentlichung
Anforderungen (Was Du mitbringen solltest)
-
Sehr gute Kenntnisse in Machine Learning und Deep Learning
-
Erfahrung mit Diffusionsmodellen oder generativen Modellen ist von Vorteil
-
Sicherer Umgang mit PyTorch und neuronalen Netzarchitekturen
-
Interesse an Kontrollproblemen, Robotik oder multimodalen Foundation Models
-
Selbstständige, forschungsorientierte Arbeitsweise
Start
Die Arbeit kann ab sofort begonnen werden. Bei Interesse senden Sie bitte eine E-Mail mit Leistungsnachweis und Lebenslauf.
--------------------------------------------------- ENGLISH VERSION ---------------------------------------------------
Background
Diffusion-based policies have recently emerged as a powerful approach for trajectory generation in Vision–Language–Action (VLA) models and other embodied AI systems. Most existing approaches rely on diffusion or flow-matching objectives operating directly on action or trajectory representations, often requiring multiple iterative denoising steps during inference. While effective, these methods can be computationally expensive and may limit real-time applicability.
At the same time, foundation models provide rich latent spaces that encode semantic, geometric, and dynamical information in a compact and structured form. Operating in these latent spaces offers the potential for significantly faster inference and more abstract reasoning, yet diffusion-based policy learning in foundation-model latent spaces remains largely unexplored.
This thesis investigates alternative diffusion-based policy formulations and conditioning strategies for VLAs, with a particular focus on latent-space diffusion and the trade-off between fast and slow trajectory generation.
Objective
The objective of this Master’s thesis is to explore and evaluate diffusion-based policy approaches for trajectory generation in Vision–Language–Action models, with an emphasis on efficiency, conditioning strategies, and latent-space operation.
Specifically, the student will:
-
Review existing diffusion-based and flow-matching policy approaches used in VLAs and related control settings
-
Analyze alternative diffusion formulations and sampling strategies with respect to speed, stability, and expressiveness
-
Investigate conditioning diffusion policies on foundation-model latent representations
-
Explore trajectory generation directly in latent spaces and study mappings back to executable actions
-
Compare fast, low-step diffusion or amortized approaches with slower, iterative refinement strategies
-
Evaluate the proposed approaches in terms of trajectory quality, computational efficiency, and robustness
Depending on scope and interest, the work may include conceptual analysis, empirical evaluation, and prototype implementations.
We Offer
-
A forward-looking Master’s thesis at the intersection of diffusion models, foundation models, and embodied control
-
Access to an existing VLA research framework and diffusion-based policy implementations
-
High relevance to current research in robotics and multimodal learning
-
Flexible supervision and the option to write the thesis in English or German
-
Strong potential for publication in workshops or conferences
Requirements
-
Strong background in machine learning and deep learning
-
Experience with diffusion models or generative modeling is beneficial
-
Familiarity with PyTorch and neural network training
-
Interest in control, robotics, or multimodal foundation models
-
Independent and research-oriented working style
Start
The thesis can begin immediately. Interested students should send an email including their transcript and CV.
-
- Tags
- AVS Schaefer
- Possible start
- sofort
- Contact
-
Finn Rasmus Schäfer
finn.schaefertum.de