BaSaMa & HiWi

E2E Driving with Foundation Models: Conditioning Diffusion Policies on Foundation Model Latent Spaces

Institut

Professur für autonome Fahrzeugsysteme (TUM-ED)

Typ

Semesterarbeit / Masterarbeit /

Inhalt

experimentell / theoretisch / konstruktiv /

Beschreibung

Master's Thesis: Latent-Space Flow Matching for Trajectory Generation in Vision-Language Models for Autonomous Driving

---

Background

Recent work in our lab has shown that Vision-Language Models (VLMs) applied to autonomous driving suffer from a fundamental Perception Bottleneck: they answer trajectory-relevant questions based on language priors rather than on visual or physical evidence. This finding, established through our EgoDyn-Bench benchmark, reveals a structural disentanglement between language and vision modalities that cannot be resolved through standard early-fusion approaches in the shared embedding space.s

To address this, we are developing Tri-Modal Gated Deep Supervision (TGDS), a method that introduces query-conditioned gating over pairwise alignment losses between vision, trajectory, and language modalities. TGDS produces trajectory-specific feature representations that are supervised independently of the LLM backbone, explicitly counteracting modality dominance.

A key open question in this research direction is how to leverage these trajectory-specific latent representations for generative trajectory planning. Diffusion-based and Flow-matching policies have emerged as powerful generative approaches in VLA systems, but their application in foundation-model latent spaces, and specifically their interaction with multi-modal conditioning strategies, remains largely unexplored.

---

Objective

This thesis investigates Flow Matching and diffusion-based policy formulations for trajectory generation, conditioned on the latent representations produced by TGDS. The central research question is:

How can trajectory-specific latent representations from a multi-modal gated supervision framework be used to condition a generative trajectory policy, and what conditioning strategy, early, mid, or late fusion with coupled losses, yields the best trade-off between physical consistency, inference speed, and generalization?

Specifically, the student will:

- Review existing diffusion-based and flow-matching policy approaches in VLA and AD settings
- Analyze the trade-off between fast low-step inference (Flow Matching) and iterative refinement (Diffusion) in real-time AD constraints
- Investigate conditioning strategies on TGDS latent representations, with a focus on mid/late fusion with coupled supervision signals rather than naive early fusion in the shared embedding space
- Explore trajectory generation directly in the TGDS latent space and study mappings back to executable trajectories
- Evaluate approaches on EgoDyn-Bench and the EDGAR dataset in terms of trajectory quality, physical consistency, and computational efficiency

---

We Offer

- Direct integration into an active NeurIPS-level research pipeline (TGDS, EgoDyn-Bench)
- Access to TUM EDGAR dataset, high-performance GPU infrastructure (RTX 5090 workstations, TUM LRZ cluster)
- Close supervision with strong potential for co-authorship on a follow-up publication
- Connection to ongoing collaborations with BMW Research
- The option to write in English or German

---

Requirements

- Strong background in deep learning, ideally with experience in generative models (diffusion, flow matching, or VAEs)
- Familiarity with multi-modal architectures or VLMs is a strong plus
- Solid PyTorch skills and comfort with research-level codebases
- Interest in autonomous driving, embodied AI, or foundation models
- Independent, research-oriented mindset, this thesis builds on existing work and is expected to produce publishable results

---

Masterarbeit: Latent-Space Flow Matching zur Trajektoriengenerierung in Vision-Language-Modellen für autonomes Fahren

---

Hintergrund

Jüngste Arbeiten in unserem Labor haben gezeigt, dass Vision-Language-Modelle (VLMs) für autonomes Fahren unter einem grundlegenden Wahrnehmungsengpass leiden: Sie beantworten trajektorienrelevante Fragen auf Basis sprachlicher Vorkenntnisse statt auf Basis visueller oder physikalischer Evidenz. Diese Erkenntnis, die durch unseren EgoDyn-Bench-Benchmark gewonnen wurde, offenbart eine strukturelle Entkopplung zwischen Sprach- und Sehmodalitäten, die sich durch Standardverfahren der frühen Fusion im gemeinsamen Einbettungsraum nicht auflösen lässt.

Um diesem Problem zu begegnen, entwickeln wir Tri-Modal Gated Deep Supervision (TGDS). Diese Methode führt eine abfragebedingte Steuerung der paarweisen Ausrichtungsverluste zwischen den Seh-, Trajektorien- und Sprachmodalitäten ein. TGDS erzeugt trajektorienspezifische Merkmalsdarstellungen, die unabhängig vom LLM-Backbone überwacht werden und so der Modalitätsdominanz explizit entgegenwirken.

Eine zentrale offene Frage in diesem Forschungsfeld ist, wie diese trajektorienspezifischen latenten Repräsentationen für die generative Trajektorienplanung genutzt werden können. Diffusionsbasierte und Flow-Matching-Policies haben sich in VLA-Systemen als leistungsstarke generative Ansätze erwiesen, ihre Anwendung in latenten Räumen von Fundamentmodellen und insbesondere ihre Interaktion mit multimodalen Konditionierungsstrategien ist jedoch weitgehend unerforscht.

---

Zielsetzung

Diese Arbeit untersucht Flow-Matching- und diffusionsbasierte Policy-Formulierungen zur Trajektoriengenerierung, die auf den von TGDS erzeugten latenten Repräsentationen konditioniert sind. Die zentrale Forschungsfrage lautet:

Wie können trajektorienspezifische latente Repräsentationen aus einem multimodalen Gated-Supervision-Framework genutzt werden, um eine generative Trajektorien-Policy zu konditionieren, und welche Konditionierungsstrategie – frühe, mittlere oder späte Fusion mit gekoppelten Verlusten – bietet den besten Kompromiss zwischen physikalischer Konsistenz, Inferenzgeschwindigkeit und Generalisierung?

Konkret wird der/die Studierende:

- Bestehende diffusionsbasierte und Flow-Matching-basierte Policy-Ansätze in VLA- und AD-Umgebungen untersuchen
- Den Kompromiss zwischen schneller Low-Step-Inferenz (Flow Matching) und iterativer Verfeinerung (Diffusion) in Echtzeit-AD-Constraints analysieren
- Konditionierungsstrategien auf TGDS-Latent-Repräsentationen untersuchen, mit Fokus auf Mid-/Späfusion mit gekoppelten Supervision-Signalen anstelle naiver Frühfusion im gemeinsamen Einbettungsraum
- Die Trajektoriengenerierung direkt im TGDS-Latent-Raum erforschen und Abbildungen zurück zu ausführbaren Trajektorien untersuchen
- Ansätze auf EgoDyn-Bench und dem EDGAR-Datensatz hinsichtlich Trajektorienqualität, physikalischer Konsistenz und Recheneffizienz evaluieren

---

Wir bieten:

- Direkte Integration in eine aktive Forschungspipeline auf NeurIPS-Niveau (TGDS, EgoDyn-Bench)

- Zugang zu Datensätzen, leistungsstarke GPU-Infrastruktur (RTX 5090 Workstations, TUM LRZ-Cluster)

- Enge Betreuung mit großem Potenzial für eine Ko-Autorenschaft an einer Folgepublikation

- Anbindung an laufende Kooperationen mit BMW Research

- Möglichkeit, auf Englisch oder Deutsch zu schreiben

---

Anforderungen

- Fundierte Kenntnisse im Bereich Deep Learning, idealerweise mit Erfahrung in generativen Modellen (Diffusion, Flow Matching oder VAEs)
- Kenntnisse multimodaler Architekturen oder VLMs sind von Vorteil
- Solide PyTorch-Kenntnisse und Erfahrung mit Forschungscode
- Interesse an autonomem Fahren, verkörperter KI oder Grundlagenmodellen
- Selbstständige, forschungsorientierte Arbeitsweise; diese Arbeit baut auf bestehenden Forschungsergebnissen auf und soll publizierbare Ergebnisse liefern

Tags

AVS Schaefer

Möglicher Beginn

sofort

Kontakt

Finn Rasmus Schäfer
finn.schaefertum.de

Navigation