Beyond Vision and Language: Integrating LiDAR and RADAR into Driving Foundation Models
- Institute
- Professur für autonome Fahrzeugsysteme (TUM-ED)
- Type
- Master's Thesis
- Content
- experimental theoretical
- Description
Hintergrund
Vision-Language-Modelle (VLMs) sowie Vision-Language-Action-(VLA)-Modelle haben sich als dominantes Paradigma für multimodale Wahrnehmung und Entscheidungsfindung etabliert. Trotz ihrer hohen Leistungsfähigkeit basieren diese Modelle primär auf visuellen und sprachlichen Eingaben und übernehmen damit grundlegende Limitationen visuell getriebener Wahrnehmung, insbesondere in dynamisch komplexen oder sicherheitskritischen Situationen. In realen verkörperten Systemen werden zusätzliche Sensoren wie LiDAR und RADAR eingesetzt, um diese Einschränkungen durch metrische Geometrie, Bewegungsinformationen und Robustheit gegenüber ungünstigen Umweltbedingungen zu kompensieren.
Bestehende Arbeiten zur Integration von LiDAR- oder RADAR-Daten in visuell dominierte Modelle nutzen häufig Zwischenrepräsentationen wie bildartige Projektionen oder rein featurebasierte Fusion. Diese Ansätze erleichtern zwar die Integration, gehen jedoch oft mit dem Verlust modalspezifischer Struktur und physikalischer Information einher. Mit der zunehmenden Bedeutung von Foundation Models als Basiskomponenten verkörperter Intelligenz fehlt bislang eine fundierte Untersuchung, wie nicht-visuelle Sensorik principiengerecht in solche Modelle eingebettet und mit semantischen sowie sprachlichen Repräsentationen ausgerichtet werden kann.
Diese Masterarbeit untersucht Ansätze zur Integration von LiDAR- und/oder RADAR-Daten in foundation-model-basierte Architekturen, mit dem Ziel, geometrische und dynamische Information möglichst direkt und ohne Reduktion auf rein visuelle Repräsentationen zu erfassen.
Zielsetzung
Ziel dieser Masterarbeit ist die Untersuchung von Repräsentations- und Alignierungsstrategien zur Integration nicht-visueller Sensorik – insbesondere LiDAR und/oder RADAR – in multimodale Systeme auf Basis von Foundation Models.
Konkret umfasst die Arbeit folgende Aufgaben:
- Analyse und Einordnung des State of the Art zur Integration von LiDAR- und RADAR-Daten in lernbasierte Wahrnehmungs- und Entscheidungssysteme
- Untersuchung der Stärken und Limitationen bestehender Integrationsansätze, z. B. projektionsbasierte, bildartige oder featurebasierte Repräsentationen
- Erforschung alternativer Repräsentationen für LiDAR-Punktwolken oder RADAR-Signale, die modalspezifische Eigenschaften wie Geometrie, Sparsität und Bewegungsinformation bewahren
- Untersuchung von Alignierungsstrategien zwischen nicht-visuellen Modalitäten und latenten Räumen von Foundation Models
- Analyse der Interaktion zwischen Vision, Sprache und zusätzlicher Sensorik in nachgelagerten Aufgaben (z. B. Wahrnehmung, Dynamikverständnis oder Kontrolle)
- Bewertung von Trade-offs hinsichtlich Repräsentationsqualität, Recheneffizienz und Robustheit
Abhängig von Umfang und Interesse kann der Schwerpunkt der Arbeit auf konzeptioneller Analyse, empirischer Evaluation oder prototypischer Implementierung liegen.
Wir bieten
- Eine zukunftsorientierte Masterarbeit an der Schnittstelle von Multimodal Learning, Foundation Models und verkörperter Sensorik
- Zugang zu bestehenden Forschungs-Codebases und multimodalen Datensätzen
- Hohe Relevanz für aktuelle Forschung in Robotik, autonomen Systemen und multimodaler KI
- Flexible Betreuung sowie die Möglichkeit, die Arbeit in Deutsch oder Englisch zu verfassen
- Potenzial für eine wissenschaftliche Veröffentlichung bei entsprechender Qualität
Anforderungen (Was Du mitbringen solltest)
- Sehr gute Kenntnisse in Machine Learning und Deep Learning
- Erfahrung mit PyTorch und neuronalen Netzarchitekturen
- Grundkenntnisse im Umgang mit 3D-Daten, Punktwolken oder Sensorsignalen sind von Vorteil
- Interesse an Multimodal Learning und verkörperter KI
- Selbstständige, forschungsorientierte Arbeitsweise
Start
Die Arbeit kann ab sofort begonnen werden. Bei Interesse senden Sie bitte eine E-Mail mit Leistungsnachweis und Lebenslauf.
--------------------------------------------------- ENGLISH VERSION ---------------------------------------------------
Background
Vision–Language Models (VLMs) and Vision–Language–Action (VLA) models have become a dominant paradigm for multimodal perception and decision-making. While highly effective, these models primarily rely on visual and linguistic inputs and therefore inherit fundamental limitations of vision-based perception, particularly in dynamically complex or safety-critical scenarios. In real-world embodied systems, additional sensing modalities such as LiDAR and RADAR are routinely used to address these limitations by providing metric geometry, motion cues, and robustness under adverse conditions.
Existing work on integrating LiDAR or RADAR into vision-centric models often relies on intermediate representations such as image-style projections or feature-level fusion, which simplify integration but risk discarding modality-specific structure and physical information. As foundation models increasingly serve as the backbone for embodied intelligence, a principled understanding of how non-visual sensing modalities can be embedded and aligned with semantic and linguistic representations is still missing.
This thesis explores approaches for integrating LiDAR and/or RADAR data into foundation-model-based architectures, with an emphasis on preserving geometric and dynamic information rather than collapsing these modalities into purely visual proxies.
Objective
The objective of this Master’s thesis is to investigate representation and alignment strategies for incorporating non-visual sensing modalities—specifically LiDAR and/or RADAR—into foundation-model-based multimodal systems.
The student will:
- Review state-of-the-art approaches for integrating LiDAR and RADAR into learning-based perception and decision-making systems
- Analyze the strengths and limitations of existing integration strategies, such as projection-based, image-style, or feature-level representations
- Investigate alternative representations for LiDAR point clouds or RADAR signals that preserve modality-specific structure (e.g., geometry, sparsity, motion cues)
- Explore alignment strategies between non-visual modalities and foundation model latent spaces
- Study the interaction between vision, language, and additional sensing modalities in downstream tasks (e.g., perception, dynamics understanding, or control)
- Evaluate trade-offs in terms of representation quality, computational efficiency, and robustness
Depending on scope and interest, the work may focus on conceptual analysis, empirical evaluation, or prototypical implementations within an existing multimodal framework.
We Offer
- A forward-looking Master’s thesis at the intersection of multimodal learning, foundation models, and embodied sensing
- Access to an existing research codebase and datasets for multimodal perception
- High relevance to current research in robotics, autonomous systems, and multimodal AI
- Flexible supervision and the option to conduct the work in English or German
- Potential for publication based on strong and well-scoped results
Requirements
- Strong background in machine learning and deep learning
- Experience with PyTorch and neural network architectures
- Familiarity with 3D data, point clouds, or signal processing is beneficial
- Interest in multimodal learning and embodied AI
- Independent and research-oriented working style
Start
The thesis can begin immediately. Interested students should send an email including their transcript and CV.
- Tags
- AVS Schaefer
- Possible start
- sofort
- Contact
-
Finn Rasmus Schäfer
finn.schaefertum.de