BaSaMa - Fachschaft Maschinenbau: BaSaMa & HiWi

Beyond Vision and Language: Integrating LiDAR and RADAR into Driving Foundation Models

Institute

Professur für autonome Fahrzeugsysteme (TUM-ED)

Type

Master's Thesis /

Content

experimental / theoretical /

Description

Hintergrund

Vision-Language-Modelle (VLMs) sowie Vision-Language-Action-(VLA)-Modelle haben sich als dominantes Paradigma für multimodale Wahrnehmung und Entscheidungsfindung etabliert. Trotz ihrer hohen Leistungsfähigkeit basieren diese Modelle primär auf visuellen und sprachlichen Eingaben und übernehmen damit grundlegende Limitationen visuell getriebener Wahrnehmung, insbesondere in dynamisch komplexen oder sicherheitskritischen Situationen. In realen verkörperten Systemen werden zusätzliche Sensoren wie LiDAR und RADAR eingesetzt, um diese Einschränkungen durch metrische Geometrie, Bewegungsinformationen und Robustheit gegenüber ungünstigen Umweltbedingungen zu kompensieren.

Bestehende Arbeiten zur Integration von LiDAR- oder RADAR-Daten in visuell dominierte Modelle nutzen häufig Zwischenrepräsentationen wie bildartige Projektionen oder rein featurebasierte Fusion. Diese Ansätze erleichtern zwar die Integration, gehen jedoch oft mit dem Verlust modalspezifischer Struktur und physikalischer Information einher. Mit der zunehmenden Bedeutung von Foundation Models als Basiskomponenten verkörperter Intelligenz fehlt bislang eine fundierte Untersuchung, wie nicht-visuelle Sensorik principiengerecht in solche Modelle eingebettet und mit semantischen sowie sprachlichen Repräsentationen ausgerichtet werden kann.

Diese Masterarbeit untersucht Ansätze zur Integration von LiDAR- und/oder RADAR-Daten in foundation-model-basierte Architekturen, mit dem Ziel, geometrische und dynamische Information möglichst direkt und ohne Reduktion auf rein visuelle Repräsentationen zu erfassen.

Zielsetzung

Ziel dieser Masterarbeit ist die Untersuchung von Repräsentations- und Alignierungsstrategien zur Integration nicht-visueller Sensorik – insbesondere LiDAR und/oder RADAR – in multimodale Systeme auf Basis von Foundation Models.

Konkret umfasst die Arbeit folgende Aufgaben:

Analyse und Einordnung des State of the Art zur Integration von LiDAR- und RADAR-Daten in lernbasierte Wahrnehmungs- und Entscheidungssysteme
Untersuchung der Stärken und Limitationen bestehender Integrationsansätze, z. B. projektionsbasierte, bildartige oder featurebasierte Repräsentationen
Erforschung alternativer Repräsentationen für LiDAR-Punktwolken oder RADAR-Signale, die modalspezifische Eigenschaften wie Geometrie, Sparsität und Bewegungsinformation bewahren
Untersuchung von Alignierungsstrategien zwischen nicht-visuellen Modalitäten und latenten Räumen von Foundation Models
Analyse der Interaktion zwischen Vision, Sprache und zusätzlicher Sensorik in nachgelagerten Aufgaben (z. B. Wahrnehmung, Dynamikverständnis oder Kontrolle)
Bewertung von Trade-offs hinsichtlich Repräsentationsqualität, Recheneffizienz und Robustheit

Abhängig von Umfang und Interesse kann der Schwerpunkt der Arbeit auf konzeptioneller Analyse, empirischer Evaluation oder prototypischer Implementierung liegen.

Wir bieten

Eine zukunftsorientierte Masterarbeit an der Schnittstelle von Multimodal Learning, Foundation Models und verkörperter Sensorik
Zugang zu bestehenden Forschungs-Codebases und multimodalen Datensätzen
Hohe Relevanz für aktuelle Forschung in Robotik, autonomen Systemen und multimodaler KI
Flexible Betreuung sowie die Möglichkeit, die Arbeit in Deutsch oder Englisch zu verfassen
Potenzial für eine wissenschaftliche Veröffentlichung bei entsprechender Qualität

Anforderungen (Was Du mitbringen solltest)

Sehr gute Kenntnisse in Machine Learning und Deep Learning
Erfahrung mit PyTorch und neuronalen Netzarchitekturen
Grundkenntnisse im Umgang mit 3D-Daten, Punktwolken oder Sensorsignalen sind von Vorteil
Interesse an Multimodal Learning und verkörperter KI
Selbstständige, forschungsorientierte Arbeitsweise

Start

Die Arbeit kann ab sofort begonnen werden. Bei Interesse senden Sie bitte eine E-Mail mit Leistungsnachweis und Lebenslauf.

--------------------------------------------------- ENGLISH VERSION ---------------------------------------------------

Background

Vision–Language Models (VLMs) and Vision–Language–Action (VLA) models have become a dominant paradigm for multimodal perception and decision-making. While highly effective, these models primarily rely on visual and linguistic inputs and therefore inherit fundamental limitations of vision-based perception, particularly in dynamically complex or safety-critical scenarios. In real-world embodied systems, additional sensing modalities such as LiDAR and RADAR are routinely used to address these limitations by providing metric geometry, motion cues, and robustness under adverse conditions.

Existing work on integrating LiDAR or RADAR into vision-centric models often relies on intermediate representations such as image-style projections or feature-level fusion, which simplify integration but risk discarding modality-specific structure and physical information. As foundation models increasingly serve as the backbone for embodied intelligence, a principled understanding of how non-visual sensing modalities can be embedded and aligned with semantic and linguistic representations is still missing.

This thesis explores approaches for integrating LiDAR and/or RADAR data into foundation-model-based architectures, with an emphasis on preserving geometric and dynamic information rather than collapsing these modalities into purely visual proxies.

Objective

The objective of this Master’s thesis is to investigate representation and alignment strategies for incorporating non-visual sensing modalities—specifically LiDAR and/or RADAR—into foundation-model-based multimodal systems.

The student will:

Review state-of-the-art approaches for integrating LiDAR and RADAR into learning-based perception and decision-making systems
Analyze the strengths and limitations of existing integration strategies, such as projection-based, image-style, or feature-level representations
Investigate alternative representations for LiDAR point clouds or RADAR signals that preserve modality-specific structure (e.g., geometry, sparsity, motion cues)
Explore alignment strategies between non-visual modalities and foundation model latent spaces
Study the interaction between vision, language, and additional sensing modalities in downstream tasks (e.g., perception, dynamics understanding, or control)
Evaluate trade-offs in terms of representation quality, computational efficiency, and robustness

Depending on scope and interest, the work may focus on conceptual analysis, empirical evaluation, or prototypical implementations within an existing multimodal framework.

We Offer

A forward-looking Master’s thesis at the intersection of multimodal learning, foundation models, and embodied sensing
Access to an existing research codebase and datasets for multimodal perception
High relevance to current research in robotics, autonomous systems, and multimodal AI
Flexible supervision and the option to conduct the work in English or German
Potential for publication based on strong and well-scoped results

Requirements

Strong background in machine learning and deep learning
Experience with PyTorch and neural network architectures
Familiarity with 3D data, point clouds, or signal processing is beneficial
Interest in multimodal learning and embodied AI
Independent and research-oriented working style

Start

The thesis can begin immediately. Interested students should send an email including their transcript and CV.

Tags

AVS Schaefer

Possible start

sofort

Contact

Finn Rasmus Schäfer
finn.schaefertum.de

Navigation

Navigation

Beyond Vision and Language: Integrating LiDAR and RADAR into Driving Foundation Models

Hintergrund

Zielsetzung

Wir bieten

Anforderungen (Was Du mitbringen solltest)

Start

Background

Objective

We Offer

Requirements

Start