Kompaktes Edge‑AI‑HMI mit Radar-, Sprach- und Touchsteuerung

17.12.2025 Know-How

Berührung, Sprache, Gesten: Ein Demonstrator zeigt, wie moderne Mensch-Maschine-Interaktion auf engem Raum umgesetzt werden kann. Eingebettete Intelligenz und flexible Schnittstellen ermöglichen reaktionsschnelle, intuitive Bedienkonzepte.

Die Art und Weise, wie Menschen mit Maschinen interagieren, verändert sich rasant. Während Touch Displays inzwischen zum Standard gehören, gewinnen berührungslose Bedienkonzepte zunehmend an Bedeutung, und zwar insbesondere für Anwendungen, bei denen Hygiene, Umwelteinflüsse oder physische Einschränkungen eine Rolle spielen.

Der hier vorgestellte Demonstrator (Abbildung 1) zeigt exemplarisch, wie sich unterschiedliche Sensorprinzipien – Radar, Sprache und Berührung – in einem einzigen Embedded-System zu einer robusten Mensch-Maschine-Schnittstelle (HMI) kombinieren lassen. Ziel war es, die Robustheit der Erkennung gegenüber Fremdeinflüssen wie starkem Sonnenlicht, Regen oder Umgebungsgeräuschen ebenso zu demonstrieren wie bei verschmutzten Händen oder mit Handschuhen. Der Demonstrator entstand im Rahmen von Kunden- und internen Entwicklungsprojekten und dient als praxisnahe Grundlage, um Know-how zu Hard- und Software sowie Algorithmen für die Radar-Gestenerkennung und Sprachsteuerung bereitzustellen.

Systemarchitektur im Überblick

Der Demonstrator vereint alle zentralen Elemente einer modernen, multimodalen Mensch-Maschine-Schnittstelle in einem kompakten Aufbau. Die Integration von Gesten- und Sprachsteuerung, Motorregelung sowie grafischer Anzeige erfordert eine sorgfältig abgestimmte Architektur, die sowohl die unterschiedlichen Sensor- und Aktorschnittstellen als auch die parallele Verarbeitung in Echtzeit berücksichtigt.

Eine besondere Herausforderung bestand darin, heterogene Komponenten mit verschiedenen elektrischen Schnittstellen, von Hochgeschwindigkeits-Displayanbindungen bis zu latenzkritischen Sensoreingängen, auf einer einzigen Mikrocontrollerplattform zu kombinieren. Der eingesetzte PSOC Edge von Infineon stellt die Rechenleistung und die Peripherie für Signalverarbeitung und Ansteuerung bereit, während das Echtzeitbetriebssystem FreeRTOS die einzelnen Aufgaben koordiniert und die Datenströme sowie Steuerbefehle über den internen AHB-Interconnect-Bus verwaltet.

Die folgende Tabelle 1 zeigt die zentralen Hardwarekomponenten des Demonstrators, ihre wichtigsten Eigenschaften und Funktionen:

Tabelle 1: Zentrale Hardwarekomponenten des Demonstrators mit ihren Eigenschaften und Funktionen

Komponente	Eigenschaft	Funktion
BLDC-Motor mit Hall-Sensoren	Steuerung über PWM und GPIOs (Hall-Sensoren)	Rotationsgeschwindigkeit und -Richtung sind einstellbar, Rückmeldung der Rotorposition
Digitales Mikrofon IM69D130 XENSIV MEMS von Infineon	Anbindung über digitale PDM-Schnittstelle	Erfassung von Audiosignalen für Keyword Spotting
1024-600 IPS TFT LCD Touch Display von Raystar	Anbindung über MIPI DSI, kapazitive Touch-Technologie	Visualisierung von Systemzuständen, Bedienung per Touch
60-GHz-Radar-IC BGT60TR13C von Infineon	Anbindung über SPI und GPIOs	Gestenerkennung durch Analyse von Magnitude, Range und Azimuth
Motor Control Board IFX007T von Infineon	Dreifach-Halbbrückenmodul	Leistungsansteuerung des BLDC-Motors
Evaluation Board mit PSOC Edge von Infineon	Multikern Mikrocontroller mit NPU (Neural Processing Unit)	Zentrale Verarbeitung von Radar-, Audio-, Display- und Motorsteuerungssignalen

Gestenerkennung mit 60-GHz-Radar

Die Gestenerkennung ist das zentrale Steuerelement des Demonstrators. Erfasst werden Links- und Rechtsbewegungen, die den Motor entsprechend schneller oder langsamer drehen, sowie eine „Push“-Bewegung, um den Motor zu stoppen. Herzstück ist ein 60-GHz-FMCW-Radarsensor zur Bewegungsdetektion. Die Signalverarbeitung erfolgt vollständig auf dem Cortex-M55-Kern des PSOC Edge. Machine Learning wird hier nicht eingesetzt, wodurch sich die Entwicklungszeit verkürzt, und der Trainingsaufwand entfällt.

Ablauf der Gestenerkennung im Demonstrator (Abbildung 2):

Eingangsdaten: Magnitude und AoA (nur Azimut, da aktuell nur die Richtungen „links“ und „rechts“ unterschieden werden).
Erfassung: Ein 60-GHz-FMCW-Radarsensor mit einer Sende- und drei Empfangsantennen liefert pro Antenne ein separates Signal.
Bewegungserkennung: Doppler-FFT pro Antennensignal zur Identifikation bewegter Ziele und zur Unterdrückung statischer Objekte.
Richtungsbestimmung: Berechnung des Azimutwinkels aus den Phasendifferenzen der Empfangsantennen.
Gestenklassifikation: Auswertung des zeitlichen Verlaufs des Azimutwinkels, um Bewegungsarten wie „Left Swipe“, „Right Swipe“ oder „Click“ zu erkennen.

Die Latenzzeit beträgt etwa 10 Millisekunden nach Ende einer Bewegung. Eine Geste kann aus einer Entfernung von rund 5 bis 30 Zentimetern oder bei entsprechender Konfiguration auch aus größerer Entfernung zuverlässig erkannt werden, selbst bei komplexen Reflexionsverhältnissen und unter typischen Umweltfaktoren wie Sonnenlicht. Durch die Einbeziehung der Elevation (vertikaler Winkel) besteht Erweiterungspotenzial zur Erkennung zusätzlicher Gesten wie „Up/Down“.

Ergänzt wird die Gestenerkennung durch eine Sprachsteuerung mittels Keyword Spotting. Hierbei erfasst ein MEMS-Mikrofon die Sprachsignale, die auf dem Cortex-M55 des PSOC-Edge-Mikrocontroller vorverarbeitet und mit einem trainierten neuronalen Netz ausgewertet werden. Das Netz mit mehreren Convolution-Layern ist speziell für die Erkennung weniger, klar definierter Schlüsselwörter, wie „Start“ oder „Stopp“ optimiert.

Das Modell wurde in Python mit den Bibliotheken Keras und TensorFlow entwickelt und anschließend mit dem ML Configurator von Infineon für den Einsatz auf dem PSOC Edge portiert. Die Inferenz läuft auf dem Cortex-M55 mit einer optimierten TensorFlow-Lite-Micro-Laufzeitumgebung.

Ablauf des Keyword-Spotting-Prozesses (Abbildung 3):

Audioaufnahme: Das digitale MEMS-Mikrofon (16 kHz Abtastrate) liefert PDM-Daten.
Vorverarbeitung: Umwandlung in eine MEL-Filterbank per Window Slicing (Dauer: ~530 µs).
Inferenz: Auswertung der MEL-Spektren durch das CNN (mehrere Convolution Layer).
Ergebnis: Das erkannte Schlüsselwort wird als Steuerbefehl an die Motorsteuerung oder andere Systemfunktionen weitergegeben.

Motorsteuerung für BLDC mit Hall-Sensoren

Als direktes Feedback für die Gesten- oder Sprachbefehle dient ein bürstenloser Gleichstrommotor (24 V, max. 4.800 RPM), der direkt vom Mikrocontroller angesteuert wird. Über integrierte Hall-Sensoren erfasst das System die aktuelle Drehzahl und passt sie abhängig von Gesten- oder Sprachbefehlen an.

Für die Ansteuerung kommt das Dreifach-Halbbrückenmodul IFX007T von Infineon zum Einsatz, das über PWM-Signale und digitale Steuerleitungen angesteuert wird. Die Regelung der Motordrehzahl erfolgt mit einer Abtastrate von 1 kHz, sodass Drehzahländerungen schnell und präzise umgesetzt werden. Die Motorfunktion ist vor allem als Demonstrationsobjekt gedacht, lässt sich jedoch leicht durch andere Aktoren oder Anzeigesysteme ersetzen.

Benutzeroberfläche mit Touch Display

Zur Visualisierung der Systemzustände dient ein kapazitives 7-Zoll-Touch-Display (mit einer Auflösung von 1.024 × 600 Pixeln). Es zeigt unter anderem Drehzahlwerte, erkannte Gesten und den Status der Sprachsteuerung an.

Die grafische Oberfläche wird mit der Open-Source-Bibliothek LVGL direkt auf dem Mikrocontroller erzeugt. Dank effizienter Speicher- und Prozessornutzung können Bedienoberfläche, Gestenerkennung und Sprachverarbeitung gleichzeitig in Echtzeit ausgeführt werden. Die Bildwiederholrate von rund 10 FPS reicht für Statusanzeigen und Bedienrückmeldungen vollkommen aus.

Besondere Herausforderungen und Learnings

Ein zentrales Merkmal des Demonstrators ist der direkte Vergleich zweier Ansätze: klassische Signalverarbeitung und Machine Learning (ML). Bei der Gestenerkennung per 60-GHz-Radar wurde bewusst auf ML verzichtet, da es funktional nicht erforderlich war. Dadurch wurde eine robustere, latenzarme Erkennung ohne Trainingsaufwand möglich. Das Verfahren ist unempfindlich gegenüber Fremdlicht, Störgeräuschen und variierenden Handpositionen.

Im Gegensatz dazu setzt die Sprachsteuerung per Keyword Spotting auf ein vortrainiertes neuronales Netz, das speziell für wenige, klar definierte Schlüsselwörter wie „Start” und „Stopp” optimiert wurde. Hier spielt Machine Learning seine Stärken aus, da es gezielt auf wiederkehrende, genau spezifizierte Ereignisse reagieren kann. Die Algorithmen basieren auf öffentlich verfügbaren Datensätzen, die zur Stabilisierung der Erkennung verwendet wurden.

Dieser hybride Ansatz, bei dem klassische Signalverarbeitung dort zum Einsatz kommt, wo sie schneller und robuster ist, und Machine Learning dort, wo es die Erkennung gezielt verbessert, zeigt, wie sich unterschiedliche Verfahren optimal kombinieren lassen, um eine vielseitige und praxistaugliche HMI-Lösung zu schaffen.

Das Ziel bestand zudem darin, zu demonstrieren, dass sich alle Funktionen, wie Gestenerkennung, Sprachsteuerung, Motorregelung und grafische Anzeige, vollständig auf einem einzigen Mikrocontroller implementieren lassen. Dies erforderte eine enge Verzahnung von Hard- und Softwarekomponenten sowie die Echtzeitverarbeitung mehrerer Sensordatenströme unter den begrenzten Ressourcen einer Embedded-Plattform. Dabei mussten unterschiedliche Schnittstellen koordiniert, Latenzen minimiert und Prioritäten sinnvoll verteilt werden. Die modulare Architektur und die klare Trennung der Funktionseinheiten ermöglichen eine flexible Anpassung an verschiedene Anwendungsszenarien und bieten Entwicklerinnen und Entwicklern eine sofort nutzbare Grundlage für eigene Projekte.

Ausblick und Übertragbarkeit in reale Anwendungen

Die Kombination aus Radar-, Audio- und Motorsteuerung in einem einzigen System dient nicht nur als technische Machbarkeitsstudie, sondern auch als praxisnahe Basis für den Know-how-Transfer. Kunden profitieren von sofort einsatzbereiten Softwarebeispielen, mit denen sie eigene Tests durchführen oder auf dieser Grundlage schnell eigene Umgebungen entwickeln können. Das spart erheblich Zeit bei der Projektumsetzung.

Der Demonstrator eignet sich als Referenzplattform und kann bei Bedarf an Kundenprojekte angepasst werden. Anwendungen sind auch in speziellen Laborumgebungen wie Reinräumen oder Gloveboxen möglich. Auf Anfrage stehen nicht nur die Hard- und Softwarebasis, sondern auch begleitende Materialien wie Beispielcode, Schaltpläne, Application Notes oder Anleitungen zur Verfügung. Anpassungen an individuelle Anforderungen sind umsetzbar, etwa durch die Integration zusätzlicher Funktionen, Änderungen an der Spracherkennung oder Erweiterungen im Bereich der Gestenerkennung.

Ein Beispiel für die Übertragbarkeit ist der Einsatz eines neuronalen Netzes auf einer RDK2-Plattform in Kombination mit einem RAB3-Radar. Wer die Prinzipien von Datensammlung, Training und Implementierung eines neuronalen Netzes einmal verstanden hat, kann diese Methoden auf andere Plattformen übertragen. Das Toolset von Infineon unterstützt diesen Prozess und erleichtert die Portierung erheblich.

Darüber hinaus sind weitere Entwicklungen mit Radartechnologie geplant, um zusätzliche Anwendungsbeispiele zu realisieren und den Funktionsumfang zu erweitern. Der Demonstrator ist somit nicht nur ein konkreter Technologiebaustein, sondern auch eine offene Plattform für die Entwicklung smarter, sensorbasierter HMI-Lösungen im Embedded-Umfeld.

Weitere Informationen und eine direkte Bestellmöglichkeit finden Sie auch auf unserer e-Commerce-Plattform www.rutronik24.com.

Bleiben Sie auf dem Laufenden, indem Sie unseren Newsletter abonnieren.

Abbildung 1: Gesamtansicht des Demonstrators mit Display, Radarmodul, Mikrocontroller-Board, Display und Motor (Quelle: Rutronik System Solutions)

Abbildung 2: Gestenerkennung mit dem Radar BGT60TR13C von Infineon. (Quelle: Rutronik System Solutions)

Abbildung 3: Ablauf des Keyword-Spottings (Quelle: Rutronik System Solutions)

GESTEN, SPRACHE, DISPLAY: HMI MIT EDGE-KI IM KLEINSTFORMAT - Multimodale Schnittstelle auf PSOC-Basis