Maschinelle Wahrnehmung

Umfang und Ausprägung

Die maschinelle Wahrnehmung hat, wie im vorherigen Abschnitt beschrieben, die Aufgabe, alle für die Funktion des automatisierten Fahrens relevanten anderen Verkehrsteilnehmer sicher zu erkennen und der Verkehrsinfrastruktur korrekt zuzuordnen. Dies ist insbesondere deshalb notwendig, da beispielsweise für einen Fußgänger am Straßenrand ein anderes Gefährdungspotenzial besteht, als wenn er einen parallel verlaufenden, abgetrennten Fußgängerweg benutzt.

Zur maschinellen Wahrnehmung werden im Fahrzeugumfeld Sensoren verwendet, die auf Kamerasowie Radar- und/oder Lidartechnik basieren. Nähere Informationen zu der Funktion und den Bauformen dieser Sensoren sind beispielsweise in [3] zu finden. Kameras liefern ein 2-D-Abbild der 3-D-Szene in Form von hoch aufgelösten Grauwertoder Farbbildern, aus denen bei genügendem Kontrast oder Unterschieden in der Textur einzelne Objekte mit Methoden der Bildverarbeitung extrahiert werden können. Eine Bestimmung der Objektentfernung ist mit Mono-Kameras allerdings nur mit oft zu Fehlern führenden Annahmen wie einer ebenen Fahrbahn möglich. Stereo-Kameras erlauben zwar über das Disparitätsbild auch eine Bestimmung der Objektentfernung, die Genauigkeit sinkt jedoch quadratisch mit zunehmender Entfernung. Bei den heute üblichen Basisabständen der Stereoanordnungen und Auflösung der Kameras sind Messreichweiten bis etwa 50 Meter möglich, ohne dass der Fehler so stark ansteigt, dass Funktionen hieraus keinen Nutzen mehr ziehen könnten.

Radar-, aber auch Lidarsensoren liefern hingegen vergleichsweise sehr genaue und auch hinsichtlich der Messfehler nahezu distanzunabhängige Entfernungsmessdaten. Sie können aber aufgrund der geringeren Winkelauflösung die Konturen, d. h. die Außenabmessungen von Objekten, schlechter erfassen. Dies gilt insbesondere für Radarsensoren. Zudem liefern Radar- und Lidarsensoren keinerlei Texturinformationen. Aufgrund dieser unterschiedlichen Messeigenschaften werden die unterschiedlichen Sensortypen für die Aufgabe der maschinellen Wahrnehmung in der Regel kombiniert verwendet. Man spricht dann von einer Sensordatenfusion.

Mit den fusionierten Sensordaten lassen sich bewegte und statische Objekte, aber beispielsweise auch Fahrbahnmarkierungen grundsätzlich erkennen und physikalisch vermessen. Die möglichen Messdimensionen hängen vom spezifischen Sensor-Setup ab. Typische erfassbare physikalische Messdaten sind die Abmessungen eines Objekts als Quadermodell mit Länge, Breite und Höhe sowie seine Position absolut in der Welt oder relativ zum eigenen Fahrzeug. Im Fall von bewegten Objekten kommen dann noch die Objektgeschwindigkeiten und Objektbeschleunigungen als relativ einfach bestimmbare Zustandsgrößen hinzu. Schwerer und in der Regel sehr unsicher bestimmbar aus externen Sensormessungen ist die Gierrate beziehungsweise die Kursrate anderer Verkehrsteilnehmer. Diese Größen sind ohne Fahrzeug-zu-Fahrzeug-Kommunikation nur für das eigene Fahrzeug zuverlässig ermittelbar.

Für die spätere Situationsbewertung und Situationsprädiktion ist allerdings nicht nur die physikalische Vermessung der Objekte notwendig, sondern auch die Kenntnis darüber, um welche Objektklasse es sich handelt. Beispielsweise unterscheiden sich ein Fußgänger und ein Motorradfahrer in ihren möglichen Bewegungsfreiheitsgraden und auch in der möglichen Bewegungsdynamik. Markierungsstreifen auf der Fahrbahn können je nach Kontext und Konstellation unterschiedliche Bedeutungen haben. Daher ist es notwendig, auch die semantische Bedeutung der erkannten Objekte aus den Sensordaten oder weiteren Informationsquellen wie einer digitalen Karte zu ermitteln. Dieser Vorgang wird im Zusammenhang mit der maschinellen Wahrnehmung als Klassifikationsschritt bezeichnet, ist aber Bestandteil der maschinellen Wahrnehmung.

Während Menschen sehr schnell und fehlerfrei den visuellen Wahrnehmungen auch semantische Bedeutung zuordnen können, ist dies für die maschinelle Wahrnehmung nach dem heutigen Stand der Technik noch eine vergleichsweise schwierige Aufgabe. Bekannte Klassifikationsverfahren basieren immer auf mehr oder weniger komplexen Modellen erwarteter Objektklassen, die entweder aus Beispielen automatisiert gelernt oder manuell vorgegeben werden. Diese Modelle weisen dann möglichst diskriminierende, mit den verfügbaren Sensoren erfassbare Merkmale auf, sodass zwischen den vorkommenden Objektklassen unterschieden werden kann. Es wird aber auch deutlich, dass vorab nicht trainierte Objektklassen mit heute bekannten Verfahren auch nicht semantisch identifiziert werden können. Aufgrund der signifikant höheren Leistungsfähigkeit haben sich lernende Klassifikationsverfahren heute weitgehend durchgesetzt.

Eine maschinelle Wahrnehmung mit semantischen Informationen ist im Kontext der Fahrerassistenzsysteme und des automatisierten Fahrens nur deshalb technisch möglich, weil der Verkehrsraum gut strukturiert und auf wenige Objektklassen beschränkt ist. Zudem ist für die Situationserkennung und Situationsprädiktion nur eine grobe Klassenunterscheidung relevant. Nach dem heutigen Stand der Technik reicht es aus, unter den bewegten Objekten zwischen den Klassen Fußgänger, Radfahrer, Personenkraftwagen und Lastkraftwagen bzw. Bussen unterscheiden zu können. Hinzu kommen noch stationäre Hindernisse, die jedoch meist zusammen mit den nicht klassifizierbaren Objekten einer Restklasse hinzugefügt werden.

Für die korrekte Zuordnung der klassifizierten Objekte zur Verkehrsinfrastruktur ist es ferner notwendig, auch Fahrstreifenmarkierungen, Sperrflächen, Haltelinien, Lichtsignalanlagen und Verkehrsschilder zuverlässig mit korrekter semantischer Bedeutung zu erkennen. Da diese komplexe Klassifikationsaufgabe heute noch nicht mit der notwendigen Zuverlässigkeit möglich ist, werden nach dem Stand der Technik unterstützend hochgenaue und umfassend attributierte digitale Karten verwendet. Hieraus kann das automatisierte Fahrzeug bei bekannter eigener Position die im Sensorsichtfeld zu erwartenden stationären Objekte sowie Markierungen inklusive semantischer Bedeutung entnehmen. Die Sensorik muss dann nur noch das Vorhandensein der Objekte verifizieren.

Ein Nachteil dieser Vorgehensweise ist es, dass zum einen eine hochgenaue Lokalisation des eigenen Fahrzeugs notwendig ist, für die Standard-GPS-Verfahren nicht ausreichen, und zum anderen die Karte immer aktuell sein muss. Aus diesem Grund wird man zukünf-

Abb. 20.2 Prinzipbild der objektbasierten Fahrumgebungsrepräsentation. Es werden alle relevanten Objekte erkannt, klassifiziert und der Infrastruktur korrekt zugeordnet

tig versuchen technische Lösungen zu entwickeln, die keine hochgenaue und aktuelle Karte mehr benötigen.

 
< Zurück   INHALT   Weiter >