Computer Vision in der Hoflogistik: Robustes Object Tracking in Echtzeit 

Smart Logistics and Object Tracking: A Futuristic Vision of Transportation and Supply Chain Management
© stock.adobe.com – fadhel

Mit der steigenden Bedeutung der Automatisierung und Digitalisierung bietet das Feld der KI-basierten Computer Vision enormes Potenzial für industrielle Anwendungen. Besonders hervorzuheben ist hierbei das Echtzeittracking, das die kontinuierliche Verfolgung von bewegten Objekten in Videostreams zum Ziel hat. Zahlreiche Branchen profitieren bereits von dieser Technologie, da sie präzise Analysen, automatisierte Entscheidungen und unmittelbare Reaktionen auf Veränderungen in dynamischen Umgebungen ermöglicht. So wird das Echtzeittracking im Bereich der Videoanalyse zum Beispiel bereits zur Analyse von Verkehrsströmen an Flughäfen oder zur Verbesserung von Trainingsmethoden und Wettkampfanalysen im Profisport eingesetzt. 

Was ist Multi-Object-Tracking (MOT)? 

Object Tracking ist ein Prozess, bei dem die Bewegung eines oder mehrerer Objekte kontinuierlich verfolgt wird. Beim Multi-Object-Tracking (MOT) werden Position und Identität mehrerer Objekte gleichzeitig über eine Videosequenz hinweg ermittelt. Werden hierfür mehrere Kameras eingesetzt, spricht man von Multi-Camera Multi-Object Tracking (MCMOT). 

Im Computer Vision-basierten MOT müssen zunächst Objekte in einzelnen Videoframes mit Hilfe von Objekterkennung (Object Detection) detektiert und dann über mehrere Frames hinweg miteinander verknüpft werden, um sogenannte Tracks zu bilden. Die zentrale Herausforderung dabei ist die korrekte Zuordnung der Objekte über Zeit und Raum. 

Abbildung 1:Die erfassten LKWs und Wechselbrücken werden durch eine Bounding Box und eine eindeutige ID gekennzeichnet. Eine Spur (Trace) zeigt die Assoziationen zwischen den einzelnen Frames an. © Fraunhofer IML.

Technische Herausforderungen beim MCMOT 

Beim MCMOT ergeben sich, im Gegensatz zum Tracking auf einzelnen Kameras, besondere Herausforderungen. Üblicherweise überschneiden sich Sichtfelder der Kameras teilweise oder gar nicht. Im Fall einer teilweisen Überschneidung müssen Kameras präzise kalibriert und zeitlich synchronisiert sein, um Objekte aus verschiedenen Blickwinkeln eindeutig zuzuordnen. Überschneiden sich die Sichtfelder nicht, ist eine sogenannte Re-Identifikation (Re-Id) notwendig, bei der Objekte auf Basis visueller Merkmale über verschiedene Kamerastreams hinweg wiedererkannt werden. Technisch basiert diese Re-Id typischerweise auf Deep-Learning-Modellen, die aus den visuellen Daten spezifische Merkmale (Feature Embeddings) extrahieren und miteinander vergleichen. 

Erschwert wird das Tracking zusätzlich durch ähnliche Objekte, wie etwa mehrere LKWs vom selben Typ desselben Spediteurs. Verdeckungen oder visuelle Ähnlichkeiten können hier schnell zu fehlerhaften Zuordnungen führen. Deshalb sind eine umfassende Kameraplatzierung und leistungsstarke Algorithmen entscheidend für eine robuste Umsetzung. 

Methoden des Multi-Object-Trackings 

Um die Herausforderungen des Multi-Object-Trackings – insbesondere in anspruchsvollen Umgebungen wie der Hoflogistik – zu bewältigen, wurden verschiedene algorithmische Ansätze entwickelt. Diese unterscheiden sich in ihrer Komplexität, Genauigkeit und dem Rechenaufwand – verfolgen jedoch alle dasselbe Ziel: eine robuste Objektzuordnung über Bildsequenzen und Kameraperspektiven hinweg sicherzustellen. Ein Verfahren hat sich dabei besonders als aktueller Goldstandard im computerbasierten Tracking etabliert: Tracking-by-Detection. 

Tracking-by-Detection 

Durch Fortschritte im Bereich des Deep Learning hat sich „Tracking-by-Detection“ als dominierende Methode im MOT etabliert. Dieser Ansatz umfasst drei wesentliche Schritte: 

  1. Objektdetektion: In jedem Videoframe werden mithilfe von neuronalen Detektionsmodellen, wie YOLO oder RT-DETR, Objekte identifiziert und lokalisiert. Diese Detektionen enthalten typischerweise die Position und Dimension der Objekte in Form von Bounding Boxes oder Segmentierungen sowie eine Confidence, die die Zuverlässigkeit der Erkennung angibt. 
  1. Datenassoziation (Matching): Anschließend erfolgt die Zuordnung (Matching) der erkannten Objekte über aufeinanderfolgende Frames hinweg auf der Grundlage von Ähnlichkeitsmaßen. Besonders populär für das Matching ist die ungarische Methode, bei der die global optimale Zuordnung zwischen allen Objekten zweier aufeinanderfolgender Frames berechnet wird.  
  1. Trackmanagement: Im letzten Schritt werden sogenannte Tracks erzeugt, aktualisiert oder beendet, je nachdem, ob die Zuordnung zwischen vorherigen und aktuellen Detektionen erfolgreich ist.  

Zur Umsetzung der Tracking-by-Detection Methode kommen etablierte Verfahren zum Einsatz: 

Der Kalman-Filter 

Zur Verbesserung der Zuverlässigkeit beim Matching wird oft ein Kalman-Filter genutzt. In diesem iterativen Verfahren werden zunächst der zukünftige Objektzustand (z. B. Position und Geschwindigkeit) vorhergesagt (Prediction) und anschließend mithilfe neuer Messdaten korrigiert (Update). So kann das Tracking auch bei teilweisen Verdeckungen oder Rauschen zuverlässig funktionieren. 

Konkrete Tracking-Algorithmen (Tracker) 

  • SORT (Simple Online and Real-time Tracking) kombiniert Detektionen mit einem Kalman-Filter und der ungarischen Methode.  
  • DeepSORT erweitert SORT um visuelle Re-Id-Features aus neuronalen Netzen und verbessert so das Matching bei temporär verdeckten Objekten.  
  • Zur Erkennung und Verfolgung von schwer erkennbaren Objekten in komplexen Szenarien eignet sich zudem der ByteTrack Ansatz. Dabei werden zunächst hochkonfidente Detektionen mit bestehenden Objekten assoziiert; anschließend werden auch niedrigkonfidente Detektionen einbezogen, um verlorene Objekte zuverlässig wiederzufinden. 

Darüber hinaus gibt es Methoden, die speziell für nicht-echtzeitkritische Analysen konzipiert sind und dabei die Datenassoziation global über die gesamte Videosequenz optimieren.  

Transformer-basierte Ansätze: TrackFormer 

Transformer-basierte Methoden unterscheiden sich von klassischen Tracking-by-Detection-Ansätzen, indem sie globale Kontextinformationen aus der gesamten Szene explizit einbeziehen und ein “End-to-End“ Training ermöglichen. 

Ein Beispiel für diesen Ansatz ist der TrackFormer, welcher Detektion und Tracking in einer einzigen, durchgängigen neuronalen Architektur („Joint Detection and Tracking“) integriert. Anstelle einer separaten Matching-Optimierung nutzt TrackFormer sogenannte Queries, um sowohl neue Objekte zu detektieren als auch bereits bekannte Objekte konsistent weiterzuverfolgen: 

Blog Object Tracking Figure 2 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
Abbildung 2: Vorgehensweise des TrackFormers: Für jeden Frame werden Merkmale mit einem Convolutional Neural Network extrahiert und anschließend mit dem Transformer-Encoder verarbeitet. Im ersten Frame (t = 0) wandelt der Transformer-Decoder fünf Object Queries (Objekterkennung) in Output Embeddings um, die wahlweise neue Track Queries (verfolgen Objekte über mehrere Frames) initialisieren oder die Hintergrundklasse (X) vorhersagen. In den nachfolgenden Frames verarbeitet der Decoder das gemeinsame Set aus Object- und Track Queries, um vorhandene Tracks zu verfolgen oder zu entfernen (rot) sowie neue zu initialisieren (lila). © Fraunhofer IML, nachgestellt nach Figure 2 https://arxiv.org/abs/2101.02702.

Transformer-basierte Methoden versprechen eine verbesserte Robustheit und Genauigkeit, insbesondere in komplexen MOT-Szenarien, und zeichnen sich durch ihre Fähigkeit aus, ohne explizite Matching-Verfahren auszukommen. Sie benötigen jedoch explizite MOT-Datensätze zum Training und haben dabei in der Regel einen erhöhten Daten- und Hardwareressourcenbedarf. 

Computer Vision-basiertes Tracking in der Hoflogistik 

Echtzeittracking entfaltet sein volles Potenzial insbesondere dann, wenn es mit einem Digitalen Zwilling kombiniert wird. Ein Digitaler Zwilling erzeugt ein virtuelles Abbild der physischen Umgebung, das kontinuierlich mit aktuellen Daten gespeist wird. Dadurch können Bewegungen und Positionen von Objekten in Echtzeit verfolgt und wichtige Leistungskennzahlen (Key Performance Indicators, KPIs) erfasst und analysiert werden. In der Logistik betrifft dies beispielsweise die Auslastung von Lagern, Materialflüsse oder Transportzeiten. Diese Kennzahlen bieten wertvolle Einblicke in die Prozessabläufe und ermöglichen datengetriebene Optimierungen, sodass Unternehmen schneller reagieren, effizienter planen und ihre Abläufe kontinuierlich verbessern können. 

Herausforderungen in der Hoflogistik 

In großen Betriebshöfen entstehen regelmäßig spezifische logistische Herausforderungen: 

  • LKWs stehen nicht an den vorgesehenen Laderampen und werden dadurch möglicherweise falsch beladen, was zu hohen Folgekosten führen kann. 
  • Reine GPS-basierte Systeme reichen oft nicht aus, um eine vollständige und präzise Übersicht zu gewährleisten, insbesondere bei gemischten Fahrzeugflotten aus eigenen und fremden Fahrzeugen. 
  • Engpässe und Staus auf dem Betriebsgelände bleiben häufig unerkannt, bis sie sich deutlich auf den Betrieb auswirken. 
  • Manuelle Prozesse, wie aufwändige Suchvorgänge und zeitintensive Bestandsaufnahmen, verursachen zusätzliche Kosten. 

Lösungen durch Computer Vision und Edge Computing 

Um diese Herausforderungen frühzeitig und automatisiert zu adressieren, ist es möglich auf kamerabasierte Überwachungssysteme zu setzen. Das Forschungsprojekt Yard Lense on Edge wurde in diesem Zusammenhang speziell für die Anwendung in der Hoflogistik entwickelt (siehe auch: “Logistik Heute”). 

Hierbei kommen sogenannte „Edge-Devices“ zum Einsatz: Kameramodule mit integrierten Nvidia-Jetson-Geräten, welche das Tracking-By-Detection mittels eines YOLO-Detektors und des ByteTrack-Verfahrens direkt vor Ort durchführen. Indem die Ergebnisse dieser lokalen Analysen anschließend zu einer zentralen Übersicht zusammengeführt werden, reduziert dies nicht nur die übertragene Datenmenge und verbessert dadurch Datenschutz und Latenz, sondern erleichtert auch die Skalierbarkeit des Systems. 

Zur Verbesserung der Positionsgenauigkeit und zur optimalen Zusammenführung der einzelnen Kameraperspektiven wird zusätzlich ein globaler Kalman-Filter eingesetzt. Dieser verbessert insbesondere die Zuverlässigkeit bei der Vorhersage der Fahrzeugpositionen über verschiedene Kameras hinweg, indem er deren Daten fusioniert und so auch bei kurzzeitigen Verdeckungen oder Fehlidentifikationen robust funktioniert. So werden LKWs zuverlässig erkannt, lokalisiert und über mehrere Kameras hinweg in Echtzeit verfolgt. 

MCMOT in der Hoflogistik: Erkenntnisse und Potenziale 

Gemeinsam mit dem Logistikdienstleister Dachser als Praxispartner wurden im Forschungsprojekt konkrete Anforderungen aus der Industrie erhoben und ein erster Proof-of-Concept mit realen Daten durchgeführt. Den Projektpartnern gelang es, wichtige Erkenntnisse bezüglich der idealen Kamerapositionierung für den Einsatzstandort, der Wetterfestigkeit der Module sowie der Synchronisation der Edge-Geräte zu gewinnen.  

Als Projektergebnisse entstanden unter anderem eine Open-Source Referenzimplementierung für das Multi-Camera Tracking in der Hoflogistik sowie eine Blender-Pipeline für die automatische Generierung von MCMOT-Datensätzen. 

Zukünftige Forschungsarbeiten sollen die aus diesem Projekt gewonnenen Erkenntnisse vertiefen und konkretisierte Herausforderungen in synthetische Datensätze integrieren. Dazu gehören insbesondere  

  • die Skalierung und Abdeckung gesamter Hofflächen (15+ Kameras),  
  • der Umgang mit schwierigen Sichtbedingungen (z. B. Regen, Nebel),  
  • die optimale Kalibrierung und Synchronisation von Kameras auf weitläufigen Betriebsgeländen,  
  • die Evaluation der genauesten und kosteneffizientesten MCMOT-Methoden für logistische Use Cases (z. B. Trackformer vs. mehrstufige Ansätze)  
  • sowie die robuste Re-Identifikation und Assoziation visuell ähnlicher oder identischer Fahrzeuge. 

Die Entwicklung solcher Datensätze ermöglicht es, zukünftige Algorithmen noch effizienter und praxisnäher zu gestalten und die breite Zugänglichkeit für weitere Forschungszwecke sicherzustellen. 

Abbildung 3: Multi-Camera Multi-Object Tracking am Beispiel von Yard Lense on Edge: Die Tracks der verschiedenen Kameraperspektiven (oben) werden zu einer gemeinsamen Ansicht aus der Vogelperspektive (unten) zusammengeführt, um die aktuellen Positionen der LKWs zentral zu visualisieren. Über eine API-Schnittstelle können diese Positionsdaten in verschiedene Systeme (Web-Frontend, Yard-Management-Systeme) integriert werden. © Fraunhofer IML.

Object Tracking: Entwicklungen und zukünftige Perspektiven 

Multi-Object-Tracking hat in den letzten Jahren bedeutende Fortschritte gemacht, sowohl methodisch als auch in der industriellen Anwendung. Die kontinuierliche Weiterentwicklung von klassischen Tracking-by-Detection-Verfahren bis hin zu End-to-End-Ansätzen auf Basis von Transformern eröffnet neue Potenziale hinsichtlich Genauigkeit, Robustheit und Effizienz. 

Gleichzeitig bleiben zentrale Herausforderungen bestehen: die präzise Assoziierung in komplexen Szenen, die Synchronisation und Kalibrierung über mehrere Kameras hinweg sowie die zuverlässige Verarbeitung in Echtzeit unter realen Bedingungen. Der Einsatz zusätzlicher Sensorik wie LiDAR oder GPS, die Weiterentwicklung leistungsfähiger Deep-Learning-Modelle und die Erstellung praxisnaher Simulations- und Benchmark-Datensätze sind entscheidend, um diese Hürden weiter zu überwinden. 

Für die Industrie bedeutet dies: MOT-Technologien entwickeln sich zunehmend zu einem tragfähigen Bestandteil moderner Automatisierungs- und Digitalisierungsstrategien. Konkrete Anwendungen, wie etwa in der Hoflogistik, zeigen, dass Echtzeit-Tracking nicht nur technologische Machbarkeit demonstriert, sondern auch klare wirtschaftliche Vorteile liefert. Mit gezielter Forschung und enger Kooperation zwischen Wissenschaft und Praxis lässt sich dieser Trend weiter ausbauen. 

Weitere Informationen: 

Für das Benchmarking von Tracking Algorithmen gibt es populäre Datensatz-Challenges wie beispielsweise dem Multiple Object Tracking Benchmark (MOT-Challenge), oder der AI City Challenge.   

Für die Bewertung selbst dienen spezielle Metriken, welche unterschiedliche Aspekte des Trackings betrachten: Understanding Object Tracking Metrics

Christian Pionzewski, Antonia Ponikarov,

22. Mai 2025

Themen

Christian Pionzewski

Christian Pionzewski ist wissenschaftlicher Mitarbeiter am Fraunhofer IML in der Abteilung für Software & Information Engineering. Er beschäftigt sich mit Softwareentwicklung und dem Einsatz von ML-basierter Bildverarbeitung in Industrie- und Forschungsprojekten in der Logistik.

Antonia Ponikarov

Antonia Ponikarov ist studentische Hilfskraft am Fraunhofer IML in der Abteilung für Software & Information Engineering und studiert Informatik im Masterstudium an der Technischen Universität in Dortmund. Sie beschäftigt sich mit Softwareentwicklung und dem Einsatz von ML-basierter Bildverarbeitung in Industrie- und Forschungsprojekten in der Logistik.

Weitere Blogartikel