Das Intelligente Regal: Der Weg zu intelligenten Mensch-Maschine-Schnittstellen in der Industrie

||Bild eines eigens entwickleten Interaktionsmodul am intelligenten Regal|Diagramm zum Datenfluss während der Personenidentifikation|Schema über die Ensemble-Klassifikation des SVM und Cosinus Modells|||

|© Fraunhofer IML

Technologien des Maschinellen Lernens (ML) erleichtern bereits in vielen Anwendungsbereichen der Industrie die Arbeit von Mitarbeiter*innen, indem sie intelligente Unterstützung für vielerlei Aufgaben bieten. Speziell in der Logistik gibt es allerdings noch viele Prozesse bei denen Bedarf zur Automatisierung oder softwarebasierter Unterstützung der Mitarbeiter*innen besteht. Oft kommen hier noch traditionelle Papierunterlagen oder hand-held Geräte zum Einsatz, die die Mitarbeiter*innen in ihrer Bewegungsfreiheit einschränken, unübersichtlich sind und viel Zeit und Kapazitäten kosten.

In diesem Zuge wurde im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Innovationslabors – Hybride Dienstleistungen in der Logistik am Fraunhofer IML das Projekt zum Intelligenten Regal ins Leben gerufen. Das Innovationslabor beschäftigt sich im Rahmen der Themen Industrie 4.0 und Internet der Dinge mit Fragen zur Gestaltung effizienter Mensch-Maschine-Interaktionen in einer vernetzten Wirtschaft, auch Hybrid Economy genannt. Passend dazu liegt der Schwerpunkt beim Intelligenten Regal darauf, in der Forschung entwickelte Konzepte zur Kommunikation zwischen Mensch und Maschine effizient in die Praxis umzusetzen. Das Besondere beim Intelligenten Regal ist die Gestaltung flexibler Softwarekomponenten, die auf kleinen „Smart Devices” arbeiten, also direkt vor Ort und da, wo sie benötigt werden, eingesetzt werden können. Ein möglicher Anwendungsfall ist zum Beispiel als Kommissionierassistent im Warenmanagement. So müssen die Mitarbeiter*innen keine Geräte oder Unterlagen mehr mit sich herumtragen, sondern können unmittelbar im Lager auf ihre Aufträge zugreifen und auch fehlende oder fehlerhafte Produkte ohne Umstände direkt vor Ort im System dokumentieren.

Entwurf intelligenter Schnittstellen

Zentrale Punkte, um die das Intelligente Regal entworfen wurden, sind also in erster Linie Nutzungsfreundlichkeit und Energieeffizienz. Hierzu wurde auf ein flexibles Design gesetzt und einzelne Interaktionskomponenten entworfen, die einerseits zusammenspielen, aber auch individuell genutzt werden können. Dies gilt sowohl für die physischen Interaktionsmodule, die frei an Regalen im Lager platziert werden können, als auch für die Software. Die angebrachten Module agieren unabhängig voneinander und können daher auch zeitgleich von unterschiedlichen Mitarbeiter*innen genutzt werden. Der Informationsfluss wird dabei über einen Leitstand geregelt.

Die intelligenten Softwarekomponenten lassen sich an der Schnittstelle zwischen dem/der Mitarbeiter*in und dem Interaktionsmodul finden. Die Mitarbeiter*innen können zum Beispiel über einen ML-basierten Sprachassistenten mit dem Warenmanagementsystem (WMS) interagieren und durch diesen auf ihre aktuellen Kommissionieraufträge zugreifen. Treten Probleme auf oder ist ein Auftrag abgeschlossen, können sie dies dem WMS über Sprachbefehle mitteilen. Eine weitere wesentliche Komponente des Intelligenten Regals ist die Personenidentifikation: Sie stellt eine Sicherheitsfunktion sowie auch eine wichtige Personalisierungskomponente dar. Anstatt eines Passwortes wird im Falle des Intelligenten Regals der Login über eine visuelle Identifikation in Form einer Gesichtserkennung geregelt. Diese gewährt nicht nur den Zugang zum System, sondern ruft gleichzeitig die für diesen Nutzer hinterlegten Aufträge auf und passt den Sprachassistent an dessen Präferenzen an.

Gesichtsdetektion mit vortrainierten Netzen

Zu Beginn befindet sich das Modul in einer Art Ruhemodus, um in inaktiven Zeiten möglichst wenig Energie zu verbrauchen. Hauptsächlich wird eine Anwesenheitserkennung mit Strom versorgt. Nimmt diese eine Näherung an das Modul wahr, wird das restliche Modul aufgeweckt, welches dann von dem Bereich unmittelbar vor sich eine Bildaufnahme startet. Die Bildaufnahme wird daraufhin an die Personenidentifikation weitergeleitet. Eine festgelegte „Verweildauer“ und ein vorher bestimmter Radius verhindern, dass Aufnahmen von zufällig vorbeikommenden Personen gemacht werden.

Identifiziert werden die Personen anhand ihrer individuellen Gesichtsmerkmale (zum Beispiel die allgemeine Gesichtsform, Augenform, Brille, etc.). Dies geschieht jedoch in einem geschachtelten, mehrschrittigen Prozess: Zuerst durchläuft die Momentaufnahme des Mitarbeiters oder der Mitarbeiterin ein Modell zur Gesichtsdetektion, daraufhin werden numerische Merkmalsvektoren (Embeddings), generiert und zur eigentlichen Gesichtsidentifikation weitergeleitet. Die Identifikation wird als Klassifikationsproblem gehandhabt und es wird eine Entscheidung über die Identität des Mitarbeiters oder der Mitarbeiterin getroffen. Die Gesichtsdetektion an erster Stelle ist wichtig, um einen genauen Rahmen um das zu identifizierende Gesicht bestimmen zu können. Sollte sich außerdem doch noch eine Person im Hintergrund befinden, wird diese an dieser Stelle aus dem Bild herausgefiltert.

1 Pipeline Abbildung Notizen - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI) — © Fraunhofer IML
Datenfluss während der Personenidentifikation

In der Implementation wurde auf einige vortrainierte neuronale Netze zurückgegriffen, um eine möglichst große Diversität von Gesichtern einfangen und die Zuverlässigkeit des Systems verbessern zu können. Darunter fallen das Multi-task Cascaded Neural Network (MTCNN) zur Gesichtsdetektion und das FaceNet zur Generierung der Gesicht-Embeddings.

Das MTCNN besteht aus einer Reihe gekoppelter Convolutional Neural Networks (CNNs) und detektiert mit hoher Trefferquote potenzielle Gesichter, welche es durch eine Reihe elementarer Charakteristika findet, die es im Input sucht: Die fünf Grundpunkte Augen, Nase und Mundwinkel. Als Output gibt es Rahmenkoordinaten (Bounding Boxes) für die Gesichter aus. Zum Generieren der Merkmalsvektoren wird daraufhin das FaceNet eingesetzt. Ähnlich wie das MTCNN, ist das FaceNet auf das Enkodieren von Gesichtsmerkmalen spezialisiert und erzeugt Vektoren, die die individuellen Gesichtsmerkmale einer Person einfangen und differenziert beschreiben. Aufgrund des Trainings auf einem Datensatz mit mehreren Tausend Personen, ist es in der Lage, wichtige Schlüsselmerkmale zu enkodieren und repräsentative Embeddings von Personen jeglichen Aussehens zu erzeugen.

Herausforderungen einer Multiclass-Klassifikation

Ein Anwendungsfall, der die Konzipierung der Personenidentifikation stark beeinflusst hat, ist der Login-Versuch eines nicht-registrierten User, also einer dem System „unbekannten” Person. Es sollte nicht vorkommen, dass eine unbekannte Person fälschlicher Weise einer der bekannten Personen zugeordnet wird und somit Zugriff erhält. Um auch diesen Fall abdecken und vermeiden zu können, wurde für die Identifikation ein Ensemble (eine Kombination mehrerer Klassifikatoren) bestehend aus Support Vektor Machines (SVMs) und einem Kosinus-Distanz Algorithmus implementiert. Beide Modelle führen eigenständige Klassifikationen durch, die anschließend gemeinsam verarbeitet werden. Im Falle von registrierten Usern, sollten beide dieselbe Entscheidung treffen, im Falle von nicht-registrierten Usern, sollte es jedoch zu einem Konflikt kommen.

2 Klassifikation Prozess - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI) — © Fraunhofer IML
Ensemble-Klassifikation der beiden Modelle

Die SVMs sind gut darin einen bekannten User wiederzuerkennen, können aber keine Ablehnung von unbekannten Personen vornehmen. Dafür ist das Kosinusmodell zuständig, welches Ähnlichkeitswerte für jeden registrierten User berechnet. Anhand dessen kann dann eine fundierte Entscheidung über die Bekanntheit einer Person getroffen werden.

Für einen registrierten User werden nach erfolgreicher Identifikation die Informationen des aktuellen Kommissionierauftrags auf dem SmartDevice dargestellt. Über den Sprachassistenten oder die manuelle Eingabe durch die Knöpfe kann der User den Auftrag bearbeiten und als erfüllt kennzeichnen oder Probleme melden.

3 KommissionierungBeitragsbild - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI) — © Fraunhofer IML
Eigens entwickeltes Interaktionsmodul mit einem maßgeschneiderten Linux-basierten Betriebssystem

Prototyping vs. Industrieanwendung

Ziel dieser Arbeit ist das Ausprobieren der technischen Möglichkeiten, damit eine Lösung für ein aktuelles Problem eines exemplarischen Anwendungsfalls entwickelt werden kann. Dabei geht es noch nicht um ein fertiges, industriereifes Produkt, sondern um einen sogenannten „Proof-of-Concept”. Zu Beginn des Projektes wurden bestimmte Abläufe, sogenannte User Stories, definiert, die es zu realisieren galt.

Da der Fokus einer solchen Arbeit auf der technischen Machbarkeit liegt, werden dabei bestimmte Aspekte explizit nicht berücksichtigt. In diesem Fall wurden Konzepte für den Datenschutz oder IT-Sicherheit bewusst ausgeklammert.

Für den Einsatz in der Industrie müssten diese Punkte ebenfalls ausgearbeitet und der Prototyp noch um die Kundenanforderungen und Qualitätssicherung erweitert werden. Dennoch bietet das Intelligente Regal schon vielversprechende Ansätze, die in Folgeprojekten noch weiterentwickelt werden sollen.

Mehr Informationen zur Interaktion mit dem Intelligenten Regal in dem folgenden Video: