Welches Modell soll ich wählen? Erklärbare Modellselektion für Zeitreihenvorhersage

|Erklärbare Modellselektion für Zeitreihenvorhersage|Kompentenzregion eines einzelnen Modells vor und nach der Drift detection|Modell C11|||
© ML2R

Zeitreihen beschreiben die Veränderung eines Messwertes über die Zeit. So können beispielsweise Sensordaten eines Roboters oder die Temperatur im Tagesverlauf als Zeitreihen interpretiert werden. Zeitreihendaten sind in diversen Anwendungsbereichen allgegenwärtig, von der Logistik bis zur Finanzbranche. Die Zeitreihenvorhersage strebt an, aus einer gegebenen Zeitreihe die nächsten, unbeobachteten Werte möglichst korrekt vorherzusagen. Für die Vorhersage können Eigenschaften der Zeitreihe, wie Periodizität oder Trend, ausgenutzt werden. So ist es zum Beispiel möglich aus historischen Daten Temperaturen für den nächsten Tag oder fehlende Sensordaten bei kurzfristigem Ausfall vorherzusagen.

Die Annahme, dass sich die Zukunft verlässlich aus der Vergangenheit vorhersagen lässt, trifft allerdings in der Realität oft nicht zu. Wenn sich beispielsweise durch den Klimawandel die gemessene Temperatur über die Zeit stark verändert, sind neue Messwerte geeigneter für eine Vorhersage als alte Messwerte. Das Phänomen der sich mit der Zeit ändernden Zeitreiheneigenschaften wird oft als Concept drift bezeichnet. Liegt ein Drift vor, muss dieser nicht nur erkannt, sondern auch in die Vorhersagemechanik maschineller Lernverfahren integriert werden.

Nicht jedes Modell ist für jede Vorhersage ideal

Prinzipiell ist es möglich, lediglich ein maschinelles Lernmodell zu verwenden, um Werte einer Zeitreihen vorherzusagen. Alternativ können auch mehrere Modelle verschiedener Komplexität auf der gleichen Zeitreihe trainiert werden. Die Vorhersagen der verschiedenen Modelle können dann zum Beispiel kombiniert werden (Ensembling), oder es kann das voraussichtlich beste Modell aus der Menge aller trainierten Modelle für die Vorhersage ausgewählt werden. Letzteres Verfahren wird in der Forschung als Modellselektion bezeichnet. Da der Selektionsprozess oft (sogar für Expert*innen) undurchsichtig ist, fokussieren wir uns darauf, diesen Prozess transparenter zu gestalten.

Ein etabliertes Verfahren zur Modellselektion besteht darin, für jedes Modell eine Kompetenzregion anzulegen. Die Kompetenzregion bildet die Zeitreiheneigenschaften ab, auf denen das jeweilige Modell besonders gute Vorhersagen getätigt hat. Während des Trainingsprozesses der einzelnen Modelle können wir messen, auf welchem Bereich der Zeitreihe welches Modell die beste Vorhersage getroffen hat. Die Charakteristik dieses Zeitreihenbereiches wird dann zur Kompetenzregion des jeweils besten Modells hinzugefügt. Wird eine Vorhersage auf einer neuen Zeitreihe benötigt, wird die Charakteristik der neuen Zeitreihe mit den Kompetenzregionen verglichen. Es kann sodann jenes Modell zur Vorhersage ausgewählt werden, welches auf ähnlichen Zeitreihen während des Trainings am besten abgeschnitten hat.

In unserer Arbeit gehen wir noch einen Schritt weiter und berücksichtigen bei der Kompetenzregion nicht nur die Charakteristiken der Zeitreihe, sondern messen ebenfalls welche Teile dieser Zeitreihe besonders relevant für die Vorhersage des Modells waren. Dies erreichen wir durch die Anwendung von Erklärbarkeitsmethoden, welche für die Vorhersage eines Modells die relevantesten Teile der Zeitreihe markieren.

g1 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© Amal Saadallah, Matthias Jakobs, Katharina Morik
Eine Beispielvorhersage (rot) auf einer Zeitreihe (grau). Zu sehen sind die Regionen der Zeitreihe, für die entweder das Modell C8 (lila) oder C0 (rosa) ausgewählt wurden. C8 wurde häufig bei Spitzen in der Zeitreihe ausgewählt, da diese prominent in der Kompetenzregion von C8 vorhanden waren. Analog wird C0 häufig bei Tälern ausgewählt, da diese für C0 überproportional in der Kompetenzregion vorhanden waren.

Zeitreiheneigenschaften sind nicht konstant

In realen Anwendungsszenarien verändert sich die Charakteristik einer Zeitreihe über die Zeit häufig. Wir reagieren auf diesen Concept drift, indem wir beim Erkennen eines Drifts die Kompetenzregionen der einzelnen Modelle zunächst verwerfen, um sie dann auf den neusten Daten mit veränderter Charakteristik neu zu erstellen. Dadurch sind wir in der Lage auf eine Veränderung der Umgebung zu reagieren und die Vorhersage dauerhaft an die neuen Gegebenheiten anzupassen. Die Geschwindigkeit der Vorhersage wird zudem deutlich erhöht, wenn wir nicht periodisch die Kompetenzregionen neu generieren, sondern versuchen den Concept drift zu erkennen (Drift detection) und lediglich dann unsere Modelle an die neuen Gegebenheiten anzupassen. Dazu beobachten wir den Mittelwert der jeweiligen Zeitreihe und definieren einen Drift nur dann, wenn sich dieser Mittelwert über die Zeit deutlich verändert. Mit einem frei wählbaren Parameter können wir zudem bestimmen, wie stark sich der Mittelwert ändern kann bevor ein Drift erkannt wird. Dies erlaubt die Adaption unserer Methode auf verschiedenste Anwendungsbereiche und Datensätze.

g2 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© Amal Saadallah, Matthias Jakobs, Katharina Morik
Die Kompentenzregion eines einzelnen Modells vor und nach der Drift detection. Es ist zu sehen, dass die Charakteristiken der Zeitreihen auf denen das Modell am besten abgeschnitten hatte sich stark verändern, wodurch es sich an die neuen Gegebenheiten der Zeitreihe anpasst.

Ein erklärbarer Ansatz

Modellselektion, besonders von tiefen neuronalen Netzen, ist oft ein undurchsichtiger Prozess. Es ist für Anwender hierbei zumeist nicht interpretierbar, warum ein Modell für diesen speziellen Teil der Zeitreihe ausgewählt wurde. Mit unserem Ansatz erreichen wir Kompetenzregionen, welche die Expertise des Modells genauer herausstellt, wodurch das gewählte Modell noch besser visuell mit der aktuellen Zeitreihe verglichen werden kann. Dies erlaubt den Anwendern nicht nur Fehler bei der Selektion zu erkennen, sondern steigert auch das Vertrauen in die Wirksamkeit des Verfahrens. Darüber hinaus bietet unser Ansatz der Drift detection eine automatische, ressourcensparende Adaption der Modelle, an die sich ändernden Eigenschaften der Zeitreihe.

g3 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© Amal Saadallah, Matthias Jakobs, Katharina Morik
In schwarz ist die aktuelle Zeitreihe zu sehen, für die für den Zeitpunkt t=9 eine Vorhersage getätigt werden soll. Unser Verfahren wählt dazu das Modell C11 aus, da es eine Zeitreihe in seiner Kompetenzregion aufweist welche eine starke Ähnlichkeit zur aktuellen Zeitreihe aufweist (blau).

Weitere Informationen im zugehörigen Papier:

Explainable Online Deep Neural Network Selection using Adaptive Saliency Maps for Time Series Forecasting

Amal Saadallah, Matthias Jakobs, Katharina Morik. European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML-PKDD), 2021, PDF.

Matthias Jakobs

Matthias Jakobs beschäftigt sich in seiner Forschung intensiv mit vertrauenswürdigem maschinellen Lernen. Derzeit arbeitet er an verschiedenen Problemen, darunter die Bereitstellung von Garantien für Erklärungsmethoden, die auf Shapley-Werten basieren, sowohl in der Theorie als auch in der praktischen Anwendung. Zudem untersucht er die Kombination von Erklärbarkeitsmodellen mit Bayesschen Neuronalen Netzen (BNN). Sein besonderes Interesse gilt der Beleuchtung des Entscheidungsfindungsprozesses von Black-Box-Modellen. Ziel ist es, sowohl Nutzern als auch Experten mehr […]

Weitere Blogartikel