Ein elementarer Bestandteil anwaltlicher Arbeit zur Vorbereitung einer Klage ist der Vergleich mit ähnlichen, bereits verhandelten Fällen. Aber auch Richter*innen vergleichen Fälle, um sicherzustellen, dass die Rechtsprechung in einer Linie bleibt. Diese dienen als Orientierung für angemessene Klageforderungen und zur Vorbereitung der Argumentation vor Gericht. In einigen speziellen Rechtsbereichen gibt es bereits Fachbände, in denen historische Urteile kategorisiert und anschließend Muster der Rechtsprechung abgeleitet wurden. So zum Beispiel zur Ermittlung von Schmerzensgeld. Sie vereinfachen das Auffinden von Urteilen und helfen nicht nur, einen angemessenen Schmerzensgeldbetrag festzulegen, sondern liefern auch Argumente für diese Einschätzung.
Ein solches Fachwerk gibt es allerdings für die meisten Rechtsbereiche nicht, da die Erarbeitung mit einem enorm hohen Aufwand verbunden ist. Die Jurist*innen müssen stattdessen manuell in juristischen Datenbanken nach Urteilen suchen, diese nach Eckdaten durchforsten und daraus eine Bewertungsgrundlage ableiten. Eine zeitintensive Tätigkeit, die mit Methoden des Maschinellen Lernens beschleunigt werden kann.
Das Analyseproblem: Mit Maschinellem Lernen Dokumente klassifizieren und Sequenzen taggen
Mit über 1,4 Millionen Urteilen ist das Fachinformations- und Softwareunternehmen Wolters Kluwer einer der wichtigsten juristischen Datenbankanbieter in Deutschland. Seit 2021 arbeiten wir gemeinsam mit Wolters Kluwer an Methoden, mit denen Urteils-Dokumente analysiert, wichtige Fakten extrahiert und insbesondere Argumente, die die Urteilsentscheidung begründen, gefunden werden können. Wir fokussieren uns hierbei in einem ersten Schritt auf Urteile im Bereich Mietrecht, die sich mit der Mietminderung wegen Mängeln an der Mietsache beschäftigen. Relevant sind dabei die folgenden drei Kerninformationen:
Eckdaten, die das Auffinden ähnlicher Fälle ermöglichen: hier der Mietmangel (zum Beispiel Schimmel, Lärm oder eine defekte Infrastruktur). Ist dieser bekannt, können Jurist*innen später anhand der Eckdaten schnell ähnliche Fälle finden.
Entscheidung des Gerichts: Hat das Gericht die Mietminderung bewilligt und falls ja, wie hoch ist die zugesprochene Minderung? Nimmt der Mieter im Prozess die Rolle des Klägers oder des Beklagten ein?
Welche Gründe haben das Gericht dazu bewogen, der Mietminderung stattzugeben oder diese abzulehnen? Wenn die Gründe sauber extrahiert sind, können Jurist*innen Urteile schneller sichten und Argumente für den aktuellen Fall sammeln.
Während die in (1) und (2) beschriebenen Informationen durch eine Klassifikation der Dokumente oder einzelnen Wörter, ähnlich zum beschriebenen Vorgehen in folgendem Blogbeitrag, identifiziert werden können, stellt die Extraktion von Argumenten eine besondere Herausforderung dar.
Argumentation Mining mit Question-Answering-Modellen
Die in (3) benannte Extraktion von Argumenten wird unter dem Begriff Argumentation Mining (seltener: Argument Mining) zusammengefasst.
Die Extraktion der Argumente ist aus mehreren Gründen herausfordernd: Argumente können sich über einen oder mehrere Sätze erstrecken, weswegen eine Klassifikation auf Satzebene oft keine guten Resultate liefert. Zudem beziehen sich viele Urteile und damit auch die angebrachten Entscheidungsgründe auf mehrere Sachverhalte. Relevant für unsere Anwender*innen sind allerdings nur jene Argumente, die sich mit dem vorliegenden Verhandlungsobjekt, in unserem Fall die Mietminderung, beschäftigen. Zum Auffinden der richtigen Argumente ist es also entscheidend, ihren Kontext einzubeziehen, der sich für jedes Urteil daraus ergibt, welcher Mietmangel vorliegt.
Um diesen Herausforderungen zu begegnen, verwenden wir ein Verfahren aus dem Bereich des Question Answering. Ein solches Modell lernt auf Basis von Frage-Antwort-Paaren, die richtigen Antworten auf eine beliebige Frage in einem Dokument zu finden. Genauer handelt es sich hierbei um eine Klassifikationsaufgabe, bei der das Lernziel ist, zwei Wörter im Dokument als Start- und Endwort einer Antwort zu klassifizieren.
Während des Trainings wird ein solches Modell dabei mit Urteilstexten, den gestellten Fragen und Start-/Endwörter der richtigen Antworten als Input angelernt.
Wir können dabei auf einem Sprachmodell aufbauen, welches bereits auf generischen Frage-Antwort-Paaren nachtrainiert wurde. Dieses ist bereits out-of-the-box dazu in der Lage, Antwortstrukturen in Texten zu erkennen. Um auch Fragen in unserem juristischen Kontext zuverlässig beantworten zu können, lernen wir das Modell auf unseren Daten weiter.
Stelle die richtigen Fragen: Argumente mit Fragetemplates extrahieren
Für jedes Urteil erstellen wir ein Fragetemplate, welches ad-hoc mit den, in (1) und (2) extrahierten Informationen befüllt wird:
Template: „Was sind Argumente für oder gegen eine Minderung der Miete durch den Mieter als [Rolle] aufgrund von [Mietmangel]?“
Konkretes Beispiel: „Was sind Argumente für oder gegen eine Minderung der Miete durch den Mieter als Beklagtem aufgrund von Verschmutzung des Balkons?“
Zur Anwendungszeit sieht der Prozess dabei, wie in Abbildung 1 dargestellt, aus: Im ersten Schritt werden aus dem Urteil die Informationen über Mietmangel und Rolle des Mieters automatisch extrahiert, im zweiten Schritt wird das Fragetemplate mit den extrahierten Informationen befüllt. Die Frage wird zusammen mit dem Urteilstext als Input für das Question-Answering-Modell verwendet. Das Modell liefert anschließend Start- und Endwörter aller, zur Frage passenden Antworten zurück.
Praktische Herausforderungen – Trainingsdatenerzeugung und Evaluierung
Nicht nur aus Machine-Learning-Sicht ergeben sich im Projekt einige Schwierigkeiten, auch die Umsetzung ist aus den in (a) und (b) genannten Gründen herausfordernd:
- zum Anlernen der Modelle werden gelabelte Trainingsdaten benötigt, sprich: Urteilstexte, in denen die in (1), (2) und (3) beschriebenen Informationen annotiert sind. Anhand dieser Beispiele lernt das Modell, die von Menschen getroffene Entscheidung möglichst gut zu reproduzieren und dabei auf ungesehene Urteile zu generalisieren. Gemeinsam erarbeiten wir ein Schema zur Annotation der Daten. Mit dessen Hilfe bereiten die Fachexperten von Wolters Kluwer die Daten auf und evaluieren sie. Zur Annotation verwenden wir die, von Fraunhofer IAIS entwickelte Annotationssoftware AnEx. Diese Annotationsarbeit erstreckt sich über einen Großteil der Projektlaufzeit und ist ein, für den Projekterfolg maßgeblicher Arbeitsschritt. Die spätere Modellperformanz steht und fällt mit der Qualität der manuell erzeugten Urteilsbeispiele.
- Qualitative Evaluierung der Extraktionsergebnisse: Für einige der extrahierten Informationen können wir die Güte des Modells quantitativ mithilfe von Metriken, wie Precision, Recall und F1-Score, auf einem annotierten Test-Set ermitteln. So zum Beispiel bei der Vorhersage der Prozessentscheidung. Andere Informationen, wie die Argumente, sind schwieriger zu bewerten. Oft entscheidet sich ein Modell bei der Argumentsuche für andere Passagen als ein/eine Fachexpert*in, der die Textstellen annotiert. Die gefundenen Passagen sind dabei semantisch ähnlich zu den manuell annotierten und beide können, obwohl unterschiedlich, als korrekt bewertet werden. Die ermittelten Metriken sind in solchen Fällen nicht aussagekräftig.
Aus diesem Grund werden unsere Extraktionsmodelle direkt durch die Domänenexpert*innen bei Wolters Kluwer bewertet. Dazu stellen wir sie in einem Webservice zur Verfügung. Dieser nimmt Urteile entgegen, analysiert sie und liefert das Ergebnis zurück. Eine grafische Benutzeroberfläche ermöglicht das Hochladen von Urteilen und Anzeigen der gefundenen Informationen. Wir verwenden dazu das Framework Streamlit, mit dem ohne viel Aufwand einsatzfähige Web-Applikationen erstellt werden können.
Um die Anwendung an Wolters Kluwer auszuliefern, wird sie in einem sogenannten Docker-Image verpackt. Docker ermöglicht das schnelle Erzeugen von nutzbaren Anwendungen. Ein Image beinhaltet die komplette Anwendung, die selbstständig ausgeführt werden kann. Der Service kann so unkompliziert in die Infrastruktur von Wolters Kluwer integriert und dort getestet werden.
Zusammenfassung und Fazit
Ein Großteil der Arbeitszeit von Juristen und Juristinnen fließt in die Recherche zur Fallbearbeitung, welche mit mühseligen Suchen und Aufbereiten von Informationen verbunden ist. Durch den Einsatz von Methoden des Maschinellen Lernens kann dieser Aufwand reduziert werden.
Die Aufgabe lässt sich in verschiedene Probleme des Maschinellen Lernens übersetzen, darunter die Klassifikation von Dokumenten und Wörtern, sowie Question Answering. Dabei profitieren wir in allen Bereichen vom Einsatz bereits vortrainierter Sprachmodelle, welche in der Lage sind, semantische Ähnlichkeiten zu erkennen. Question-Answering-Modelle ermögliche uns außerdem, gezielt den Kontext eines bestimmten Urteils mit einfließen zu lassen, um die richtigen Informationen zu finden.
Aktuell beschränken wir uns bei der Analyse auf ausgewählte Urteilstypen im Bereich Mietrecht. Das langfristige Ziel ist es, eine rechtsbereichsübergreifende Lösung zu entwickeln und dabei den Aufwand zur Generierung von Trainingsdaten gering zu halten.
Das partnerschaftlich umgesetzte Projekt bildet hiermit einen ersten Schritt in Richtung der automatisieren Urteilszusammenfassung- und Aufbereitung.