KI für Wirtschaftsprüfung – Erste Schritte zum automatisierten Auditing

|Ein Screenshot unseres Vorschlagssystems.|
© madedee/stock.adobe.com

Eine typische Aufgabe von Wirtschaftsprüfer*innen ist das Überprüfen von Geschäfts- und Jahresabschlussberichten auf ihre Vollständigkeit und Konsistenz. Dafür mussten Prüfende die Dokumente bisher komplett händisch durchgehen, um für jeden Abschnitt die jeweils relevanten Vorschriften zu identifizieren. Dieser Prozess ist sehr repetitiv und zeitaufwändig, da es je nach Anwendungsbereich mehrere hunderte, bis tausende potenzieller Anforderungen gibt, die erfüllt werden müssen. In diesem Beitrag zeigen wir auf, wie man mit Hilfe von KI-basierten Lösungen heute schon Teile des Auditing-Prozesses automatisieren kann.

Was ist ALI und was kann das Tool?

Zusammen mit PricewaterhouseCoopers GmbH entwickelte das Fraunhofer IAIS eine Lösung, die den Auditing-Prozess automatisieren soll. Dabei kommen Methoden aus dem Machine Learning (ML), Natural Language Processing (NLP) in Kombination mit dem Fachwissen von Wirtschaftsprüfer*innen zum Einsatz.

„Automated List Inspection“ (kurz ALI) ist ein Vorschlagssystem, das Textpassagen aus unstrukturierten Dokumenten, wie zum Beispiel dem Anhang eines Jahresabschlusses, den passenden gesetzlichen Vorschriften zuordnet. Der Referenzpunkt für ALI sind Checklisten, die allen relevanten gesetzlichen Anforderungen beinhalten, die die zu überprüfenden Dokumente erfüllen müssen. Das Vorschlagssystem funktioniert dabei in beide Richtungen: Man kann sich sowohl die relevanten Textpassagen pro gesetzliche Anforderung als auch die relevanten gesetzlichen Anforderungen pro Textpassage anzeigen lassen. Darüber hinaus wägt es selbstständig ab, ob nicht gesetzlich geforderte Angaben ebenfalls relevant sind, und hebt diese hervor. Die finale Entscheidung, welcher Vorschlag letztendlich der richtige ist, wird den Auditor*innen überlassen.

In der Praxis des Auditings ist es unerlässlich immer up-to-date mit den aktuellen Gesetzesänderungen zu bleiben. Damit ALI ohne Probleme bei Änderungen der Checklisten weiterfunktioniert, wurde das System unspezifisch konstruiert. So kann man es an Änderungen der Checklisten anpassen. Das Tool wird seit 2019 von PwC im Alltagsgeschäft erfolgreich eingesetzt, wodurch der Prüfungsprozess deutlich beschleunigt wird.

ALI Tool - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© Rafet Sifa et al.: “Towards Automated Auditing with Machine Learning”
Ein Screenshot unseres Vorschlagssystems. In der linken Spalte werden die Checklist-Anforderungen aufgelistet; die mittlere Spalte enthält die Vorschläge unseres Systems, sortiert nach Relevanz; und rechts ist der gesamte Bericht zu sehen, wobei der jeweils ausgewählte Abschnitt markiert ist.

Datenschutz & die Entwicklung von ALI

Oftmals gibt es Herausforderungen bei der Integration von KI-Lösungen in das operative Tagesgeschäft von Unternehmen. Die zu bearbeitenden Dokumente enthalten sensible Informationen, zum Beispiel Orte, Personen- oder Firmennamen, die eine Nutzung und Verarbeitung ausschließlich für autorisierte Personen und Zwecke zulässt. Davon ist üblicherweise die Verwendung der Daten zum Trainieren von Algorithmen nicht umfasst. Generell scheint die Regulatorik (insbesondere DSGVO) für Anwender*innen die größte Herausforderung für eine erfolgreiche Implementierung von ML- beziehungsweise KI-Lösungen darzustellen.

Um den Schutz von sensiblen Informationen zu garantieren, haben wir parallel zu ALI in Kollaboration mit PwC das Anonymizer-Tool entwickelt. Mit diesem Tool werden sensible Daten in den relevanten Dokumenten vollkommen automatisiert erkannt und anonymisiert. Beim ALI-Tool wurde eine solche Anonymisierungsfunktion integriert, damit bei der Überprüfung der Korrektheit und Übereinstimmung der Finanzdokumente sensible Daten automatisch erkannt und unkenntlich gemacht werden. Für Interessierte, die gerne mehr über das Anonymizer-Tool und dessen Funktionsweise wissen wollen, gibt es den Blogbeitrag „KI im Finanzsektor – Automatisierte Anonymisierung von Finanzberichten“.

Wie funktioniert ALI?

Die Hauptaufgabe von ALI ist es, den Prozess zu automatisieren, mit dem Dokumente auf ihre Übereinstimmung mit gesetzlichen Vorschriften überprüft werden. Unter der Annahme, dass der Überprüfungsprozess eine grundlegende Systematik befolgt, kann man einen ML-Algorithmus trainieren, diese Systematik zu verstehen. Dafür sind drei Komponenten des Tools besonders wichtig: Textvorverarbeitung, die Repräsentation der Daten und das zugrundeliegende Ranking-Modell.

Die Textvorverarbeitung dient dazu, die natürliche Sprache für den Algorithmus zu standardisieren. Über die üblichen Textvorverabeitungsschritte hinaus, wie das Entfernen von Zahlen, Wortstammbildung und Lemmatisierung, wurden anwendungsbezogene Vorverarbeitungsschritte vorgenommen. Diese Schritte beinhalten unter anderem das Normalisieren von Währungseinheiten, Daten und Zitation von Gesetzen, sowie das Erkennen und Schützen von spezifischen Begriffen.

ALI kann die gegebenen Dokumente in verschiedenen Arten darstellen: N-Gramme, Bag-of-Words und neuronale Sprachmodelle. Diese Komponente dient dazu, die gegebenen Daten zu „parsen“ und jede gesetzliche Anforderung und die dazugehörigen Textpassagen für weitere Textverarbeitungsschritte zu repräsentieren.

Die letzte wesentliche Komponente ist das Ranking-Modell. Das Ranking-Modell dient dazu, die Textpassagen nach absteigender Relevanz den jeweiligen Anforderungen zuzuordnen. Dieses wurde mit den verfügbaren annotierten Daten sowohl „unüberwacht“ als auch „überwacht“ trainiert. Unüberwachte maschinelle Lernmodelle haben den Vorteil, dass diese bei Änderungen der Checkliste ohne großen Aufwand weiterbenutzt werden können. Jedoch haben wir festgestellt, dass die Performanz der unüberwachten Modelle, den überwachten Modellen unterlegen ist.

Die nächsten Schritte zum automatisierten Auditing mit ALi(BERT)

Zusammenfassend kann man sagen, dass der Einsatz von KIs für Wirtschaftsprüfer*innen noch bisher ungeahnte Chancen birgt. ALI ist der erste Schritt hin zu einem wesentlich effizienteren Auditing-Prozess. Zukünftige Forschungen konzentrieren sich insbesondere auf die Optimierung und Weiterentwicklung des Tools, die im Folgenden näher erläutert werden:

Eine wesentliche Aufgabe von ALI ist das Überprüfen der Dokumente auf ihre Konsistenz. Dafür ist es wichtig, dass eine relevante Information nicht einfach nur existiert, sie muss ebenfalls vollständig, korrekt und konsistent an unterschiedlichen Stellen in den Dokumenten auffindbar sein. Um diese Anforderungen zu überprüfen, arbeitet das Fraunhofer IAIS aktuell an einem Konsistenzcheck-Modul für ALI, damit die qualitative Analyse der Berichte weiter automatisiert werden kann.

Neben dem Konsistenzcheck ist User experience ein weiterer Aspekt, der noch verbessert werden kann. ALI folgt einem Ranking-Paradigma, dass eine feste Anzahl an gesetzlichen Anforderungen pro Textpassage vorschlägt, die auf diese zutreffen. Es wird jedoch nicht in Betracht gezogen, ob theoretisch eine geringere oder höhere Anzahl an gesetzlichen Anforderungen für die jeweilige Textpassage relevant sein könnte. Das vermindert die Übersichtlichkeit und letztendlich die Effizienz bei der Anwendung des Tools.

Mit dem Ziel User Experience zu verbessern, wollen wir in Zukunft einen (multi-label) Klassifikations-Ansatz anstelle des bisher verwendeten Ranking-Ansatzes verwenden, der die Anzahl der präsentierten Vorschläge dynamisch an die jeweiligen Textpassagen anpasst. Dafür verwenden wir ein vortrainiertes BERT-Sprachmodell, was es ermöglicht ALI end-to-end zu optimieren und einfacher anzupassen. Mit BERT als Architektur kann in Zukunft ein Modell entwickelt werden, das universell anwendbar ist, also für verschiedene Checklisten, Fachgebiete und unterschiedliche Sprachen. (Hier den Link zum grade veröffentlichten Paper). Es bleibt spannend!

Rafet Sifa,

20. Oktober 2021

Themen

Prof. Dr. Rafet Sifa

Rafet Sifa ist seit 2023 Professor für Applied Machine Learning an der Universität Bonn. Am Fraunhofer IAIS leitet er die Abteilung Media Engineering und das Geschäftsfeld Cognitive Business Optimization. Der Schwerpunkt seiner aktuellen Forschung liegt auf dem Gebiet des hybriden Maschinellen Lernens. Seit 2020 übt Rafet Sifa eine Lehrtätigkeit am Bonn-Aachen International Center for Information Technology (b-it) aus. Seine Lehrveranstaltungen behandeln insbesondere das Thema Data Mining. Seine Promotion und seinen […]

Weitere Blogartikel