{"id":4431,"date":"2021-06-09T05:00:49","date_gmt":"2021-06-09T05:00:49","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/anonymizer\/"},"modified":"2025-11-12T14:53:41","modified_gmt":"2025-11-12T14:53:41","slug":"anonymizer","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/anonymizer\/","title":{"rendered":"KI im Finanzsektor \u2013 Automatisierte Anonymisierung von Finanzberichten"},"content":{"rendered":"\n<p>Zum Arbeitsalltag von vielen Unternehmen geh\u00f6rt das Erstellen und \u00dcberpr\u00fcfen von Berichten, die finanzielle Kennzahlen &#8211; aus meist unz\u00e4hligen Tabellen &#8211; in eine schriftliche Form bringen. Diese monotone und sich wiederholende Arbeit wird meist per Hand erledigt und bindet so viele zeitliche und finanzielle Ressourcen. Mit der zunehmenden Verf\u00fcgbarkeit digitaler Finanz- und Rechtsdokumente ist die Forderung nach ihrer automatischen Verarbeitung von gro\u00dfer Bedeutung. Ziel ist es hierbei, zentrale Muster in den Texten zu extrahieren und die Benutzer*innen zu unterst\u00fctzen. An dieser Stelle kann K\u00fcnstliche Intelligenz (KI) ein gutes Hilfsmittel sein, um Teile dieser Arbeit zu begleiten oder komplett zu automatisieren.<\/p>\n\n\n\n<p>Das Problem: Trotz der hohen Verf\u00fcgbarkeit von Finanz- und Rechtsdokumenten werden Textverarbeitungs- oder Machine-Learning-Systeme nur selten eingesetzt. Dies liegt auch daran, dass in diesen Dokumenten sensible Informationen enthalten sind, die eine Nutzung und Verarbeitung ausschlie\u00dflich f\u00fcr autorisierte Personen und Zwecke zulassen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Anonymizer &#8211; ein Tool zur automatischen Anonymisierung von Berichten<\/span><\/h2>\n\n\n\n<p>Um dieses Problem zu l\u00f6sen, haben wir zusammen mit PricewaterhouseCoopers (PwC) ein neues Projekt gestartet: den <em>Anonymizer.<\/em> Dieses Tool erm\u00f6glicht die automatische Anonymisierung von Finanzdokumenten. Es erkennt und zensiert empfindliche Daten, wie Orte, Personen- oder Firmennamen und andere Informationen (zum Beispiel Emails, Telefonnummern), die es erm\u00f6glichen w\u00fcrden, die Daten einem bestimmten Unternehmen zuzuordnen.<\/p>\n\n\n\n<p>In unserer Zusammenarbeit und Entwicklung des Anonymizer-Tools erm\u00f6glichte PwC die Bereitstellung der Trainingsdaten, indem es die sensiblen Informationen in finanziellen Berichten vorab annotierte. Modelle des Maschinellen Lernens konnten in der Folge auf diesen Daten lernen, ohne dass vertrauliche Daten einen autorisierten Empf\u00e4ngerkreis verlie\u00dfen. Auf der Grundlage neuester Erkenntnisse aus dem Forschungsfeld maschineller Lernverfahren entwickelte ein Team des<a href=\"http:\/\/www.ml2r.de\/\" target=\"_blank\" rel=\"noopener\"> <a href=\"https:\/\/lamarr-institute.org\/\">Lamarr Institut<\/a><\/a>s und des Fraunhofer IAIS sodann neue Methoden, um sensible Informationen aus Finanzdokumenten automatisch zu anonymisieren. PWC-Mitarbeitende unterst\u00fctzten die Entwicklung der ML-Verfahren mit ihrem dom\u00e4nenspezifischen Expertenwissen und evaluierten die Ergebnisse. Das so entstandene Anonymizer-Tool beschreiben wir im Folgenden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Durch numerische Wortrepr\u00e4sentationen Beziehungen zwischen W\u00f6rtern erkennen<\/span><\/h2>\n\n\n\n<p>Das Anonymizer-Tool soll empfindliche Daten, wie Orte, Personen- oder Firmennamen und andere Informationen automatisch erkennen und zensieren. In der Forschung ist dieses Problem unter dem Namen <a href=\"https:\/\/de.wikipedia.org\/wiki\/Named-entity_recognition\" target=\"_blank\" rel=\"noopener\">\u201eNamed Entity Recognition\u201c (NER)<\/a> oder Eigennamenerkennung bekannt und bezeichnet die automatische Identifikation und Klassifikation von Eigennamen. Ein Eigenname ist eine Folge von W\u00f6rtern, die eine real existierende Entit\u00e4t beschreibt, zum Beispiel ein Firmenname.<\/p>\n\n\n\n<p>Der erste Schritt bei der Erstellung des Anonymizers konzentrierte sich auf die Einbettung der W\u00f6rter in einen Vektorraum. Die Idee dahinter ist es eine numerische Repr\u00e4sentation f\u00fcr W\u00f6rter zu finden, in der W\u00f6rter mit \u00e4hnlicher Bedeutung auch \u00e4hnliche Repr\u00e4sentationen besitzen. So sollten zum Beispiel die W\u00f6rter \u201eAffe\u201c und \u201eSchimpanse\u201c in diesem Raum nahe beieinander liegen. Au\u00dferdem erm\u00f6glicht die numerische Darstellung eine Durchf\u00fchrung mathematischer Operationen, die W\u00f6rter in Beziehung setzen (siehe Abbildung 1). Modelle, die auf diesen Repr\u00e4sentationen trainiert werden, k\u00f6nnen diese Beziehungen lernen und in ihre Vorhersagen miteinbeziehen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Wortrepraesentationen-1.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24741\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Lamarr Institute <br>Diese Abbildung zeigt m\u00f6gliche numerische Beziehungen zwischen Wortrepr\u00e4sentationen in einem Vektorraum. Die linke Grafik zeigt, dass die Differenz zwischen dem Vektor f\u00fcr das Wort \u201eMann\u201c und dem Vektor f\u00fcr das Wort \u201eFrau\u201c in etwa der Differenz entspricht (oberer violetter Pfeil), die sich aus den Vektoren der beiden W\u00f6rter \u201eStellvertreter\u201c und \u201eStellvertreterin\u201c ergibt (unterer violetter Pfeil).<\/figcaption><\/figure>\n\n\n\n<p>Neben der klassischen Einbettung von W\u00f6rtern in einen Vektorraum, beziehen moderne Einbettungen zus\u00e4tzlich auch den Kontext des Satzes mit ein. Diese Einbettungen basieren meist auf bekannten Sprachmodellen, die auf Millionen von W\u00f6rtern aus gro\u00dfen Textdatens\u00e4tzen trainiert worden sind. Diese Sprachmodelle k\u00f6nnen W\u00f6rter, die mehrere Bedeutungen haben, anhand ihres Kontextes unterscheiden. Beispielsweise wird dem Wort \u201eVogel\u201c in den S\u00e4tzen \u201eDer fr\u00fche Vogel f\u00e4ngt den Wurm.\u201c und \u201eMein Hausarzt ist Dr. Vogel.\u201c jeweils eine unterschiedliche Repr\u00e4sentation zugewiesen. In unserer Anwendung verwenden wir <a href=\"https:\/\/www.informatik.hu-berlin.de\/en\/forschung-en\/gebiete\/ml-en\/Flair\" target=\"_blank\" rel=\"noopener\">Flair<\/a>, welches zu den modernen, kontextbezogenen Einbettungen geh\u00f6rt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Klassifikation mittels Rekurrenter Neuronaler Netze und Conditional Random Fields<\/h2>\n\n\n\n<p>Im zweiten Schritt der Anonynmizer-Entwicklung haben wir ein rekurrentes neuronales Netz (RNN) anhand der eingebetteten W\u00f6rter trainiert. Das RNN sagt hierbei vorher, zu welcher Entit\u00e4t die W\u00f6rter geh\u00f6ren (zum Beispiel <em>per<\/em> f\u00fcr Personen oder <em>org<\/em> f\u00fcr Organisation). Durch R\u00fcckkopplungen in der Architektur erm\u00f6glicht ein rekurrentes neuronales Netz eine Art Ged\u00e4chtnis, indem vorherige Eingaben immer wieder in das neuronale Netz eingespeist werden. \u00c4hnlich der modernen Einbettung k\u00f6nnen somit die bereits eingespeisten W\u00f6rter erneut in die Klassifizierung des jetzigen Wortes mit einbezogen werden.<\/p>\n\n\n\n<p>Im dritten Schritt wurden die vorhergesagten Entit\u00e4ten als Sequenz betrachtet und von einem <a href=\"https:\/\/de.wikipedia.org\/wiki\/Conditional_Random_Field\" target=\"_blank\" rel=\"noopener\">Conditional Random Field (CRF)<\/a> beurteilt. Ein CRF ist ein probabilistisches Modell, das bewertet wie wahrscheinlich es ist, dass die Elemente in der Eingabesequenz in dieser Abfolge auftauchen. Dazu wird dieses Modell zun\u00e4chst auf den Trainingsdaten trainiert und lernt, welche Sequenzen h\u00e4ufig vorkommen und weist diesen bei der Vorhersage einen h\u00f6heren Wert zu. Wenn beispielsweise das RNN f\u00fcr drei aufeinanderfolgende W\u00f6rter die Klassen <em>per<\/em>, <em>per<\/em> und <em>org<\/em> vorhersagt, k\u00f6nnte es sich hierbei um eine Sequenz handeln, die nur selten vorkommt. Vielleicht handelt es sich eher um einen Firmennamen, der einen Personennamen enth\u00e4lt (<em>org<\/em>, <em>org, org<\/em>) oder um eine Aufz\u00e4hlung von Personen (<em>per, per, per<\/em>). Dies l\u00e4sst sich gut am Beispiel des \u201eRobert-Koch-Instituts\u201c darstellen. Das CRF muss hier entscheiden, ob es sich um eine Organisation (<em>org<\/em>, <em>org, org<\/em>) oder um eine Aufz\u00e4hlung von Personen (<em>per, per, per<\/em>) handelt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ergebnisse und Qualit\u00e4t der Anonymisierung<\/h2>\n\n\n\n<p>Bei der Anonymisierung betrachten wir den bin\u00e4ren Fall f\u00fcr die Klassifikation: Entweder geh\u00f6rt das Wort zur Klasse der empfindlichen W\u00f6rter und soll anonymisiert werden oder nicht. Dabei gibt es zwei wichtige Kriterien, an denen man die Qualit\u00e4t der Anonymisierung messen kann:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Wie pr\u00e4zise ist die Klassifikation (<em>Precision<\/em>), das hei\u00dft, wie viele der Vorhersagen waren auch korrekt?<\/li>\n\n\n\n<li>Wie viele der empfindlichen Informationen wurden auch gefunden und zensiert (<em>Recall<\/em>)?<\/li>\n<\/ol>\n\n\n\n<p>Diese beiden Metriken balancieren sich gegenseitig aus. St\u00fctzt man sich nur auf sichere Vorhersagen, kann man leicht die Pr\u00e4zision erh\u00f6hen, verliert aber im Gegenzug Punkte im Recall, weil sensible W\u00f6rter \u00fcbersehen werden. F\u00fcr jede ML-Anwendung m\u00fcssen die passenden Kriterien ausgew\u00e4hlt und gewichtet werden. Im Anwendungsfall von Finanzberichten spielt so der Recall eine gr\u00f6\u00dfere Rolle, da der Fokus darauf liegt, m\u00f6glichst alle empfindlichen Daten zu finden. Denn, wenn das Tool es nicht schafft, die meisten sensiblen Daten zu erkennen, dann m\u00fcssen die verbliebenden sensiblen Daten manuell entfernt werden, was den Nutzen dieser Automatisierung und dessen Skalierbarkeit stark verringert.<\/p>\n\n\n\n<p>In unserem Tool erreicht das trainierte Modell auf den Testdaten eine nahezu perfekte Anonymisierung (99% Recall). Dabei ist erfreulich, dass trotz der Priorisierung des Recall das Gesamtmodell eine Pr\u00e4zision von \u00fcber 90% h\u00e4lt. Das bedeutet, dass einerseits fast alle sensiblen Daten (99%) von dem Tool entdeckt und anonymisiert werden und andererseits selten Text f\u00e4lschlicherweise anonymisiert wird.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Anonymizer: Anwendung in der Praxis<\/h2>\n\n\n\n<p>Um die Nutzung des Tools so handlich wie m\u00f6glich zu machen, haben wir zwei Nutzungsm\u00f6glichkeiten erstellt: Der Anonymizer existiert als Command-Line-Tool oder kann \u00fcber eine Web-Applikation bedient werden.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/AnonymizerTool_1-1.gif\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24744\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Lamarr Institute<br>Dies ist ein Beispiel der Web-Applikation. Der linke Bereich enth\u00e4lt die Bedienelemente zum Hochladen des Dokuments und andere Einstellungen. Rechts befindet sich das Dokumentenfenster, das den Inhalt des Dokuments anzeigt. Die Web-Applikation zeigt farblich, welche Entit\u00e4ten gefunden wurden und zu welcher Gruppe sie geh\u00f6ren, bevor sie anonymisiert werden. Anschlie\u00dfend ist das Dokument mit den zensierten sensiblen Informationen zu erkennen.<\/figcaption><\/figure>\n\n\n\n<p>Die <strong>Web-Applikation<\/strong> ist eine webbasierte Anwendung, die es dem Benutzer erm\u00f6glicht, Textdokumente hochzuladen und die anonymisierten Inhalte zu visualisieren (siehe Abbildung 2). Die Oberfl\u00e4che enth\u00e4lt zwei Bereiche: einen linken Bereich mit Steuerelementen und einen rechten Bereich, in dem das anonymisierte Dokument dargestellt wird. Die sensiblen Entit\u00e4ten werden je nach Typ in verschiedenen Farben hervorgehoben. In der vorstehenden Abbildung sind die Namen von Personen, Unternehmen und Orten in rot, gr\u00fcn beziehungsweise blau hervorgehoben. Au\u00dferdem gibt das Tool den Benutzer*innen die M\u00f6glichkeit, die Maskierung zu aktivieren, sodass sensible Objekte komplett geschw\u00e4rzt werden. Sobald das Dokument anonymisiert ist, erm\u00f6glicht das Tool den Benutzer*innen das verarbeitete Dokument herunterzuladen. Dieses ist frei von sensiblen Elementen ist.<\/p>\n\n\n\n<p>Das <strong>Command-Line-Tool <\/strong>bietet den Benutzer*innen eine Schnittstelle zu den Funktionen des Anonymizers. Somit kann der Anonymizer leicht in andere Abl\u00e4ufe und Projekte eingebaut werden. Zus\u00e4tzlich kann das Command-Line-Tool dazu verwendet werden, um im Schnelldurchgang Tausende von Dokumenten zu anonymisieren. Zu diesem Zweck k\u00f6nnen Anwender*innen eine Vorlage erstellen, welche die Einstellungen f\u00fcr den Vorgang festlegt oder diese \u00fcber die Konsole mitgeben.<\/p>\n\n\n\n<p>Zusammenfassend erm\u00f6glicht uns das Anonymizer Tool die Anonymisierung sensibler Informationen, zum Beispiel Namen von Personen, Orten, Organisationen, Nummern, Telefonnummern, Daten und URLs, in einem Schriftst\u00fcck. Die sensiblen Informationen k\u00f6nnen sowohl durch Schw\u00e4rzen von Text als auch durch Ersetzen von Textbausteinen mit generischen Tags in allen g\u00e4ngigen Dateiformaten anonymisiert werden. Dazu verwenden wir modernste Techniken des Deep Learning, der nat\u00fcrlichen Sprachverarbeitungstechniken sowie einer regelbasierten Nachbearbeitung. Schlussendlich l\u00f6st der <em>Anonymizer<\/em> den Engpass in der Weitergabe von Dokumenten und erleichtert die Benutzung von KI-L\u00f6sungen im Finanzsektor und Unternehmen im Allgemeinen.<\/p>\n\n\n\n<p>Mehr Informationen in der zugeh\u00f6rigen Publikation:<\/p>\n\n\n\n<p><strong>Leveraging Contextual Text Representations for Anonymizing German Financial Documents <\/strong>D. Biesner, R. Ramamurthy, M. L\u00fcbbering, B. F\u00fcrst, H. Ismail, L. Hillebrand, A. Ladi, M. Pielka, R. Stenzel, T. Khameneh, V. Krapp, I. Huseynov, J. Schlums, U. Stoll, U. Warning, B. Kliem, C. Bauckhage, R. Sifa. AAAI Workshop on Knowledge Discovery from Unstructured Data in Financial Services at KDF, 2020, <a href=\"https:\/\/aaai-kdf2020.github.io\/assets\/pdfs\/kdf2020_paper_7.pdf\" target=\"_blank\" rel=\"noopener\">PDF<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Finanzdokumente enthalten sensible Informationen, die die Nutzung und Verarbeitung der Daten nur f\u00fcr autorisierte Personen zul\u00e4sst. Das Anonymizer-Tool schw\u00e4rzt diese Informationen durch nat\u00fcrliche Sprachverarbeitungs- und Deep Learning-Techniken sowie einer regelbasierten Nachbearbeitung.<\/p>\n","protected":false},"author":9,"featured_media":4436,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,546,1418],"blog-tag":[1523,1558,1559],"class_list":["post-4431","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-anwendung","blog-category-sprachtechnologien","blog-tag-ki-und-recht","blog-tag-neuronale-netze","blog-tag-nlp-de"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4431","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4431\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4436"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4431"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4431"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4431"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}