{"id":4895,"date":"2023-11-15T08:31:39","date_gmt":"2023-11-15T08:31:39","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/textvereinfachung-und-ml\/"},"modified":"2025-11-12T14:51:12","modified_gmt":"2025-11-12T14:51:12","slug":"textvereinfachung-und-ml","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/textvereinfachung-und-ml\/","title":{"rendered":"Sprechen wir Klartext: Warum Textvereinfachung wichtig ist und wie ML helfen kann"},"content":{"rendered":"\n<p>Erinnern Sie sich daran, wie Sie das letzte Mal mit dem Inhalt eines komplexen Artikels oder Dokuments zu k\u00e4mpfen hatten? Viele von uns kennen diese Situation. Es gibt aber auch verschiedene Gruppen von Menschen, die Schwierigkeiten damit haben, unsere allt\u00e4gliche Schriftsprache zu verstehen. Aus diesem Grund gibt es einfache Versionen der Alltagssprache, die darauf abzielen, Sprachbarrieren abzubauen. In diesem Blogbeitrag werden wir eine Einf\u00fchrung in das Thema Textvereinfachung geben. Wir konzentrieren uns darauf, warum es so wichtig ist, unsere Schriftsprache zug\u00e4nglicher zu machen, gehen auf die Zusammenh\u00e4nge zwischen Textvereinfachung und der Bewertung von Lesbarkeit ein und skizzieren die verschiedenen Ans\u00e4tze zur automatischen Textvereinfachung.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Sprachbarrieren abbauen: Textvereinfachung und Maschinelles Lernen<\/h2>\n\n\n\n<p>Es gibt viele Situationen, in denen wir mit schwierig zu verstehenden Dokumenten konfrontiert werden. Denken wir zum Beispiel an juristische Dokumente oder Patientendiagnosen. Vielleicht erinnern wir uns auch noch an die Lekt\u00fcre von Goethe in der Schule. Stellen Sie sich nun vor, Sie lernen eine neue Sprache, haben eine Lese-Rechtschreibst\u00f6rung oder sind kognitiv beeintr\u00e4chtigt. In diesen F\u00e4llen kann sogar die allt\u00e4gliche Schriftsprache schwer zu verstehen sein. Durch die Verwendung von einfacher Sprache k\u00f6nnen wir die Zug\u00e4nglichkeit von Informationen f\u00fcr ein breites Spektrum an Menschen verbessern, indem wir die Bed\u00fcrfnisse der verschiedenen Gruppen ber\u00fccksichtigen. Das ist wichtig, da das mangelnde Verst\u00e4ndnis komplexer und allt\u00e4glicher Texte kann ein Hindernis in Sachen Bildung, Gesundheitsversorgung und dem Zugang zu wichtigen Dienstleistungen darstellen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Was hat das Thema Textvereinfachung eigentlich mit Maschinellem Lernen zu tun?<\/h2>\n\n\n\n<p>Das Forschungsgebiet der Textvereinfachung versucht den Prozess der Textvereinfachung zu automatisieren. Zudem ist es eng mit dem Gebiet der Lesbarkeitsbewertung verkn\u00fcpft, die wiederum auf Methoden des Maschinellen Lernens (ML) zur\u00fcckgreift. Ziel der Lesbarkeitsbewertung ist es, Texte automatisch nach einem vordefinierten Schwierigkeitsgrad zu klassifizieren. Hier kommen diverse ML-Methoden ins Spiel. Wir m\u00f6chten zwei h\u00e4ufig verwendete Metriken zur Bewertung der Lesbarkeit hervorheben: den Flesch-Kincaid-Lesbarkeitsindex und den Gunning Fog Index.<\/p>\n\n\n\n<p>Der <strong>Flesch-Kincaid-Lesbarkeitsindex<\/strong> berechnet f\u00fcr einen gegebenen Text eine Punktzahl auf Grundlage der Verh\u00e4ltnisse zwischen der Anzahl der W\u00f6rter in einem Satz und der Anzahl der Silben in den W\u00f6rtern zueinander. Er liefert einen Lesbarkeitswert, der einem bestimmten Schuljahr entspricht, das zum Verst\u00e4ndnis des Textes erforderlich ist. Je niedriger der Lesbarkeitswert, desto einfacher ist der Text. Er wurde urspr\u00fcnglich entwickelt, um den Schwierigkeitsgrad von technischen Handb\u00fcchern zu bewerten.<\/p>\n\n\n\n<p>Der <strong>Gunning-Fog-Index<\/strong> funktioniert \u00e4hnlich, indem er eine Sch\u00e4tzung des geforderten Schuljahres des Lesenden liefert, indem er die durchschnittliche Anzahl der W\u00f6rter pro Satz betrachtet und dann den Prozentsatz der verwendeten komplexen W\u00f6rter ber\u00fccksichtigt. Beide Ma\u00dfst\u00e4be wurden f\u00fcr die englische Sprache und das amerikanische Schulsystem entwickelt, aber f\u00fcr den Flesch-Kincaid-Test gibt es auch eine angepasste Formel f\u00fcr die deutsche Sprache. Da diese Metriken nur die H\u00e4ufigkeit und L\u00e4nge des Textes ber\u00fccksichtigen, messen sie nur die Schwierigkeit des Textes in diesen Dimensionen. Es gilt jedoch zu ber\u00fccksichtigen, dass es auch andere Dimensionen und entsprechende Methoden gibt. Sie haben alle ihre eigenen Vor- und Nachteile und k\u00f6nnen je nach den spezifischen Anforderungen und Zielen der Textanalyse in unterschiedlichen Kontexten eingesetzt werden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Einfach gesagt: Was verstehen wir unter Textvereinfachung?<\/h2>\n\n\n\n<p>Textvereinfachung beschreibt den Prozess der Reduzierung der lexikalischen und syntaktischen Komplexit\u00e4t eines geschriebenen Textes. Das hei\u00dft, wir wollen gel\u00e4ufige W\u00f6rter und eine einfache Satzstruktur verwenden. Im Einzelnen umfasst die \u00dcbersetzung aus der Alltagssprache in einfache Sprache verschiedene Operationen wie das L\u00f6schen, Umformulieren, Einf\u00fcgen und Neuanordnen. Au\u00dferdem werden bei der Vereinfachung oft zus\u00e4tzliche S\u00e4tze hinzugef\u00fcgt, um einen schwierigen Begriff zu erkl\u00e4ren und zu kontextualisieren. Diese Strategie wird immer dann angewandt, wenn das Ersetzen eines schwierigen Wortes nicht ausreicht, um dessen Bedeutung klarzumachen. Denken Sie an den Satz &#8222;Sie k\u00f6nnen mit Karte bezahlen&#8220;. Dieser Satz kann nicht weiter vereinfacht werden, indem man die W\u00f6rter durch Synonyme ersetzt oder die Satzstruktur \u00e4ndert. Aber wenn Sie mit dem Konzept des Bezahlens mit einer Plastikkarte anstelle von Bargeld nicht vertraut sind, ben\u00f6tigen Sie weitere Erl\u00e4uterungen. In der Regel haben menschliche \u00dcbersetzer die Freiheit zu entscheiden, welche W\u00f6rter ersetzt werden m\u00fcssen, weggelassen werden k\u00f6nnen oder durch zus\u00e4tzliche Informationen erg\u00e4nzt werden m\u00fcssen. Sie konzentrieren sich darauf, die wichtigsten Inhalte des Originaltextes wiederzugeben. W\u00e4hrend dies f\u00fcr menschliche \u00dcbersetzer relativ einfach ist, bleibt es eine Herausforderung f\u00fcr die automatisierte Textvereinfachung zu garantieren, dass der Inhalt der Vereinfachung mit dem Originalsatz \u00fcbereinstimmt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Verschiedene Formen der einfachen Sprache: Was ist der Unterschied?<\/h2>\n\n\n\n<p>Bis jetzt haben wir erkl\u00e4rt, warum die Vereinfachung von Texten sinnvoll ist und welche Methoden es gibt, um den Schwierigkeitsgrad von Texten zu beurteilen. Aber wie gelingt es uns, Alltagssprache in einfache Sprache zu \u00fcbersetzen, und gibt es verschiedene Formen der Vereinfachung?<\/p>\n\n\n\n<p>Einfache Sprache muss bestimmte Richtlinien erf\u00fcllen, um als solche zu gelten.<\/p>\n\n\n\n<p>Im Englischen sind die popul\u00e4rsten Formen der einfachen Sprache <strong>&#8222;Basic English&#8220;<\/strong> und <strong>&#8222;Simple English&#8220; \/ &#8222;Learning English&#8220;<\/strong>. Beide Formen richten sich an ein Publikum von Menschen, die Englisch als Sprache neu erlernen. Basic English beschreibt eine stark formalisierte Sprache, die eine vereinfachte Grammatik und einen Wortschatz von nur 850 Kernw\u00f6rtern vorsieht. Simple English verwendet einen umfangreicheren Wortschatz und ist recht verbreitet, da es f\u00fcr die <a href=\"https:\/\/simple.wikipedia.org\/wiki\/Main_Page\" target=\"_blank\" rel=\"noreferrer noopener\">Simple English Wikipedia<\/a> verwendet wird, eine weitere Version der Online-Enzyklop\u00e4die in einfacher Sprache. Beide beschreiben zwar Formen der einfachen Sprache, sind aber eher auf Lernende zugeschnitten.<\/p>\n\n\n\n<p>Im Deutschen sind die beiden popul\u00e4rsten Formen der einfachen Sprache die <strong>&#8222;Einfache Sprache&#8220;<\/strong> und die <strong>&#8222;Leichte Sprache&#8220;<\/strong>. Der Unterschied zwischen den beiden Formen ist der Grad, in dem die Ausdruckskraft der Sprache eingeschr\u00e4nkt wird. Das Ziel von einfacher Sprache ist es, Fachinhalte f\u00fcr Laien zug\u00e4nglich zu machen, ohne unbedingt auf die besonderen Bed\u00fcrfnisse von Menschen mit Legasthenie oder kognitiven Einschr\u00e4nkungen einzugehen. Leichte Sprache hingegen ist stark eingeschr\u00e4nkt und setzt sogar spezielle Formatierungen ein, um die Lesbarkeit ihrer Texte zu verbessern. Zu diesen Formatierungen geh\u00f6rt die visuelle Trennung von zusammengesetzten Substantiven und einzelnen S\u00e4tzen, d. h. es wird nur ein Satz pro Zeile geschrieben. Au\u00dferdem enth\u00e4lt die Leichte Sprache in der Regel umfangreiche Kontextualisierungen und Erkl\u00e4rungen von verschiedenen Begriffen. Obwohl wir im Deutschen zwischen den beiden Formen der Leichten Sprache unterscheiden, gibt es keine spezifischen Regeln, die man anwenden kann, um diese Formen der Vereinfachung zu erreichen. Es gibt nur wenige Quellen zur Formalisierung, eine wertvolle Quelle im Deutschen ist <a href=\"https:\/\/www.frank-timme.de\/de\/programm\/produkt\/easy_language-plain_language-easy_language_plus?file=\/site\/assets\/files\/4582\/easy_language_-_plain_language_-_easy_language_plus.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">Maa\u00df 2020<\/a>. Die Autorin beschreibt insbesondere den Balanceakt der zwei Formalisierungsans\u00e4tze zwischen Zug\u00e4nglichkeit und Akzeptanz. Wenn wir uns die Leichte Sprache und die Einfache Sprache ansehen, k\u00f6nnen wir leicht feststellen, dass die Leichte Sprache zwar sehr zug\u00e4nglich ist, aber nur von einer eher kleinen Gruppe von Menschen verwendet wird, w\u00e4hrend die Einfache Sprache f\u00fcr die meisten von uns leicht lesbar, aber nicht so zug\u00e4nglich ist.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/table-simple-english-1-1024x255.png\" alt=\"Table simple english from wikipedia | Tabelle &quot;simple english&quot; von wikipedia\" class=\"wp-image-31767\" title=\"\"><figcaption class=\"wp-element-caption\">Abbildung 1: Beispiele f\u00fcr Satzvereinfachung im Englischen aus dem Simple English Wikipedia Dataset. Das erste Beispiel zeigt die Umformulierung einer Metapher und das zweite Beispiel vereinfacht durch das Umformulieren und Weglassen von Informationen.<\/figcaption><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/table-simple-german-1-1024x439.png\" alt=\"Table simple german\" class=\"wp-image-31769\" title=\"\"><figcaption class=\"wp-element-caption\">Abbildung 2: Beispiele f\u00fcr die Satzvereinfachung im Deutschen aus dem Datensatz A New Aligned Simple German Dataset. Das erste Beispiel ist in Einfacher Sprache, das zweite Beispiel in Leichter Sprache.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Zur\u00fcck zum Maschinellen Lernen und der Frage, wie wir Textvereinfachung automatisieren k\u00f6nnen<\/h2>\n\n\n\n<p>Im Bereich der Verarbeitung von nat\u00fcrlicher Sprache ist die Vereinfachung von Texten ein langj\u00e4hriges Forschungsthema und es gibt verschiedene Ans\u00e4tze, um komplexe Texte leichter zug\u00e4nglich zu machen.<\/p>\n\n\n\n<p>Wir k\u00f6nnen diese Ans\u00e4tze in drei Kategorien einteilen:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong><\/strong><strong>Regelbasierte Ans\u00e4tze<\/strong> geh\u00f6ren zu den fr\u00fchesten Methoden und beinhalten linguistische Regeln, auf deren Grundlage S\u00e4tze vereinfacht werden. Die Teilung von S\u00e4tzen und das Ersetzen komplexer Begriffe durch einfachere Synonyme werden h\u00e4ufig verwendet. Diese Regeln wurden nicht nur von Hand entwickelt, sondern beruhen auch auf dem Nachschlagen in W\u00f6rterb\u00fcchern f\u00fcr die lexikalischen Substitutionen. Eine m\u00f6gliche Strategie zur semantischen Vereinfachung k\u00f6nnte wie folgt aussehen:<br>Ein Eingabesatz wird zun\u00e4chst explizit in Token umgewandelt (d.h. in seine einzelnen Bestandteile wie W\u00f6rter und Satzzeichen zerlegt) und dann mit Part-of-Speech-Tags versehen (d.h. jedes Wort wird einer grammatischen Klasse wie z.B. Verb, Adjektiv, Adverb usw. zugeordnet). Auf der Grundlage der W\u00f6rter und ihrer Tags werden Synonyme in einem Thesaurus nachgeschlagen und zum Ersetzen verwendet, wenn das Synonym gemessen an einer umfangreichen Textquelle h\u00e4ufiger vorkommt als das urspr\u00fcngliche Wort. Um die grammatikalische Korrektheit zu wahren, m\u00fcssen einige weitere Details ber\u00fccksichtigt werden. Beachten Sie, dass bei dieser Strategie die syntaktische Komplexit\u00e4t des Satzes nicht ber\u00fccksichtigt wird.<\/li>\n\n\n\n<li><strong><\/strong><strong>Modelle des Maschinellen Lernens<\/strong> k\u00f6nnen zur Textvereinfachung eingesetzt werden, indem das Problem als \u00dcbersetzungsaufgabe behandelt wird. Dies erfordert einen parallelen Datensatz mit S\u00e4tzen in Alltagssprache und ihrer vereinfachten Version. Dann k\u00f6nnen verschiedene Architekturen von neuronalen Netzen verwendet werden, um die \u00dcbersetzung von einem Satz in einen anderen Satz zu lernen. Die Erwartung ist, dass das Modell alle Regeln und Operationen implizit lernt, die in den regelbasierten Ans\u00e4tzen explizit definiert sind, indem man dem Modell einfach nur Satzpaare in Alltagssprache und vereinfachter Sprache zeigt.<\/li>\n\n\n\n<li><strong><\/strong><strong>Transformer-basierte gro\u00dfe Sprachmodelle<\/strong> wie GPT-3 schlie\u00dflich, die durch die Ber\u00fccksichtigung des Kontextes eines Satzes komplizierte Sprachnuancen besser erfassen, produzieren m\u00fchelos koh\u00e4rente S\u00e4tze. Dies ist einer der Gr\u00fcnde, warum sie so schnell an Popularit\u00e4t gewonnen haben. Sie k\u00f6nnen auch zur Vereinfachung von Texten eingesetzt werden, wobei allerdings eine gut formulierte Eingabe erforderlich ist, um den gew\u00fcnschten Grad der Vereinfachung zu erreichen. Au\u00dferdem muss bei der Benutzung besonders darauf geachtet werden, dass die Vereinfachung den urspr\u00fcnglichen Inhalt des Eingabesatzes wiedergibt, also sachlich korrekt bleibt.<\/li>\n<\/ol>\n\n\n\n<h2 class=\"wp-block-heading\">Welche ML-Methode ist am besten geeignet, und wo finde ich einen Datensatz auf Deutsch?<\/h2>\n\n\n\n<p>Zum Abschluss dieser Einf\u00fchrung in die Textvereinfachung wird deutlich, dass sprachliche Barrierefreiheit f\u00fcr viele Gruppen unserer Gesellschaft eine Frage der Selbstverst\u00e4ndlichkeit geworden ist. Trotz der Allgegenw\u00e4rtigkeit von ChatGPT und anderen gro\u00dfen Sprachmodellen in der Wissenschaft und \u00d6ffentlichkeit, gibt es mehrere Vorteile bei der Verwendung traditioneller ML-Lernmodelle wie rekurrente neuronale Netze (RNNs) und Long Short-Term Memory Networks (LSTMs). Zum Beispiel sind sie in der Regel kleiner und leichter von Grund auf zu trainieren. Wie bereits erw\u00e4hnt, k\u00f6nnen wir, wenn wir die Textvereinfachung als \u00dcbersetzungsaufgabe betrachten, gut etablierte ML-Lerntechniken verwenden. Daf\u00fcr ben\u00f6tigen wir einen parallelen Datensatz mit Satzpaaren in Alltagssprache und einfacher Sprache. Und da wir die Notwendigkeit inklusiver L\u00f6sungen anerkennen, m\u00fcssen wir auch darauf hinweisen, dass die vorhandenen Datens\u00e4tze vorwiegend auf Englisch sind. Andere Sprachen werden oft vernachl\u00e4ssigt. Um die Datensatzlandschaft vielf\u00e4ltiger zu gestalten, haben wir einen neuen, ausgerichteten Datensatz f\u00fcr Einfaches Deutsch ver\u00f6ffentlicht. Neugierig geworden? Im folgenden Blogbeitrag werden wir den Entstehungsprozess erl\u00e4utern und uns auf die technische Seite der Satzausrichtung konzentrieren. Bleiben Sie also dran!<\/p>\n\n\n\n<p>Hier finden Sie unseren Datensatz f\u00fcr Einfaches Deutsch: <a href=\"https:\/\/github.com\/mlai-bonn\/Simple-German-Corpus\" target=\"_blank\" rel=\"noreferrer noopener\">https:\/\/github.com\/mlai-bonn\/Simple-German-Corpus<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Textvereinfachung macht unsere Schriftsprache zug\u00e4nglicher. Entdecken Sie, was Textvereinfachung umfasst, wer davon profitiert, und welche Verbindung zur Lesbarkeitsbewertung bestehen. Erhalten Sie einen \u00dcberblick \u00fcber die verschiedenen ML-Ans\u00e4tze zur automatisierten Textvereinfachung.<\/p>\n","protected":false},"author":16,"featured_media":3867,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,390,438,1418],"blog-tag":[1451,1533,1559],"class_list":["post-4895","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-grundlagen","blog-category-ki-ethik","blog-category-sprachtechnologien","blog-tag-barrierefreiheit","blog-tag-klassifikation","blog-tag-nlp-de"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4895","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/16"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4895\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/3867"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4895"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4895"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4895"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}