Sardis Verlag

Wie macht man eine Wordcloud: Teil I

Sardis VerlagComment

Wir werden immer mal wieder gefragt, wie genau man von dem Text eines Buches zu den von uns verkauften Wordclouds (z.B. neues Testament, altes Testament) kommt. Um diesen Fragen nachzukommen, möchte ich denHerstellungsprozess unserer Literaturwordclouds in einer Reihe von Blogposts dokumentieren. Im diesem Post, dem ersten der Reihe, soll es dabei um die Aufbereitung des Textmaterials im Vorfeld der Wodclouderstellung gehen, während spätere Posts sich mit den grafischen Aspekten der Wordclouds befassen.

Die zentrale Eigenschaft einer Wordcloud ist es, dass die Größe der dargestellten Wörter der Häufigkeit der Wörter im Text entspricht. Man könnte nun naiv annehmen, dass der erste Schritt zum Erschaffen einer Wordcloud darin besteht, den zugehörigen Text zu durchlaufen und die Häufigkeit der auftretenden Wörter zu zählen. Diese Annahme ist zwar prinzipiell richtig, aber leider nur prinzipiell. Denn wie immer, wenn es um menschliche Sprache geht, sind die Dinge weniger eindeutig als als es den Eindruck macht.

An dieser Stelle hilft es zunächst, sich Gedanken darüber zu machen, welche Wörter in einem Text den eigentlichen Inhalt des Textes transportieren. Natürlich leistet jedes Wort in einem Text einen Beitrag zur Bedeutung des Textes, allerdings sind hier nicht alle Klassen von Wörtern gleich. Betrachten wir einmal einen Ausschnitt der Wortfrequenzliste (also wie oft jedes Wort erscheint) des Neuen Testaments nachdem bereits die Satzzeichen entfernt wurden:

Freiheit 12
freilich 1
freist 1
Freistadt 1
freit 8
freiten 1
freiwillig 1
fremd 2
Fremde 1
Fremden 6
fremder 3
fremdes 1
Fremdling 4
Fremdlinge 3
Fremdlingen 2
fressen 6

Hier sehen wir verschiedene Arten von Wörtern, angefangen mit Substantiven wie "Freiheit" über Verben wie "fressen" und Adjektive wie "fremdes" bis hin zu Bindewörtern wie "freilich". Von all diesen Wörtern haben die Bindewörter die niedrigste Informationsdichte und können getrost weggelassen werden. Weiterhin haben sowohl die Verben als auch die Adjektive die Eigenschaft, dass sie ihre Bedeutung primär im Zusammenhang mit anderen Wörtern entfalten. Schließlich bleiben die Substantive, welche gut für sich alleine stehen können. Wenn das Wort "Freiheit" im Text vorkommt, dann wird es dort um Freiheit gehen.

Folglich möchten wir die Substantive in unserer Wordcloud sehen, damit diese möglichst akkurat widerspiegelt, worum es in dem Text geht. Glücklicherweise hilft uns an dieser Stelle eine Besonderheit der deutschen Sprache beim Herausfiltern der Substantive: In deutschem Text beginnen alle Substantive mit einem Großbuchstaben. Auch hier gibt es natürlich wieder Komplikationen, diesmal durch die Tatsache, dass auch nicht-Substantive, die am Satzanfang stehen, groß geschrieben werden.

Nachdem wir alle Wörter, die mit Kleinbuchstaben anfangen herausgesiebt haben und anschließend alle Wörter, die auf einen Punkt, ein Fragezeichen oder ein Ausrufezeichen folgen, händisch in Substantive und nicht-Substantive sortiert haben, erhalten wir eine reduzierte Liste. Der obige Beispielausschnitt sieht dann wie folgt aus:

Freiheit 12
Freistadt 1
Fremde 1
Fremden 6
Fremdling 4
Fremdlinge 3
Fremdlingen 2

Diese Liste ist schon besser, enthält aber immer noch redundante Einträge, da jede grammatikalische Form eines Substantivs als eigenes Wort erkannt wird. Aber auch hier hilft uns die deutsche Sprache, da die meisten deutschen Substantive regelmäßige Flexionen (d.h. grammatikalische Formen) haben.

Dem Buch "Grundriss der Deutschen Grammatik" von Peter Eisenberg entnehmen wir die Wortendungen der vier wichtigsten Flexionsklassen der deutschen Substantive und schreiben ein Skript welches für alle Substantive die verschiedenen grammatikalischen Formen zusammen fasst. Dabei werden die Häufigkeiten der verschiedenen Formen eines Wortes aufsummiert. Wörter, die unregelmäßige Formen haben oder die aus anderen Gründen nicht in das Schema passen werden, nachträglich händisch sortiert.

Bei diesem Vorgang ist es eine stilistische Entscheidung, welche Flexion am Ende übrig bleibt. Im Fall der Bibelwordclouds haben wir uns für den Nominativ Singular entschieden, wobei Wörter die nur im Plural vorkommen im Nominativ Plural stehen. Abschließend wird die Liste noch einmal händisch überprüft, um falsch erkannte Wörter und andere Detailfehler zu beseitigen. Von unserer ursprünglich 16 Einträge langen Beispielliste verbleiben schließlich diese Einträge:

Freiheit 12
Freistadt 1
Fremde 7
Fremdling 9

Die so bereinigte Liste entspricht nun den inhaltlichen Ansprüchen, denen eine Wordcloud genügen muss, und kann somit grafisch weiterverarbeitet werden. Die Details dieses Prozesses werden in einem Folgeblogpost erläutert.