Skip to main content


Zutaten: Zucker, Kakaomasse (50%), Milchzucker, Weizenmehl, Vollmilchpulver, Magermilchpulver, Butterreinfett, Sahnepulver, Butter (1,4%)
Kann Spuren von Analysis und Geometrie enthalten.

59_titel_unterwegs

Wie man mit Abbildungen von Matrizen Effi Briest noch viel besser versteht

Paula und Rike haben für ihre Effi-Briest-Arbeit viel Anerkennung erhalten. Vor allem Deutschlehrerinnen und Deutschlehrer interessieren sich dafür. So gab es auch ein paar Einladungen. Ihre erste Reise geht nach Leipzig. So brausen Rike, Paula und Max in Rikes Auto die Autobahn entlang. Paula sitzt hinten, sie schaut nun doch in Effi Briest hinein. Max soll Fotos und ein Interview machen.

Max Kannst Du mir noch mal erklären, wie Ihr Effi Briest analysiert habt? Paula hats mir schon erklärt, aber ich will die richtigen Fragen im Interview stellen.

Häufigkeitsanalyse von einzelnen Wörtern

Rike Klar, ich versuch‘s. Eine Methode ist die, dass wir Häufigkeiten der Wörter gezählt haben. Wir haben eine mathematische Erklärung für das zipfsche Gesetz gefunden, und das ist die Turingmaschine.

Max OK, was noch?

Rike Die 2. Methode ist das semantische Vektorraummodell.

Max Was ist das?

Das semantische Vektorraummodell

Rike  Wir analysieren die Beziehungen der Wörter zu ihren Bedeutungen.

Max Ja, das ist gut.

Rike Zuerst haben wir Wörter in Klassen zusammengefasst, wir haben konjugierte Wörter, verbale oder substantivische Verwendungen, Einzahl und Mehrzahl vernachlässigt und so Wortklassen (Lexeme) gebildet und dazu ihre Kontexte gegenübergestellt.

Max Verstehe.

Rike Dann haben wir einen kleinen inhaltlichen Zusammenhang aus Effi Briest genommen und den analysiert, und zwar ihre Schwangerschaft und die Geburt ihres Kindes. Wir haben 6 Wortklassen:

  1. GEBURT
  2. WARTEN
  3. BEVORSTEHEN
  4. LAUFEN
  5. RENNEN
  6. ERWARTEN

mit insgesamt 16 Bedeutungen dazu gefunden.

Max OK

Rike Dann haben wir eine Matrix \(P = (p_{ij})\) aufgeschrieben, die an der Stelle \((i,j)\) die Häufigkeiten der \(j\)-ten Bedeutung für das \(i\)-te Wort hat.

formel_p_matrix_01

Max Wie geht das?

Rike Schau mal, in der 1. Zeile haben wir an der 2. Stelle eine 1, das heißt, dass das 1. Wort GEBURT im Sinne der 2. Bedeutung beginnen einmal im ganzen Roman auftritt.

Max Und die 23 in der letzten Zeile gehört dann zu, warte mal, was ist Eurer 6. Wort?

Rike ERWARTEN

Max ... kommt ERWARTEN 23-mal im Sinne Eurer 13. Bedeutung vor, und das ist...

Rike ....im Sinne von Erwartung.

Die Wort-Kontext-Matrix

Max Naja, aber wie habt Ihr das entschieden?

Rike  Paula und ich waren uns immer einig, Paulas Deutschlehrer war einverstanden.

Max Kann es sein, dass jemand anderes vielleicht andere Bedeutungen zugeordnet hätte?

Rike Die Bedeutungsgruppen haben wir aus einer Liste genommen, die Dornseiff aufgestellt hat, und die jetzt von der Uni Leipzig gepflegt werden. Aber die Entscheidung, ob so eine Bedeutung zutrifft, die haben wir gemacht. Dazu muss man die "kulturelle Brille aufsetzen", sagen die Mathematiker.

Max Also ist ein bisschen persönliche Anschauung und ein bisschen Zufall drin?

Rike Ja klar!

Max Und weiter?

Rike Diese Matrix \(P\) bildet den \(\mathbf R^6\) in den \(\mathbf R^{16}\) ab, Paula hat ausgerechnet, dass ihr Rang 6 ist.

Max Aha, was bedeutet das?

Rike Dass die 6 Wörter (Wortklassen) mit ihren Häufigkeiten linear unabhängig sind. Keines kann weggelassen werden.

Max Ok , und weiter?

Rike Wir haben die Zeilen \(p^{(i)}\) der Matrix \(P\) selbst untersucht. Die \(i\)-te Zeile gehört zum \(i\)-ten Wort und hat als Koeffizienten die Häufigkeiten der 16 Bedeutungen. Die Vektoren haben wir alle auf die Länge 1 gebracht und wie im \(\mathbf R^3\) das Skalarprodukt und Winkel zwischen ihnen berechnet.

Max Und?

Rike Wir haben gefunden, dass die 6 Wort-Kontext-Vektoren in verschiedene Richtungen zeigen; und alle sind senkrecht auf dem 2. Wort GEBURT, und dieses Wort GEBURT wird gar nicht im Sinne von Geburt benutzt! Bei Fontane gehen die Wörter und ihre Bedeutungen – wenn man dieselben Wörter dafür hat – weit auseinander. LAUFEN und RENNEN bilden einen Winkel von 43°, WARTEN und BEVORSTEHEN einen von 73°.

Die Wort-Kontext-Punkte auf der Einheitskugel

Max Hey, ist ja cool. Bei mir wär das anders.

Rike Hmm, die Punkte auf der Einheitskugel \(P^{(i)}\), auf die die Vektoren \(p^{(i)}\) zeigen, bilden ein spezielles, diskretes Muster.  Alle denkbaren Häufigkeiten würden eine Fläche bilden, eine Viertelkugel, eine Mannigfaltigkeit.  Darauf können wir die Punkte untersuchen.

59_effi_3d_14

Max Kann man das nicht einfacher machen? 6 Wörter und 16 Bedeutungen, um zu sagen, dass Effi Briest ein Kind bekommt? Kommen da nicht manchmal Missverständnisse auf?

Rike Hey, gute Frage, ja klar, kommen Missverständnisse auf. Die Interpretation bleibt häufig offen. Stell Dir vor, Du machst die Analyse in einer Übersetzung von Effi Briest, sagen wir mal, bei der englischen Effi Briest.

Max Sag mal, dann sieht Eure Matrix \(P\) im Englischen ganz anders aus? Vielleicht keine 16 Bedeutungen und sogar eine lineare Abhängigkeit?

59_effi_engl_15Rike Ja, damit ist zu rechnen. Die Bedeutungen sind vermutlich auch nicht klassifiziert.

Max Dann hätten wir in der englischen Matrix \(P\) auch ein bisschen Zufall und englische Sprachkultur?

Rike Ja

Max Und weiter? Wäre es nicht gut, zum Übersetzen, sag ich mal, wenn man jedem Wort   e i n e   Bedeutung zuordnen könnte? Wäre doch sehr praktisch und vermeidet Missverständnisse?

Stetige Abbildungen der Wort-Kontext-Matrix auf die Identität

Rike Ja, das können wir mit unserer Matrix \(P\) wirklich machen! Wir haben die Matrix \(P\):

formel_p_matrix_02

Da nehmen wir mal die Spalten 2-5, 8 und 13. Und haben die Matrix \(P'\):

formel_p_matrix_03

Max Warum gerade die?

Rike Wir haben dann

\(\det P' \neq 0\).

Max Warum brauchst Du das?

Rike Dann sind die Wörter und die Kontexte von \(P'\) linear unabhängig. Ich lasse die 6. und 7. Spalte weg, dazu gehören die Bedeutungen sich fortbewegen und schnell sein. Die werden in Effi Briest gleich benutzt.

Max Aber wir könnten auch andere Spalten wählen?

Rike Ja, könnten wir, da ist eine gewisse Willkür drin, eben gerade die, die 6 Kontexte von 16 auszuwählen, ich habe jetzt die Bedeutungen:

2. beginnen,
3. Zukunft,
4. baldige Zukunft,
5. sich beeilen,
8. schnell laufen,
13. Erwartung

Jetzt können wir die Matrix \(P'\) in den Raum der \(6 \times 6\)-Matrizen (, der general linear group \(GL(6,n)\)) legen und von dort einen Weg zu einer Matrix mit der 1:1-Zuordnung wählen.

59_effi_weg_31

Diese 1:1-Zuordnung kann man als Einheitsmatrix schreiben, sie heißt oft die Identität Id. Und dieser Weg \(\Gamma (t)\), den wir von \(P'\) zur Identität Id gehen, könnte so aussehen

\(\Gamma (t) = P' + t (Id-P'), t \in [0,1]\)

Max Sag mal, was machst Du?

Rike Ich gehe einen Weg \(\Gamma\) im Raum der Matrizen, wo Du am Anfang bei \(t=0\) Fontanes Wort-Kontext-Zuordnung hast und am Ende bei \(t=1\) eine 1:1-Zuordnung hast.

Max Der Weg des Übersetzers?

Rike Ja, vielleicht kannst Du die besten 6 Kontexte herausfinden?

Max Nein, mache ich nicht, dann bin ich ja Schuld an allen Missverständnissen! Ich möchte doch lieber, dass der Weg des Übersetzers…

Rike … im \(\mathbf R^{6 \times 6}\)

Max …, ja, im \(\mathbf R^{6 \times 6}\) doch nicht bei der Identität endet. Wenn ich mitten drin stehen bleibe, was ist dann?

Shut up and calculate

Rike Das ist nicht schlimm! Kennst Du nicht die Shut up and calculate-Theorie?

Max Was ist das?

Rike Die ist von Max Tegmark und sagt, dass alles Mathematik ist, auch wenn wir was falsch ausrechen.

Max Das gefällt mir!

Rike Da wir sowieso nicht die Welt mit einer einzigen Formel beschreiben können, das hat uns ja Charlotte erklärt, haben wir bei uns die Matrix \(P'\) und den Weg \(\Gamma\), und andere finden eine andere Matrix und einen anderen Weg. Wir sollten uns freuen, wenn wir etwas finden, was gut mit der Realität übereinstimmt, sagt Tegmark. Er sagt sogar, dass es parallele Welten gibt, dass es viele Welten gibt und die Modelle, die wir benutzen, sind unsere Welt und das sind wir.

Max Was????

Rike Ja, Effi Briest ist ein semantisches Vektorraummodell, wir leben im semantischen Vektorraummodell und Effi Briest ist Mathematik!

* * *

Übungsaufgaben

  1. Berechne die Determinante von \(P'\).
  2. Berechne einen Weg des Übersetzers.
  3. Ist dieser Weg sinnvoll?
  4. Finde weitere Untermatrizen von \(P\) mit Determinante ungleich 0.

Lösungen

    1. -19
    2. \(\Gamma (t) = P' + t (Id-P')\)

59_gamma_01_02
59_gamma_0259_gamma_03_02

mit \(t \in [0,1]\).
3.
Ja, er ist stetig von \(P'\) auf die Identität, alle Koeffizienten der Transformation \(\Gamma (t)\) sind nicht negativ, doch leider sind sie niemals gleichzeitig ganzzahlig für \(t\in(0,1)\).