Skip to main content


Zutaten: Zucker, Kakaomasse (50%), Milchzucker, Weizenmehl, Vollmilchpulver, Magermilchpulver, Butterreinfett, Sahnepulver, Butter (1,4%)
Kann Spuren von Analysis und Geometrie enthalten.

58-titel-hochsitz

Wie man mit Mannigfaltigkeiten Effi Briest noch besser versteht

Rike und Paula machen einen Spaziergang. Sie entdecken einen Hochsitz und klettern hinauf.

Rike Was hat Herr Grimm zu unserem semantischen Vektorraummodell gesagt?

Paula Er fand es sehr gut, er war richtig begeistert. Wir haben überlegt, ob wir noch mehr oder gar alle Lexeme auf ihre Dornseiff-Bedeutungsgruppen untersuchen. Effi kam allein 678 mal vor. Er hatte Lust, dafür selbst die Bedeutungen zu finden, denn die stehen nicht im Wortschatz der Uni Leipzig.

Rike Ja, das wär toll, wenn noch mehr Leute mitmachen.

Paula Stimmt. Wenn wir nun schon ausrechnen können, dass es bei Effi Briest keine Abhängigkeit in der Schwangerschafts-Wort-Kontext-Matrix gibt, sagt Herr Grimm, dann könnten wir vielleicht auch jedes Wort allein mit seinen Bedeutungen messen?

2D-Beispiel (N=M=2)

Rike Hey, das ist eine coole Frage. Ja, wir können das versuchen. Wir hatten letztens zuerst das 2x2-Beispiel mit den Lexemen

  1. GEBURT
  2. WARTEN

und den Kontexte

  1. Geburt
  2. beginnen

In Effi Briest wurde das 1. Wort (Lexem) nur im 2. Sinne benutzt, das 2. Wort nur im 1. Sinne. So sind wir auf die Matrix

martix p 2x2

gekommen. In der Matrix \(P\) können wir jede Zeile als Vektor \(p^{(k)}\) auffassen. Die nennen wir Wort-Kontext-Vektoren. Ein solcher Vektor beschreibt die Häufigkeit des Vorkommens der verschiedenen Kontexte zum Wort mit der Nummer \(k\).

Paula Stimmt.

Rike Wir haben

\(p^{(1)} = (0, 1)\),

und

\(p^{(2)} = (1,0)\)

\(p^{(1)}\) gehört zum 1. Wort GEBURT mit seinem Kontext beginnen, \(p^{(2)}\) zum 2. Wort WARTEN und seinem Kontext Geburt.

Paula OK

Rike Beide haben die euklidische Norm 1. Das ist ganz praktisch.

Länge eines Vektors

Paula Euklidische Norm?

Rike Man setzt als Norm oder Länge eines Vektors

\(\Vert p\Vert:= \sqrt{\sum_l p_l^2}\)

und rechnet wie beim Satz des Pythagoras.

Paula OK, die Norm ist die Länge!

Rike Wenn wir \(p^{(1)}\) und \(p^{(2)}\) zeichnen, sehen wir, dass sie senkrecht aufeinander stehen. Wir können den Winkel auch ausrechnen, wenn wir das Skalarprodukt benutzten:

Skalarprodukt und Winkel zweier Vektoren

Paula Ja, das weiß ich schon.

\(\lt p^{(1)},p^{(2)}\gt = \sum_l p^{(1)}_l p^{(2)}_l\)

und

\(\cos \varphi = \frac{}{\Vert p^{(1)}\Vert \cdot \Vert p^{(2)}\Vert}\)

Rike Dann lass uns das ausrechnen:

\(\lt p^{(1)}, p^{(2)}\gt = 0 \cdot 1 + 1 \cdot 0 = 0 + 0 = 0\)

\(\varphi = \arccos 0 = 90\)°.

58_render_2d-winkel_04

Abstand zweier Wörter

Paula Stimmt.

Rike Außerdem können wir den Abstand \(d\) der beiden Wort-Kontext-Vektoren auf dem Kreis berechnen.

58_2d-geodaete_04

Wir nehmen jetzt die Punkte \(P^{(1)}\) und \(P^{(2)}\), auf die die Vektoren zeigen. Die beiden Punkte liegen auf den Kreis und auf dem haben sie einen Abstand.

Paula Klar, einen Viertel Kreisumfang, das ist das Bogenmaß von 90°, also \(\pi/2\).

Rike Stimmt.

Paula Können die Punkte auch entgegengesetzt sein, wie manchmal ihre Bedeutungen?

Rike  Nein, in diesem semantischen Vektorraummodell geht das nicht. Wir haben nur Koeffizienten in der Matrix \(P = (p_ij)\), die größer oder gleich Null sind:

\(p_{ij} \ge 0\;\forall i,j\)

Paula Richtig, die \(o_{ij}\) sind ja Häufigkeiten. Dann ist 90° schon der größte Winkel und

\(d = \pi/2=1,57\) [LE]

der größte Abstand.

Mehrdimensionales Beispiel (M=6, N=16)

Rike  Ja.

Paula  Wie geht das bei den anderen Wörtern?

Rike  Das geht so: Wir nehmen die Wörter \(w^{(i)}\) aus dem Geburts-Beispiel. Die Matrix

formel_p_matrix_01

hat 6 Zeilen und 16 Spalten. Wir nennen die Vektoren aus Zeilen wieder \(p^{(k)}\). Sie gehören zu den Wörtern (Lexemen) und beinhalten die Häufigkeit der 16 Kontexte:

  1. GEBURT \(\sim p^{(1)}=(0,1,0,\dots,0)\)
  2. WARTEN \(\sim p^{(2)}=(1,0,2,1,0,0,0,0,1,0,3,2,11,1,14,1)\)
  3. BEVORSTEHEN \(\sim p^{(3)}=(3,0,1,2,0,0,0,0,0,1,0,0,0,0,1,2)\)
  4. LAUFEN \(\sim p^{(4)}=(1,0,0,0,1,1,1,0,1,0,0,\dots)\)
  5. RENNEN \(\sim p^{(5)}=(1,0,0,0,1,1,1,1,0,0,1,0\dots)\)
  6. ERWARTEN \(\sim p^{(6)}=(1,0,4,0,0,0,0,0,0,0,0,0,23,0,\dots)\)

Diese 6 Lexeme nehmen insgesamt 16 verschiedene Bedeutungen an.

Paula  Ja.

Rike  Diese 6 Vektoren \(p^{(k)}\) untersucht man nun im 16-dimensionalen Raum. Dafür wären Mannigfaltigkeiten – am besten graßmannsche – das Richtige. Wir nehmen mal etwas Äquivalentes. Dazu teilen wir die Vektoren durch ihre Länge, wir brauchen nur ihre Richtung. Sie liegen im 16-dimensionalen Raum, aber wegen der Normierung auf die Länge 1 fällt ein Freiheitsgrad weg. Paula, ich hoffe, Du kannst Dir eine 15-dimensionale Kugel vorstellen?

Paula Hmmm, ich versuch's.

Die Mannigfaltigkeit zu P

Rike  Weil \(P\) nur positive Koeffizienten hat, kriegen wir nur einen Teil der Kugel, eine hübsche Mannigfaltigkeit.

58_3d_mannigfaltigk_14

 

58_3d_alle_perspektive_15
Effi-Briest-Wort-Kontext-Punkte \(P^{(i)}\) auf der Viertelkugel

Paula Wir haben zwar keine entgegengesetzten Wörter, aber wenn ich da ganz oben bin, so wie jetzt hier, sehe ich doch nicht viel, auf keinen Fall die Punkte, deren Vektoren senkrecht zu meinem stehen.

 

58_3d_persektive_31
Paulas Blick von oben auf die Effi-Briest-Wort-Kontext-Vektoren \(p^{(i)}\)

Rike Ja, stimmt, man könnte eine Art Horizont einführen. Tatsächlich kann man sogar auf der Oberfläche von einem Wort zum nächsten gehen, die Zeit einführen, und so Effi Briest als Kurve auf einer Mannigfaltigkeit betrachten. Für den ganzen Roman haben wir vielleicht 1000 Lexeme und 3000 Bedeutungen.

Paula Oooh!

Rike Wir haben ja bis jetzt nur die Story mit der Geburt analysiert. Erstmal messen wir Winkel zwischen den Wort-Kontext-Vektoren.

Paula  Hmmm. Wie geht das?

Rike  Wir können die Winkel zwischen je zwei Wort-Kontext-Vektoren \(p^{(i)}\) und \(p^{(j)}\)  berechnen, so wie eben:

\(\cos \varphi = \frac{\lt p^{(i)},p^{(j)}\gt }{\Vert p^{(i)}\Vert \cdot \Vert p^{(j)}\Vert}\)

Paula  Ja, das geht. Ich glaube, GEBURT steht senkrecht auf WARTEN, BEVORSTEHEN, LAUFEN, …, ja auf allen.

Rike Richtig!

58_3d_winkel_16

Abstand zweier Wörter im 15-Dimensionalen

Paula Aber wie berechnet man den Abstand \(d\) von zwei Wörtern auf der 15-dimensionalen Kugel?

Rike  So wie im 2-dimensionalen Fall, wie nehmen das Bogenmaß des Winkels \(\varphi\). Weil unser Radius 1 ist, passt das.

58_3d_geodaete_16
Abstand \(d\) zweier Effi-Briest-Wort-Kontext-Punkte als Geodäte auf der Kugel

 

Paula Hey, ist ja cool. Dann haben alle unsere Lexeme zu GEBURT den maximalen Abstand 1,57. Lass uns mal den Abstand von, na, sagen wir mal: LAUFEN und RENNEN berechnen:

\(\cos \varphi = \frac{\lt p^{(4)},p^{(5)}\gt }{\Vert p^{(4)}\Vert \cdot \Vert p^{(5)}\Vert}\)

\(=\frac{1\cdot 1 + 0 + 0 + 0 + 1\cdot 1 + 1\cdot 1 + 1\cdot 1}{\sqrt{1 + 0 + 0 + 0+ 1 + 1+ 1+1}\;\cdot\;\sqrt{1+0+0+0+1+1+1+1+1}}\)

\(=\frac{4}{\sqrt{5}\;\cdot\;\sqrt{6}}\)

\(=0,73\)

\(\varphi = \arccos 0,73 = 43\)°\(=0,75 \)

\(d=0,75 \) [LE]

Rike  Hey!

Fazit

Paula Bei uns hat sich ein merkwürdiges Muster ergeben, GEBURT ist auf dem Gipfel, die anderen sind unten.

Rike Ja.

Paula Dann bilden die Zeilenvektoren \(p^{(i)}\) der Matrix \(P\) mit ihren Endpunkten \(P^{(i)}\) auf der Viertelkugel mit dem Radius 1 die eigentliche Struktur von Effi Briest im \(\mathbf R^{N-1}\)?

Rike  Ja, man kann ihre topologischen und geometrischen Eigenschaften untersuchen, hmmm, das ist ein weites Feld...

* * *

Übungsaufgabe

Berechne den Winkel zwischen dem Wort-Kontext-Vektoren für WARTEN und BEVORSTEHEN im Roman Effi Briest und den Abstand dieser Vektoren auf der Viertelkugel!

Lösung

\(\varphi=73\)°, \(d=1,29\) [LE]