Skip to main content


Zutaten: Zucker, Kakaomasse (50%), Milchzucker, Weizenmehl, Vollmilchpulver, Magermilchpulver, Butterreinfett, Sahnepulver, Butter (1,4%)
Kann Spuren von Analysis und Geometrie enthalten.

IV_10_titel_haeufigkeit

Die Shannon-Formel zum Informationsgehalt

Rike und Ben sind in Berlin angekommen. In ihrem Institut für KI gibt es flache Hierarchien, nicht so wie an der Uni, wo ein „weiser“ Prof. die Themen bestimmt. Jetzt erarbeiten sich alle das Wissen zusammen und tauschen sich darüber aus.

Sie fangen mit Text an und fragen, ob ein Text einen Informationsgehalt hat. Das ist schwer zu beantworten, man muss es auf Wörter und Buchstaben herunterbrechen. Rike soll einen kleinen Vortrag darüber halten. Sie sucht viele Bücher über Information in Texten zusammen, sie vergisst ihre Umgebung, gedankenverloren sitzt sie inmittten eines unaufgeräumten Bücherstapels bis Ben kommt und ihr hilft.

Ben Hi, Rike, ist alles okay?

Rike Ben, ich finde mein Thema echt schwierig. Informationsgehalt von Texten! Ich finde schon den Informationsbegriff so schwierig, viel schwieriger als eine Wahrscheinlichkeitsverteilung. Bei Wiki finde ich die Häufigkeitsverteilung von den einzelnen Buchstaben in deutschen Texten, das prüfe ich jetzt erst mal nach.

Ben Gut!

Buchstabenhäufigkeiten in "Effi Briest"

Rike Da habe ich mir den Effi-Briest-Text genommen und die folgenden Häufigkeiten gefunden:

BuchstabeAbs. HäufigkeitRel. Häufigkeit pkRang k
e73 6400,15701
n48 3710,10312
i39 2500,08373
r30 3030,06464
s30 1120,06425
a29 5660,06306
h26 7670,05717
t26 7400,05708
d23 4320,05009
u17 6710,037710
c17 0260,036311
l16 6210,035412
g13 1240,028013
m12 5700,026814
o11 2960,024115
w9 2990,019816
b9 2880,019817
f7 6420,016318
k5 4800,011719
z4 7320,010120
v3 3610,007221
ü3 1490,006722
p2 6330,005623
ä2 2400,004824
ß2 2160,004725
j1 2650,002726
ö9920,002127
y790,000228
q760,000229
x350,000130

Tabelle der Buchstabenhäufigkeiten im Roman „Effi Briest“ von Th. Fontane.

Da kann ich gut die relative Häufigkeit ausrechnen (bei insgesamt 468 976 vorkommenden Buchstaben). Ich habe zu jedem Buchstaben den „Rang“ k eingeführt, eine Art Sortierung. pk ist die Wahrscheinlichkeit, dass der k-te Buchstabe im Text vorkommt, das ist gerade die relative Häufigkeit.

Ben Gut.

Rike Zu jedem Buchstaben kann ich einen Erwartungswert E(xk) ausrechnen, x_k ist das Ereignis, den Buchstaben k bei einer Auswahl eines Buchstabens aus dem Text anzutreffen:

IV_10_formel_01_01

Da hat der 8. Buchstabe, das "t", den größten Wert. Das kann ich auch mitteln über alle Buchstaben und erhalte den Erwartungswert der Zufallsgröße X, die die Buchstabenverteilung im Text beschreibt.

Das ergibt hier:

Das bedeutet, dass ich im Mittel den 7. Buchstaben antreffe, das "h". Bei einer Gleichverteilung oder bei einer zentrierten Normalverteilung wäre das der 15. (von 30) Buchstaben, das "o".

Aber was liefert mir die Shannon-Formel?

Die Shannon-Formel für den Informationsgehalt

Ben Die Shannon-Formel

IV_10_formel_01_03

beschreibt den Informationgehalt des Ereignisses xk, das sieht so aus:

IV_10_shannon_05-06
Der Informationsgehalt Ik für Ereignisse mit Wahrscheinlichkeiten pk = 2-k

Löse Dich mal vom konkreten Text und denke mal wie ein Informatiker, wie in guten alten Zeiten mit der Turingmaschine und so.

Rike Hm. Cooles Diagramm, nach rechts werden die Zahlen immer kleiner!

Die Shannon-Formel für spezielle Häufigkeiten

Ben Hättest Du mir gar nicht zugetraut! Nehmen wir mal an, wir haben ein Ereignis x_0 mit Wahrscheinlichkeit

IV_10_formel_01_04

Dann hat das Eintreten des Ereignisses keine Information, es ist „sicher“, sagen die Mathematiker.  Shannon sagt,

IV_10_formel_01_05

Rike Gut.

Ben Weiter, nehmen wir

IV_10_formel_01_06

Dann berechnen wir

IV_10_formel_01_07

Rike Na gut! Was ist das mit dem “Bit”?

Ben Das ist eine Pseudoeinheit für die Anzahl der Stellen in Binärdarstellung, aber das will ich Dir gerade erklären. Allgemein nimmt man die Logarithmengesetze und kommt für
IV_10_formel_01_08

auf:

IV_10_formel_01_09

Verstehst Du Rike, der Informationsgehalt für ein Ereignis mit Wahrscheinlichkeit 2-k ist k.

Informationsgehalt einzelner Buchstaben bei "Effi Briest"

Rike Okay, das ist die Anzahl der Stellen, die die Turingmaschine braucht, um 2-k binär zu schreiben, Deine Bits. Toll! Verstehe! Die Buchstaben mit kleinerer Häufigkeit haben die größere Information. Warte, jetzt rechne ich das aus:

IV_10_shannon_04-04
Informationsgehalt der Buchstaben im Effi-Briest-Text – sortiert nach ihrem Rang k.

Ben Richtig. Jetzt kannst Du noch den Erwartungswert der Information für jeden Buchstaben ausrechen:

IV_10_formel_01_10

IV_10_shannon_06-04
Vergleich des Erwartungswertes für den Informationsgehalt E(Ik) (in blau) des k-ten Buchstabens (k ist der Rang des Buchstabens) mit dem Erwartungswert E(xk) (in orange) für den Effi-Briest-Roman.

Ben Dann kannst Du natürlich auch den Erwartungswert der Information insgesamt berechnen, was gibt das denn?

Mittlerer Informationsgehalt

Rike Warte!

IV_10_formel_01_11

Ben Schön, im Mittel haben wir einen Informationsgehalt von 4. Das ist nicht viel, das hat Fontane gut gemacht!

***

Übungsaufgabe

Berechne E(I) und E(X) für einen anderen digital verfügbaren Text.

Lösung

IV_10_shannon_mirzakhani-eskin_06-07
Vergleich des Erwartungswertes für den Informationsgehalt E(Ik) (in blau) mit dem Erwartungswert E(xk) (in orange) für "Invariant and stationary measures for the SL(2,R) action on Moduli space" von Alex Eskin u. Maryam Mirzakhani.

 

IV_10_shannon_wittgenstein_06-06
E(Ik) (in blau) und E(xk) (in orange) für "Tractatus logico-philosophicus" von Ludwig Wittgenstein.