Torsten Meyer, Hamburg

Über Gott und das Web, Suchmaschinen und Allgemeinbildung

Ein Jahrhundert nach dem von Nietzsche diagnostizierten Tod Gottes las ich in der taz, im Allgemeinen eine Zeitung, die durchaus am Puls der Zeit operiert: "Gott wohnt im Internet"(1).
Klaus Kreimeier schreibt dort: "Zur Zeit hat er weit mehr als fünf Millionen Web-Adressen." Was heißt das?

Gottes Web-Adressen wird Kreimeier mit einer Search-Engine gefunden haben, vermutlich Altavista. Altavista ist immer gut, wenn man große Zahlen braucht.
Der direkte Vergleich belegt: Altavista lieferte am 30.11.1998 auf die Suchanfrage "god" 5.497.040 Fundstellen, Exite 631.194 und Yahoo 1.179. Die Unterschiede sind auffällig — alle drei Suchmaschinen suchen angeblich im selben Datenbestand und alle beanspruchen "guide to the web" zu sein.
Das für Altavista, Exite, Yahoo etc. relevante "web" besteht aus — wie manche sagen: einem — HyperText, der sich im Mai 1996 aus ca. 50 Millionen Dokumenten zusammensetzte, die durchschnittlich 500 Worte enthalten. Das macht zusammen 25.000.000.000 Worte(2).
"The web" hat eine monatliche Wachstumsrate von ca. 20 %. D. h., dass "the web" mittlerweile die auf 29 Terabyte geschätzte Textinformation der Library of Congress überschritten haben dürfte.
Es ist umstritten, ob "the web" mit einer Bibliothek verglichen werden sollte. Bibliotheken verfügen üblicherweise über Kataloge, verschiedene Indices, über mehr oder weniger einheitliche Signaturen und in der Regel auch über mehr oder weniger hilfsbereites Auskunftspersonal. All das gibt es im "web" nicht.

home

Was heißt nun "Gott habe weit über fünf Millionen web-Adressen"? Für Altavista stellt sich "the web" dar als ein aus ca. 25 Mrd. Worten bestehender Text, genauer gesagt, als 25 Mrd. durch bestimmte Steuerzeichen — für uns Leerzeichen — voneinander getrennte Ansammlungen von Buchstaben, denn die Bedeutung eines Wortes geht an Altavista vorbei.
Suchmaschinen wie Altavista generieren aus den einzelnen Texten des "web" einen sogn. inverted index. Die Texte des "web" werden "Wort für Wort" analysiert. In einer riesigen Kreuztabelle wird für jedes Dokument eine Reihe und für jedes darin vorkommende "Wort" eine Spalte angelegt. Ist ein bestimmtes "Wort" in einem bestimmten Dokument enthalten, so erhält die entsprechende Zelle der Kreuztabelle eine 1, andernfalls eine 0. Für jedes vorkommende Wort wird also nur ein einziges Bit Information gesetzt. Diese Kompression führt dazu, dass "the web" auf ca. 4 % seines tatsächlichen Informationsgehaltes schrumpft.
Bei einer Suchanfrage betreffs "Gott" sucht Altavista in der Spalte "Gott" nach Ja-Bits und antwortet mit einer Liste der Dokumente, deren "Gott-Zelle" eine 1 enthält.
Diese Art Matrix ist semantisch recht unsensibel, wie leicht anhand der Suchergebnisse feststellbar ist. Was einen Index, wie er bei Altavista Verwendung findet, vom Katalog einer Bibliothek unterscheidet, ist die absolute Abwesenheit von Kontext.
Nach dem Prinzip des Kataloges verfährt Yahoo. Die Firma Yahoo beschäftigt zwanzig menschliche Codierer, die ausschließlich damit beschäftigt sind, Webseiten den 20.000 Kategorien zuzuordnen, die die Yahoo-Ontologie bilden.
Relativ zu den ca. 30 Millionen Webseiten, die im inverted index Altavistas komprimiert sind, machen sich die 200.000 bei Yahoo erfaßten Webseiten ziemlich mickrig aus. Die Gründe dafür sind offensichtlich: Während Altavistas vollautomatisiertes System täglich 2,5 Millionen Websites auswerten kann und so etwa zwei Wochen für einen GesamtScan des World-Wide-Web braucht, hat man es bei Yahoo ständig mit den Problemen zu tun, die nur das menschliche Denken hervorbringen kann: Was oder wer garantiert die Einheitlichkeit und Konsistenz dieser Symbolischen Ordnung?
Allein die Konstruktion der Begriffspyramide erscheint als ein durch die (Philosophie-) Geschichte überholtes Projekt, der Versuch, dem exponentiellen Wachstum des "web" auch nur annähernd zu folgen, utopisch.
Yahoo hatte "Gott" lediglich 1.779 mal gefunden. Das Verhältnis von Qualität und Quantität des Kataloges ist hier offenbar ein umgekehrt proportionales: Schon jetzt bildet Yahoo lediglich 0,4 % des "web" ab, bei der derzeitigen Entwicklungsrate wird diese Zahl in naher Zukunft noch unbedeutender. Es wird auf eine Art Best-of-Verzeichnis hinauslaufen. Vom Versprechen des "Guide to the web" wird man sich wohl verabschieden müssen.

Man könnte diese Frage analog an die Erziehungswissenschaft stellen: Kann es zukünftig als ausreichend angesehen werden, auf die Guide-Funktion zu verzichten und sich mit einer Best-of-Lösung zu begnügen?

Als Lösung dieses Dilemmas für den Bereich der Internet-Suchmaschinen wird ein weiterer Typus von Suchalgorithmus gesehen, mit welchem die bereits erwähnte Exite arbeitet. Exite hatte "Gott" immerhin 631.194 mal gefunden.
Auch Exite basiert wie Yahoo auf der Idee einer Universal-Bibliothek. Der wesentliche Unterschied ist jedoch der, dass die Exite-Systematik immer eine Systematik "in progress" bleibt: Auch hier wird mit einem inverted index gearbeitet. Dieser Index wird jedoch dadurch zum Quasi-Katalog, dass Dokumente, die gemeinsame "Worte" enthalten, maschinell geclustert werden. Diese Methode hat den Vorteil, dass etwa bei der Suchanfrage "movie" auch Dokumente angezeigt werden, die das Wort "film" enthalten, weil in beiden die Worte "director" und "actor" vorkommen.
Neben dem Synonym-Problem, ist bei diesem Verfahren auch das Homonym-Problem gelöst. Wird etwa nach "film" gesucht, bietet Exite zunächst sowohl Dokumente an, die den Begriff "film" als "movie" enthalten, als auch solche, in denen etwa von einem "Öl-Film" die Rede ist. Per Klick auf "more like this" wird ein Feedback an die Maschine zurückgeschickt, die darauf quasi-semantisch reagiert.
Interessant gegenüber Yahoo ist darüber hinaus, dass selbstorganisierend Änderungen im Klassifikationsschema vorgenommen werden. Tritt etwa das Wort "Bundeskanzler" häufig in Verbindung mit dem Wort "Schröder" auf, so justiert sich die Exite-Systematik automatisch nach und ordnet "Kohl" wieder der Kategorie "vegetables" zu.

Exite ist immer am Puls der Zeit.

Seek and ye shall find

Verbunden mit dem Versprechen, dass, wer suchet, auch finde, war in der Bergpredigt(3) die Auflage des Glaubens an Gott.

Comenius etwa vertraute der Vorsehung Gottes und setzte seine Didaktik auf diese Basis: "Das menschliche Gluckwesen ist nit zuzuschreiben dem Glück oder dem Zufall oder den Stern-Einflüssen, sondern Gottes allsehendem Aug [2] und dessen allregirender Hand [3]". (Beachten Sie auch den sich auf Gott beziehenden Pädagogen [4])(4)

Das kann man metaphorisch auf den Gebrauch von Internet-Suchmaschinen übertragen. Vertraut man in moderne statistische Verfahren, wie sie bei Exite in die Konstruktion der Such-Algorithmen eingeflossen sind, so wird man fündig.
Die Konsistenz dieses Systems basiert auf der gegenseitigen Verknüpfung von Signifikanten. Das System ist pseudo-semantisch, weil diese Signifikanten für Exite in keinerlei Beziehung zu irgendwelchen Signifikaten stehen. Intern repräsentieren die Signifikanten nicht die Signifikate, sondern sind Signifikate.
Bedeutung gewinnt Exite ausschließlich aus den Korrelationen der Signifikanten. Sinn entsteht hier dadurch, dass "Gott" in einer abgeschlossenen Menge anderer Signifikanten existiert und mit bestimmten anderen Elementen dieser Menge korreliert wurde.
Im Gegensatz zum Yahoo‘schen Verfahren und dem der Bibliothek bildet sich die innere Struktur des von Exite erfaßten Text-Universums völlig autark. Es sind keine Bibliothekare, keine menschlichen Codierer und auch keine Leser erforderlich. Selbst das semantische Update besorgt der Exite-Spider ganz allein, indem er sich von Link zu Link durchs "web" wühlt und aufgrund jedes neuen Textes die eigene Binnenstruktur anpaßt.
Einmal in Gang gesetzt, ist das Exite‘sche Text-Universum eine geschlossene signifikante Ordnung, die ihre Struktur einzig aus der Menge der erfaßten "Worte" auf Basis des vorprogrammierten Algorithmus gewinnt. Damit stehen Suchmaschinen wie Exite den Texten des "web" nicht nur als Werkzeuge gegenüber, sondern sie sind die eigentliche Struktur, der die einzelnen Texte nur zuarbeiten: Einerseits Maschinen zur Erschließung, andererseits aber semantisches Kondensat.

Zeichenmacher

Nach Winkler, auf dessen Argumentation ich mich hier wesentlich stütze(5), imitieren Semantische Suchmaschinen — wenn auch unvollkommen — den Mechanismus der Sprache, genauer gesagt: den Mechanismus, mit dem Sprache zu ihren Begriffen kommt.
Das sprachliche System bildet sich aus dem Diskurs, aus der Gesamtheit der sich im Gebrauch verdichtenden und verschiebenden sprachlichen Äußerungen des Sprachkollektivs. Ganz analog zur Lacanschen Konzeption der Signifikantenkette entsteht der Wert, d.h. die Struktur des Systems, durch die Differenzen, die sich durch die Korrelationen und Nicht-Korrelationen der Signifikanten im geclusterten inverted index aufspannen. Jeder einzelne potentielle Suchbegriff gewinnt seinen Sinn nur aus dem Verhältnis zur Gesamtheit des Repertoires.
Während sich in der Lacanschen Zeichentheorie die Verdichtungen und Verschiebungen der Signifikantenkette im Imaginären als abstrakter Abzug des Sprechens niederschlagen, der das Symbolische strukturiert, ist es im Falle Exites quasi der "Heilige Geist" der Maschine, der den Glauben an den Vater als Garanten der Ordnung stiftet.
Der Vater der Maschine ist jener interne Algorithmus, ohne den die Symbolische Ordnung Exites keine differentielle Struktur ergäbe — die Kopula, die das Gefüge der Signifikanten organisiert und topologisch zusammenhält.

Instabilitäten

In die Symbolische Ordnung Exites kann man sich einschreiben. Dadurch, dass die Exite-Systematik nicht deduktiv, von oben nach unten wie die Ontologien, sondern induktiv, "from the bottom up" — ganz empirisch — aufgebaut wird, kann man somit auch die semantische Struktur dieses Text-Universums — in Grenzen versteht sich — umschreiben. Das hat durchaus etwas demokratisches.
In der sanften Hügellandschaft geclusterter Semantik-Häufchen kann man dann beobachten, wie sich etwa jenes Cluster signifikant wölbt, das aufgrund der Begriffskorrelation von "Penis" und "Clinton" besteht, wenn Kenneth Starr sich in die Symbolische Ordnung einschreibt. Das Problem der Organisation von Wissen liegt nicht so sehr in der Menge oder Beschaffenheit des Wissens, sondern in der Menge der Menschen, die an seiner Produktion beteiligt sind.
Dass der statistische Exite-Algorithmus die natürliche Sprache nur sehr unvollkommen modelliert, ist unbestritten. Dennoch ergeben sich, wenn auch nur metaphorisch, einige Fragen für pädagogische Diskussion: Wie etwa kann man das Allgemeine zu fassen kriegen, das für den Begriff der "Allgemeinbildung" konstitutiv ist?
Comenius konnte noch von der Pampaedia träumen, weil ein universales Bezugssystem zu seiner Zeit Bestand hatte. Der orbis sensualium pictus — als Versuch das gesamte Wissen der Zeit enzyklopädisch und anschaulich zu vermitteln — konnte sich noch auf die ordnende Hand des Heiligen Vaters verlassen. Für die komplexen ausdifferenzierten Gesellschaften modernen Typs jedoch, die von existentieller und diskursiver Pluralität getragen werden, kann man mit Woody Allen nur noch sagen: "Daddy is getting out of focus."

Out of focus: die Affirmation der zentralen Figur, des "actors", des Vaters, hinterläßt ein leeres Zentrum. Woody Allen erzählt in "Deconstructing Harry" die Geschichte eines Schauspielers, der zunehmend unscharf wird.


(1) Kreimeier, Klaus: Gott wohnt im Internet, in: taz, die Tageszeitung, vom 25.11.1998, S. 12
(2) Vgl. Steinberg, Steve G.: Seek and ye shall find (Maybe). In: Wired, Nr 4,05 Mai 1996, 108 - 114, 174 - 182, und online: http://www.wired.com/wired/archive/4.05/indexweb_pr.html (30.11.1998); auch die folgenden Zahlen und Sachaussagen bzgl. Der Internet-Suchmaschinen stützen sich auf diese Quelle.
(3) Matthäus 7.7
(4) Comenius, Johann Amos: Orbis sensualium pictus. (Nachdruck) Dortmund: Harenberg 1991, "Die Vorsehung Gottes", 304
(5) Vgl. Winkler, Hartmut: Suchmaschinen. Metamedien im Internet? http://www.rz.uni-frankfurt.de/~winkler/suchmasc.html