Eigentlich hatte ich gehofft, einen großen Teil der Arbeit für mein Seminar zu Hypertexten automatisch erledigen zu lassen. Das wäre zwar (weil all die schönen Skripte ja auch erst geschrieben werden wollen) auch zeitaufwändig gewesen, aber wir hätten uns viel mehr Texte anschauen können — mir ist immer noch nicht wohl dabei, von einigen typischen Beispielen auf einen umfassenden Trend zu schließen. Die automatische Textklassifikation und -analyse scheint aber (immer) noch zu viele Probleme zu haben, um "einfach so mal eben" eingesetzt zu werden.
Die Analyse von Texten einfach nur mit statistischen Methoden (also Bayes-Klassifikation zur oder statt Textsortenklassifikation, oder der Versuch, Stiländerungen an statistischen Merkmalen wie Satzlänge und Linkfrequenz festzumachen) ist mir schon vor Weihnachten von Jemandem, der das wissen sollte, und einem Kollegen quasi ausgeredet worden. Na ja, nicht wirklich ausgeredet, aber nachdem ich mich auf einige fiese Probleme hinweisen lassen musste, ist mir dann aufgegangen, dass eine solche Analyse erstens ernsthaft viel Arbeit machen würde und zweitens auch nach der vielen Arbeit nicht allzu aussagekräftig wäre.
Schwierig ist dabei zunächst mal das Erstellen eines brauchbaren Korpus'. Die Texte müssten relativ homogen sein (denn eine Linkliste mit einem Fließtext zu vergleichen, macht natürlich auf keiner Analyseebene Sinn. In Linklisten stehen ja meist nicht einmal vollständige Sätze.), aber nicht so homogen, dass Änderungen im Internetumfeld an ihnen vorübergehen. Denken wir also ab hier mal an eine Sammlung von populärwissenschaftlichen Texten zur Erdgeschichte. Das ist ein Gebiet, in dem nicht so schnell neue Begriffe auftauchen wie z.B. in der Raumfahrt oder der Medizin, und "populärwissenschaftlich" schließt Fachvokabular aus.
Außerdem wäre es schön, wenn parallel dazu noch vergleichbare Texte auf Papier publiziert würden. Vergleichbare, aber nicht gleiche: Nur so kann man sich auch noch den Unterschied zum dead-tree-publishing anschauen. Klappt im Beispiel.
Dann muss man seine Analysemethoden kritisch anschauen: Bayes-Klassifikatoren eignen sich nur in sehr speziellen Ausnahmefällen dazu, Veränderungen an einer Textsorte über einen relativ kurzen Zeitraum zu analysieren. Meine Idee war, im Korpus eine zeitliche Lücke von - sagen wir mal - fünf Jahren zu lassen, so dass die Unterschiede recht deutlich ausfallen würden, und den Klassifikator danach zu fragen, anhand welcher Merkmale er die Texte nun in "alt" und "neu" sortiert hat. Dumm nur, dass die Wahrscheinlichkeit für eine Änderung im verwendeten Vokabular recht klein ist, viel eher würden sich wohl die Satzstrukturen ändern. Die Kreidezeit ist jetzt aber schon ein ganzes Weilchen die Kreidezeit...
Und dass Analysen zu Satzlänge und Linkfrequenz ihre Tücken haben, zeigen folgende Beispiele: Aufzählungen, die, von Kommata getrennt, mitten in verschachtelten, strukturell komplexen Sätzen auftauchen, wie "untere Trias", "mittlere Trias", "obere Trias", "schwarzer Jura", "brauner Jura", "weißer Jura" und so weiter, lassen einfache Algorithmen, wie natürlich auch menschliche Leser, kapitulieren. Und wenn in diesem Satz jetzt auch noch die einzelnen Epochen verlinkt werden...
