Blog

Journal

Oops

Stresstest der englischen Analyse-Pipeline mit Project-Gutenberg-Texten von Austen, Carroll, Shelley und Melville. Dabei sind vier Fehler aufgefallen, die inzwi

Stresstest der englischen Analyse-Pipeline mit Project-Gutenberg-Texten von Austen, Carroll, Shelley und Melville. Dabei sind vier Fehler aufgefallen, die inzwischen behoben wurden:
TDI war vollständig invertiert
Alle drei Teilbereiche, also Reading Ease, Grade und Fog, liefen in die falsche Richtung. Das ist korrigiert.
„kind of“ wurde ohne Kontext zu grob als Füllphrase erkannt
Formulierungen wie „a kind of ignorant carelessness“ wurden fälschlich markiert. Die Erkennung unterscheidet jetzt zwischen Konstruktionen wie „a kind of …“ und tatsächlichen Hedge-Formulierungen wie „kind of tired“.
Die Passiv-Erkennung war bei literarischen Zustandsbeschreibungen zu aggressiv
Sätze wie „was wrapped in furs“ oder „was bathed in tears“ wurden fälschlich als Passiv markiert. Dafür gibt es jetzt eine erweiterte False-Positive-Liste, damit solche Formulierungen nicht mehr unnötig beanstandet werden.
Die LDI-Kurve für Satzkomplexität war zu steil
Längere literarische Sätze, besonders jenseits der 30 Wörter, wurden dadurch zu stark abgestraft. Die Kurve wurde angepasst, sodass die Bewertung jetzt wieder sauber und nachvollziehbar verläuft.
Die deutsche Pipeline wurde gegen dieselben Fehlerklassen geprüft. Dort war alles bereits sauber, deshalb waren keine Änderungen nötig.