Zitat:
wie soll ich dann unterscheiden zwischen verschiedenen Sprachen?
|
Eine deutsche Seite zu identifizieren ist nicht wirklich problematisch. Gibt ausreichend "Eigenschaften" eines Textes/Contents, die "typisch deutsch" sind und die statistisch gesehen, in jedem Text in repräsentativer/signifikanter Menge vorhanden sind.
- Umlaute (ä,ü,ö) und nach alter Rechtschreibung das "scharfe s" ß
- Artikel : der, die, das, ...
- ...
Aufgrund der Intention "hinter" deinem Projekt, das ein gewisses Grundinteresse an der deutschen Sprache voraussetzt, hättest du sowas mal andenken können.
Zitat:
weil das Web einfach zu viel Mist enthält.
|
Ich denke, dass (deutsche) Seiten mit kommerziellem Hintergrund, aber auch private "Heimseiten" durchaus für deine Zwecke verwertbar sind. Schliesslich geht es dir doch um (einzelne) "Wörter", nicht um den Gesamtsinn eines Textes.
Die von mir "besurften" Seiten sind dabei in der Mehrzahl überraschend korrekt, was Syntax und Grammatik angeht. Könnte mir vorstellen, dass da so mancher Web-Bastler 2 mal hinschaut, um sich bei den betrachtenden Web-Usern nicht die Blöße geben zu müssen ;)