/ 1

Aug 27

/ nic.at News - 27.08.2020 09:55
Website-Sprachen in der .at-Zone

Im Abstand von einigen Wochen werden durch unser Research & Development Team die Startseiten sämtlicher .at-Websites in Hinblick auf deren Sprache analysiert. Das passiert nicht nur, um einen detaillierteren Überblick über die .at-Zone zu erhalten, sondern auch aus Security Gründen. Denn wenn sich die Sprache einer Website plötzlich ändert, könnte das mitunter auch auf einen Hacking-Vorfall hinweisen.

 

 

 

Wenig überraschend: Der Großteil aller .at-Websites ist in deutscher Sprache verfasst (88 %), gefolgt von Englisch (10 %) sowie einem geringen Anteil weiterer Sprachen – diese Erkenntnis basiert darauf, in welcher Sprache sich eine Website beim Aufruf präsentiert.

Die Untersuchung der Startseiten erfolgt übrigens ähnlich wie durch Suchmaschinen – mit dem Unterschied, dass eine Analyse des konkreten Inhalts der Webseite nicht das Ziel ist. Die Spracherkennung basiert vielmehr auf einer einfachen Idee: Gewisse Buchstabenkombinationen und Zeichen, kommen in manchen Sprachen häufiger vor, als in anderen. So ist etwa ein „¿“ ein Indiz dafür, dass ein Text auf Spanisch verfasst wurde, während ein „Z“ zu Beginn eines Wortes durchaus kennzeichnend für die deutsche Sprache ist. Anhand der statistischen Auswertung der Buchstabenkombinationen, die in einer Seite vorkommen, kann so mit einer sehr hohen Wahrscheinlichkeit die Sprache prognostiziert werden – ganz ohne den Inhalt einer Seite zu verstehen.

„Das Crawling von .at Webseiten ist eine Basistechnologie, die auch im Kontext der IT-Sicherheit ein essentieller Grundbaustein ist: Dieselben Techniken, die zur Erkennung von Sprache verwendet werden, sind auch nützlich um zu erkennen, ob eine Webseite gehackt wurde oder nicht.“, sagt Aaron Kaplan (CERT.at). „Man stelle sich vor, die Sprache der Homepage einer Gemeinde ändert sich von einem Tag auf den anderen und es werden dort plötzlich Onlinewettspiele verkauft.“

Auf github ist die Programmbibliothek, die für diesen Zweck entwickelt wurde, frei erhältlich. Die vollständige Projektbeschreibung befindet sich auf der CEF-Website.

Kofinanziert wird das Projekt übrigens von der Fazilität „Connecting Europe“ der Europäischen Union. Mit diesem Fonds der Europäischen Union für europaweite Infrastrukturinvestitionen in Verkehrs-, Energie- und digitale Projekte, soll eine bessere Konnektivität zwischen den Mitgliedstaaten der Europäischen Union ermöglicht werden.

 

The contents of this publication are the sole responsibility of nic.at and do not necessarily reflect the opinion of the European Union.