Semantische Suchmaschinen: Ist Google & Co. veraltet?

21.08.2009
3290 Views
Bewertung 4.3
Markus Henkel
www.laengsynt.de
  

Was würden wir ohne das World Wide Web (WWW) machen? Es ist eine scheinbar unendliche Informationsquelle, aus der wir fast jede Antwort schöpfen können. Fast? Web-Anfragen lassen Google und Co. immer öfter unfruchtbar wirken. Häufig verläuft die Suche schleppend oder sogar komplett ins Leere. Abhilfe versprechen zunehmend semantische Suchmaschinen.

Ein Suchschlitz, in dem man einen oder mehrere Begriffe per Tastatur eintippt und innerhalb von Sekundenbruchteilen eine Trefferliste erhält - das beschreibt die Web-Oberfläche einer herkömmlichen Suchmaschine. Sie erarbeitet in drei wesentlichen Prozessschritten die Trefferlisten, die uns dann die gewünschten Informationen zur Verfügung stellen. So genannte Anfrageprogramme, die ständig Webseiten aufsuchen, sind Teil des ersten Arbeitsschrittes. Ohne sie könnte keine textbasierte Suchmaschine Inhalte anzeigen.

semantische SuchmaschineDenn Suchmaschinen müssen mit diesen Programmen zu allererst die vielen Dokumente erfassen, die sich auf den unzähligen Servern im Internet befinden.

Bei einer Anzahl von geschätzten zehn Milliarden Webauftritten ist das aber durchaus kein leichtes Unterfangen. Hierfür setzen Betreiber von Suchmaschinen, wie etwa Google und Yahoo, auf Webcrawler, Spider bzw. Suchroboter.

Webcrawler scannen förmlich den Inhalt des WWW, nehmen neue Dokumente in die Datenbanken auf, laden Files herunter, analysieren deren Texte, überprüfen regelmäßig die schon erfassten Daten nach eventuellen Updates und ordnen sämtlichen Inhalt dann nach Schlüsselwörtern ein. Dieses Indexieren der Schlüsselwörter beschreibt den zweiten Arbeitsschritt von Google und Co.

Die Abfrageschnittstelle ist es dann, die es dem Benutzer ermöglicht, den angelegten Index nach seinen Suchkriterien zu durchforsten. Die Technik rund um den kleinen Suchschlitz ist der für uns schon zum Alltag gehörende dritte Arbeitsschritt. Und genau hier stößt jede herkömmliche Suchmaschine an ihre Grenzen.

Webcrawler haben es bisher noch nicht geschafft, die großen Datenmengen komplett zu erfassen. Dazu kommt das Problem, dass Suchmaschinen auf Verlinkungen angewiesen sind. Viele Seiten haben aber meist ihre Links versteckt in Unterverzeichnissen abgelegt oder erst gar nicht veröffentlicht – somit erhalten sie auch keine Chance, im Index zu erscheinen.

In der Realität sieht das dann etwa so aus: Von den zehn Milliarden Seiten hat die weltgrößte Suchmaschine Google zirka 4,2 Milliarden Seiten in ihrem Suchindex – das sind gerade einmal 30 bis 40 Prozent aller Webseiten.

Auf den Spuren Tim Berners-Lee

Das Internet ist nichts anderes als ein dickes Buch, in dem Texte und Bilder untergebracht sind. Aber dem prall gefüllten Buch Internet fehlt das Inhaltsverzeichnis als entscheidendes Element. Genau diesen wichtigen Baustein besitzt jedoch eine nicht neue, doch immer feiner werdende Technik: die semantische Suche.

„Der nächste logische Schritt ist es, künstliche Intelligenz bei der Suche einzusetzen“, sagte einst Internet-Pionier Tim Berners-Lee auf einer Bostoner Konferenz zum Thema künstliche Intelligenz. Damals erntete er dafür noch harsche Kritik, auch vom Suchmaschinen-Primus Google. „Wir haben es mit Millionen von Webmastern zu tun, die keine Server konfigurieren und kein HTML schreiben können. Wie sollen diese Leute noch einen Schritt weiter gehen?“

Technisch gesehen hatten die Experten schon damals eine Vision: Dem Netzwerk, in dem man sich befindet, müssten lediglich semantische Meta-Informationen – also Daten, die wiederum Daten beschreiben – zur eigentlichen Quelle hinzugefügt werden. Man spricht auch von morphologischen Datenschnipseln.

Mit den korrekten Metadaten in sinnvoller Ordnung kann dann ein Rechner Rückschlüsse ziehen, worum es sich bei der Datenressource handelt und sogar Zusammenhänge mit anderen Daten erkennen. Dass es sich dabei um keine neue Idee handelt, zeigt der Ursprung der Semantik: Bereits um 1900 führte der Psychologe Gustav Aschaffenburg Untersuchungen durch, wie Begriffe in unserem Gehirn miteinander verknüpft sind – bei der Suche versetzt sich also der Suchende immer in seine persönliche Semantik. Aber genau dieser Persönlichkeit steht eine neue und wachsenden Problematik gegenüber: die Netzkiller.

Das Internet besteht erst seit 1993. Es ist zum einen nie für die jetzige Aufgabe konzipiert worden, zum anderen führen die beliebten Netzkiller wie etwa Facebook und YouTube dazu, dass die Datenmassen ins Unermessliche steigen. So laden die User bei Facebook täglich über 14 Millionen Bilder und andere Daten hoch und klicken bei YouTube monatlich drei Milliarden Videos.

Alleine die Videos erhalten beim Hochladenden mehrere Tags, die meist willkürlich gewählt werden – eine Willkür, die jeder Suchmaschine die gezielte Recherche im Netz erschwert.

25 Jahre Sprachforschung als Schlüssel zum Sucherfolg

Auch in Unternehmen steigt die Verbreitung von digitalen Dokumenten zu unübersichtlichen Datenmengen rasant an. Aus diesem Datendschungel Wissen zu generieren, gehört zu den größten Herausforderungen des 21. Jahrhunderts. Diese Mammut-Aufgabe zu meistern, haben sich Entwickler aus Leipzig auf die Fahne geschrieben und die semantische Suchmaschine „Xinoah“ ins Leben gerufen – die über einen Web-basierten Client auf Java Runtime Environment gesteuert wird.

„In der Suchmaschine stecken nicht nur drei Jahre allgemeine Forschung, vielmehr haben wir während der Zusammenarbeit mit den Universitäten 25 Jahre Sprachforschung hineinfließen lassen“, so Jens Forker, Account Manager der der NetCon Solutions AG.

Semantische Suchmaschinen

Die Funktionsweise von Xinoah zeigt auf, wo es bei anderen Suchhilfen hapert: Während Google und Co. noch auf eine subjektive Verwaltung bauen, setzt man in Leipzig auf automatische und semantische Erkennung von Textzusammenhängen. Das heißt: Eine übliche Verschlagwortung findet erst gar nicht statt. Sucht man also nach einem Dokument, werden nicht mehr die Informationen dazu, sondern vielmehr die verknüpfte Angaben angezeigt: Die Profis nennen das die Darstellung von Wissen.

Einsatz semantischer Technologien

Durch die Nutzung der Semantik, auch sprachliche Bedeutungslehre genannt, erhält der Suchende inhaltlich verknüpfte Ergebnisse. Hier gibt es nun grundsätzlich zwei unterschiedliche Ansätze in der Textanalyse, die indexbasierte Methode und die Text-Mining-Systeme mit direktem Zugriff in den Textkorpus.

Heutige Suchmaschinen nutzen die indexbasierte Methode. Der Schwerpunkt liegt auf der Suche von Zeichenketten. Somit werden Wörter mit unterschiedlicher Bedeutung angezeigt. In der Trefferliste erscheint beispielsweise „Auto“ aber auch „Autonomie“.

Im Gegensatz dazu greifen Text-Mining-Systeme direkt auf den zu analysierenden Textkorpus zu und erkennen die Sinnverwandtschaft von funktionstragenden Wörtern oder Wortgruppen. Ähnlich wie in anderen Naturwissenschaften, existieren in der Sprachforschung spezielle Gesetzmäßigkeiten. Während also das Ohmsche Gesetz die Proportionalität zwischen Spannungsabfall und fließendem elektronischen Strom in der Physik beschreibt, ist die semantische Suche das Aufzeigen von Bedeutung und Beziehungen von sprachlichen Elementen in einem Textkorpus.

Um die Suchergebnisse qualitativ weiter zu verbessern, kommt die Ontologie zum Einsatz. Sucht man mit dieser Methode nach „Auto“ und „Autos“, erhält der Suchende eine Auswahl mit zusätzlichen Begriffen wie Kraftwagen, Fahrzeug, Limousine, Kabriolett – Wörter, die alle eine Bedeutung von Auto haben. Die im Vorfeld händisch geknüpfte Sinnverwandtschaft fällt also ins Gewicht.

Zu den Wörtern existieren Familienbäume, die die Abhängigkeiten der Worte darstellen. Zu jedem Wort gibt es Geschwister, Eltern und weitere Verwandte. Synonyme etwa sind die Geschwister. Die Eltern sind dagegen übergreifende Begrifflichkeiten, von denen Untergruppen abgeleitet werden. Eine Suche findet also Synonyme und Wörter, die zur selben Familie gehören.

Betrachtet man nun die Reichhaltigkeit der Suchergebnisse, ist zu unterstellen, dass im umgangssprachlichen Bereich Text-Mining-Systeme und Ontologie zu ähnlichen Suchergebnissen führen. Der ontologische Ansatz birgt den Nachteil, der ständigen und aufwendigen Aktualisierung. Damit ist ein hoher Pflegeaufwand erforderlich. Auf Grund der automatischen Arbeitsweise entfällt dieser Aufwand bei Text-Mining-Systemen grundsätzlich.

In fachlichen Dokumentensammlungen sollten die Möglichkeiten der automatischen Sprachverarbeitung (Text-Mining-Systeme) schon aus wirtschaftlichen Gesichtspunkten zunächst ausgenutzt werden. Hier kann der anschließende Einsatz von Ontologien zu einer tieferen Verknüpfung und damit weiteren Verbesserung des Suchergebnisses führen. Beispielsweise sei hier die Verbindung von Artikelnummer und einer Artikelbezeichnung genannt.

Statistik statt Metadaten

Die Satzsemantik untersucht, nach speziellen Verknüpfungsregeln, die einzelnen Wörter und stellt Beziehungen zu größeren syntaktischen Einheiten wie Satzgliedern, Teilsätzen und ganzen Sätze her. Durch statistische Methoden wird also die Nähe oder Ferne zu einem eventuellen Suchbegriff ermittelt – und dass ohne spezielle Metadaten anlegen und pflegen zu müssen.

Das Ergebnis dieser aufwändigen Berechnungen erhält der Suchende, beispielsweise bei „Xinoah“, in Form einer dreidimensionalen Trefferliste angezeigt.

Fazit

Tim Berners-Lee sagte zum Thema Suchmaschinen einmal: „Mein Traum ist es, das Web für den Rechner erklärbar zu machen.“ Bezogen auf das Internet wird diese Vision noch etwas auf sich warten lassen – gleicht das WWW doch eher einem großen Flickenteppich. Funktioniert eine Applikation nicht mehr ordentlich, wird einfach eine neue eingesetzt.

Die alte, nicht kompatible Struktur bleibt dabei immer bestehen. Man spinnt sich sozusagen von Fehler zu Fehler. Anders sieht es dagegen bei Unternehmen aus. Die Server- und Datenstruktur ist meist überschaubar und nach einem bestimmten Muster angelegt. Nur wenige haben – anders als beim Internet – die Berechtigung, Änderungen vorzunehmen.

Die semantische Suche befreit den Anwender davon, wissen zu müssen, wo er relevante Ergebnisse findet. Sie macht den Suchlaien sogar zum Experten. Das in Wissensmodellen hinterlegte Hintergrundwissen unterstützt ihn förmlich, schnell und ohne Zeitaufwand an die richtigen Dokumente zu kommen. Dass bei einem Einsatz solcher Suchmaschinen sogar die vorhandene Serverstruktur beibehalten wird, spart zusätzlich Geld und Zeit.

Trotz der vielen Vorteile gibt es einen gravierenden Nachteil, der Berners-Lee nicht gefallen wird: Wortdopplung wie „Virus“, aus der Medizin und der IT, kann auch eine semantische Suche oft noch nicht unterscheiden. Hoffen wir also, dass Berners-Lees Internet-Traum irgendwann in Erfüllung geht – auf der semantischen Ebene ist er schon „fast“ Realität.

Weitere Informationen über NetCon:

Die NetCon Solutions AG ist ein IT-Consulting- und Entwicklungs- Spezialist für Unternehmen aus ganz Deutschland und Europa. Gerade Unternehmer, Behörden und Organisationen haben mit Xinoah die Möglichkeit, ihr Knowhow zu sichern. Weitere Informationen unter: http://www.netcon-ag.de .

Empfehlungen zu diesem Thema

Gesamtstatistik der Bewertungen

4 Sterne
Wert 4.3
Thema: 4.2 Information: 4.3 Verständlichkeit: 4.5
Stimmen: 6 Legende:
5: super - bis 1: erträglich
Views: 3290
Auf Social Networks posten:

Beiträge

Druckversion "Semantische Suchmaschinen" Hans-Jürgen Thomas 21.08.2009 12:47
  RE: Druckversion Petra Sütterlin 21.08.2009 15:49

Themenübersicht
Buchempfehlung
War in NewYork
(war sehr schön da, bei Kriegsbeginn ;-)
von a.petit
mehr Philognosie