Lecture Notes in Informatics

Home > Vol P-51 (2004)

Ontologie-basiertes Web Mining

Marc Ehrig , Jens Hartmann and Christoph Schmitz

Abstract

Die Erkennung und Extraktion relevanter Daten im Internet wird zunehmend durch den rapiden Zuwachs an Dokumenten erschwert. Bestehende Ansätze, denen aktuelle Suchmaschinen in der Regel folgen, begegnen den anfallenden Datenmengen mit immer neuer Rechenleistung. Diese Vorgehensweise wird sich jedoch nicht beliebig fortsetzen lassen. In dieser Arbeit stellen wir ein fokussiertes Verfahren zur Identifikation und Extraktion kontextrelevanter Informationen aus dem Internet vor, welches Hintergrundwissen in Form von Ontologien verwendet. Einführung - Web Mining Die Anwendung von Data-Mining-Methoden zur Erkennung von Regularitäten in Daten auf das World Wide Web wird Web Mining genannt. Im Allgemeinen wird Web Mining in folgende drei Bereiche unterteilt: $\bullet $Web Content Mining: Die Erkennung von Regularitäten in Texten und Multi- Media Objekten (beispielsweise Grafiken) in Web Dokumenten. $\bullet $Web Usage Mining: Die Erkennung von Regularitäten in der Benutzung von Web Dokumenten. $\bullet $Web Structure Mining: Die Erkennung von Regularitäten in der Struktur von Web Dokumenten und ihrer Relationen. Im Kontext der Erkennung neuer und nützlicher Ressourcen beispielsweise für ein semantisches Informationsportal [SEAL03], erscheint die kombinierte Verwendung von Content und Structure Mining Methoden sinnvoll. Erst die intelligente Kombination von Methoden zur inhaltlichen Analyse von Ressourcen sowie deren relationalen Betrachtung lässt bedarfsgerechte Schlüsse über die Zugehörigkeit und Relevanz einer Ressource für ein Informationsportal zu. Des Weiteren lässt sich vorhandenes Wissen für eine gezielte Suche verwenden, d.h. auf Basis von Hintergrundwissen über eine Domäne wird die Wertigkeit von Ressourcen in Bezug auf die Zugehörigkeit und Relevanz abgeschätzt. Dadurch kann die Suche nach potentiell bedeutsamen Ressourcen fokussiert werden. 187 Das Werkzeug welches zur Identifikation und Extraktion von Ressourcen aus dem Internet eingesetzt wird, wird im Allgemeinen Web Crawler genannt. Bestehende Web Crawler unterscheiden sich zum Teil in ihrer Konzeption und somit auch in ihrer Architektur stark, welches sich auf die jeweilige Verwendung der gewonnen Ressourcen bzw. der jeweiligen Anwendung zurückführen lässt [CHA02]. Es lassen sich dabei zwei grundlegende Arten von Crawlern unterscheiden. Zum einen Crawler, die die Dokumente aufgrund ihrer Verlinkung einsammeln, wie beispielsweise der Crawler von Google1 Webbase [RAG99]. Dem Gegenüber stehen inhaltsbasierte Crawler, welche die enthaltenen Dokumenten-Texte in eine Relevanzbewertung einbeziehen und so den Crawling-Prozess fokussieren [EHR02]. Ein großer Nachteil bestehender Web Crawler ist deren proprietäre Ausrichtung auf eine bestimmte Anwendung hin. Eine Weiter-verwendung bzw. Erweiterung ist daher i.d.R. schwierig bis unmöglich. Die von uns entwickelte Konzeption stellt im Allgemeinen einen Ansatz für eine modulare und flexible Methodik zur intelligenten Erkennung und Extraktion von Wissen ab, die sich auf das Internet sowie auf Dokumente in Intranets bspw. in Unternehmen und Einrichtungen der öffentlichen Hand anwenden lässt. METIS - Ein ontologie-basierter Web-Crawler Allgemeiner Überblick Die Konzeption unseres Web Crawlers roo t S S RDF Scheme cla property ss S KAON/Lexicon S T T T T METIS sieht die Verwendung von Ontology lexical entry references T ontology value person T ka airlin D owns o e S l exicon:airline nr R flies D ef R k T a on: airplan v pilot Management kaon:val al e T " airline mehreren Modulen vor, welche flexibel " carrier" T T " metadata l exicon:Lufthansa kaon:ref Lufthansa A340 J. Smith k a : v a l " Lufthansa" austauschbar und erweiterbar sind. In Abbildung 1 wird die allgemeine System- User This is just some text about airplanes like Boeing 747s. Interaction Crawler-Modul für das eigentliche Holen Preprocessing Computation der Daten aus dem WWW zuständig, welche dann im Preprocessing-Modul weiter verarbeitet werden (Fehlerkorrektur, ? Datentransformation, etc.). Die verarbei- ? Crawling ? teten Seiten werden indiziert und bspw. in ? eine Datenbank gespeichert worauf das Abbildung 1 Computation-Modul mittels dem Ontology- Modul die jeweilige Relevanz einer Seite berechnet und dem Crawling-Modul die nächsten Webseiten angibt, die geholt werden sollen.

Full Text: PDF

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.

Lecture Notes in Informatics

Informatik 2004, Informatik verbindet, Band 2, Beiträge der 34. Jahrestagung der Gesellschaft für Informatik e.V. (GI), Ulm, 20.-24. September 2004 P-51, 187-192 (2004).

GI, Gesellschaft für Informatik, Bonn
2004

Editors

Contents

Ontologie-basiertes Web Mining

Abstract

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Lecture Notes in Informatics

Informatik 2004, Informatik verbindet, Band 2, Beiträge der 34. Jahrestagung der Gesellschaft für Informatik e.V. (GI), Ulm, 20.-24. September 2004 P-51, 187-192 (2004).

GI, Gesellschaft für Informatik, Bonn 2004

Editors

Contents

Ontologie-basiertes Web Mining

Abstract

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

GI, Gesellschaft für Informatik, Bonn
2004