Ontologie-basiertes Web Mining
Abstract
Die Erkennung und Extraktion relevanter Daten im Internet wird zunehmend durch den rapiden Zuwachs an Dokumenten erschwert. Bestehende AnsĂ€tze, denen aktuelle Suchmaschinen in der Regel folgen, begegnen den anfallenden Datenmengen mit immer neuer Rechenleistung. Diese Vorgehensweise wird sich jedoch nicht beliebig fortsetzen lassen. In dieser Arbeit stellen wir ein fokussiertes Verfahren zur Identifikation und Extraktion kontextrelevanter Informationen aus dem Internet vor, welches Hintergrundwissen in Form von Ontologien verwendet. EinfĂŒhrung - Web Mining Die Anwendung von Data-Mining-Methoden zur Erkennung von RegularitĂ€ten in Daten auf das World Wide Web wird Web Mining genannt. Im Allgemeinen wird Web Mining in folgende drei Bereiche unterteilt: $\bullet $Web Content Mining: Die Erkennung von RegularitĂ€ten in Texten und Multi- Media Objekten (beispielsweise Grafiken) in Web Dokumenten. $\bullet $Web Usage Mining: Die Erkennung von RegularitĂ€ten in der Benutzung von Web Dokumenten. $\bullet $Web Structure Mining: Die Erkennung von RegularitĂ€ten in der Struktur von Web Dokumenten und ihrer Relationen. Im Kontext der Erkennung neuer und nĂŒtzlicher Ressourcen beispielsweise fĂŒr ein semantisches Informationsportal [SEAL03], erscheint die kombinierte Verwendung von Content und Structure Mining Methoden sinnvoll. Erst die intelligente Kombination von Methoden zur inhaltlichen Analyse von Ressourcen sowie deren relationalen Betrachtung lĂ€sst bedarfsgerechte SchlĂŒsse ĂŒber die Zugehörigkeit und Relevanz einer Ressource fĂŒr ein Informationsportal zu. Des Weiteren lĂ€sst sich vorhandenes Wissen fĂŒr eine gezielte Suche verwenden, d.h. auf Basis von Hintergrundwissen ĂŒber eine DomĂ€ne wird die Wertigkeit von Ressourcen in Bezug auf die Zugehörigkeit und Relevanz abgeschĂ€tzt. Dadurch kann die Suche nach potentiell bedeutsamen Ressourcen fokussiert werden. 187 Das Werkzeug welches zur Identifikation und Extraktion von Ressourcen aus dem Internet eingesetzt wird, wird im Allgemeinen Web Crawler genannt. Bestehende Web Crawler unterscheiden sich zum Teil in ihrer Konzeption und somit auch in ihrer Architektur stark, welches sich auf die jeweilige Verwendung der gewonnen Ressourcen bzw. der jeweiligen Anwendung zurĂŒckfĂŒhren lĂ€sst [CHA02]. Es lassen sich dabei zwei grundlegende Arten von Crawlern unterscheiden. Zum einen Crawler, die die Dokumente aufgrund ihrer Verlinkung einsammeln, wie beispielsweise der Crawler von Google1 Webbase [RAG99]. Dem GegenĂŒber stehen inhaltsbasierte Crawler, welche die enthaltenen Dokumenten-Texte in eine Relevanzbewertung einbeziehen und so den Crawling-Prozess fokussieren [EHR02]. Ein groĂer Nachteil bestehender Web Crawler ist deren proprietĂ€re Ausrichtung auf eine bestimmte Anwendung hin. Eine Weiter-verwendung bzw. Erweiterung ist daher i.d.R. schwierig bis unmöglich. Die von uns entwickelte Konzeption stellt im Allgemeinen einen Ansatz fĂŒr eine modulare und flexible Methodik zur intelligenten Erkennung und Extraktion von Wissen ab, die sich auf das Internet sowie auf Dokumente in Intranets bspw. in Unternehmen und Einrichtungen der öffentlichen Hand anwenden lĂ€sst. METIS - Ein ontologie-basierter Web-Crawler Allgemeiner Ăberblick Die Konzeption unseres Web Crawlers roo t S S RDF Scheme cla property ss S KAON/Lexicon S T T T T METIS sieht die Verwendung von Ontology lexical entry references T ontology value person T ka airlin D owns o e S l exicon:airline nr R flies D ef R k T a on: airplan v pilot Management kaon:val al e T " airline mehreren Modulen vor, welche flexibel " carrier" T T " metadata l exicon:Lufthansa kaon:ref Lufthansa A340 J. Smith k a : v a l " Lufthansa" austauschbar und erweiterbar sind. In
Abbildung 1 wird die allgemeine System- User This is just some text about airplanes like Boeing 747s. InteractionFull Text: PDF