Verlinkung von Webseiten als Lösungsansatz
Webseiten und ihre Verlinkung
Um von einer Webseite zu einer anderen zu gelangen, klickt man auf einen Verweis. Man nennt ihn Hyperlink oder kurz Link. Genauer wird das im Fachkonzept – World Wide Web betrachtet.
Die folgende Klickstrecke [1] verdeutlicht die Situation:
PageRank
Wir wollen die Verlinkungsstruktur nutzen, um das Relevanz-Problem zu lösen. Dabei werden wir das Problem ganz analog zu den Entwicklern der Suchmaschine Google lösen. Wir konzentrieren uns dabei auf kleine Webseiten-Welten, um die Grundprinzipien zu verdeutlichen.
Aufgabe 1
(a) Lies dir die folgende Erklärung zum PageRank-Algorithmus durch und fasse den Grundgedanken in eigenen Worten zusammen.
Erklärung ein-/ausblenden
Erste Suchmaschinen überprüften nur, ob und wie oft der Suchbegriff auf einer Webseite auftauchte. Es wird jedoch schnell klar, dass das alleine nicht ausreicht, da eine Webseite, auf der der Begriff ganz oft auftaucht, dennoch sehr unbedeutend sein kann. Ein objektiver Maßstab für die Wichtigkeit einer Webseite ist jedoch schwierig zu finden; schließlich hängt die Bedeutung vom jeweiligen Nutzer oder der jeweiligen Nutzerin ab.
Um subjektive Einflüsse auszuschließen, kann man sich auf die Struktur der Webseite mit ihren Links konzentrieren. Wenn eine Webseite von vielen anderen Webseiten verlinkt ist, dann ist das ein Argument für die Bedeutung der Webseite. Man betrachtet dabei jeden Link als ein „Votum“ der verlinkenden Webseite auf die verlinkte Webseite. Man spricht dabei von der Linkpopularität einer Seite: Je häufiger sie verlinkt ist, desto „populärer“ ist sie.
Sergey Brin und Larry Page (daher das Wortspiel PageRank) entwickelten 1996 an der Standford University einen Algorithmus, um die Linkpopularität einer Webseite festzulegen – den PageRank-Algorithmus und meldeten ihn 1997 zum Patent an. Darin heißt es:
„A method assigns importance ranks to nodes in a linked database, such as any database of documents containing citations, the world wide web or any other hypermedia database. The rank assigned to a document is calculated from the ranks of documents citing it. [...] The method is particularly useful in enhancing the performance of search engine results for hypermedia databases, such as the world wide web, whose documents have a large variation in quality.“ [2]
Der zweite Satz beinhaltet einen wichtigen Punkt: Der PageRank-Algorithmus verwendet nicht nur die Anzahl der Links auf eine Webseite, sondern auch die Relevanz der verlinkenden Webseiten.
Aufbauend auf diesem Patent entwickelten Brin und Page die Suchmaschine Google, die heute Weltmarktführer im Bereich der Internet-Suchmaschinen ist. Inzwischen verwendet die Suchmaschine noch viele weitere Parameter, um das Relevanz- bzw. Ranking-Problem zu lösen.
(b) Erläutere anhand der folgenden Grafik, wie sich die Bedeutung von Webseiten aus der Verlinkung ergibt.
Aufgabe 2
Wir gehen nun näher auf den zweiten Satz des Patents ein: Erkläre anhand der folgenden Klickstrecke, dass es nicht ausreicht, die Anzahl Links auf eine Webseite zu zählen.
Aufgabe 3
Betrachte die folgende Webseitenwelt. Welche der dort gezeigten Webseiten würdest du (nach dem beschriebenen Bewertungsansatz) eine größere / geringere Relevanz einräumen?
Quellen
- [1]: Verlinkung von Webseiten(letzter Zugriff: 28.04.2024) - Urheber: Andreariverac - Lizenz: Creative Commons BY-SA 3.0
- [2]: Patent US6285999B1: Method for node ranking in a linked database(letzter Zugriff: 28.04.2024) - Urheber: Leland Standford Junior University
- [3]: Pagerank - Urheber: Felipe Micaroni Lalli - Lizenz: Creative Commons BY-SA 2.5