Pomiary grafu WWW
Abstract
Publikacja niniejsza opisuje wybór wyników dokonanych przez autora pomiarów pewnych globalnych własności grafu www, takich jak: rozkłady stopni wejściowych i wyjściowych, PageRank oraz wzajemnych związków między tymi rozkładami. Graf taki otrzymuje się traktując każdy dokument HTML jako wierzchołek grafu, a każdy hiperlink jako jego krawędź skierowaną. Wyniki podobnych pomiarów były już publikowane w literaturze naukowej w ciągu ostatnich kilku lat, jednak referat niniejszy pokazuje, że rozkłady wydają się mieć nieco inne parametry niż zwykle jest to cytowane. Ponadto pokazane są ciekawe wyniki dotyczące silnego związku stopnia wejściowego z wyjściowym, które nie były do tej pory publikowane. Eksperymenty przeprowadzone przez autora są jednymi z pierwszych tego typu w Polsce, a wielkości mierzonych próbek są jednymi z najwyższych w skali światowej. Opisywane własności grafu WWW mają, poza walorem poznawczym, wymiar praktyczny związany z projektowaniem inteligentnych systemów wyszukiwania informacji w WWW, w szczególności tzw. „crawlerów” i repozytoriów dokumentów HTML.