Der Physiker Lev Muchnik von der Bar-Ilan-Universität in Ramat Gan und seine Kollegen verfolgten das Ziel, allein aus der Kenntnis der Verlinkungen eine Kategorien-Hierarchie herzuleiten. Das mathematische Werkzeug, das sich für diese Aufgabe anbietet, ist die Graphentheorie. Deren grundlegenden Elemente sind Knotenpunkte und Linien, auch Kanten genannt, die die Knoten miteinander verbinden. Ein Knoten kann über viele Linien mit anderen Knoten verbunden sein oder er kann vom Rest des Netzwerkes vollkommen isoliert sein.
In der Analyse der israelischen Forscher entsprachen folglich die Artikel den Knoten und die Links den Linien. Genauer: Die Links wurden durch gerichtete Linien repräsentiert, also Pfeilen. Der Anfangsknoten des Pfeils ist der Artikel, der den Link enthält, der Endknoten der Artikel, auf den er verweist.
Es gibt in Wikipedia einige Einträge, die selbst keinen Text enthalten, sondern nur auf einen anderen Artikel verweisen. Beispielsweise verweist der Eintrag “USA” auf den Artikel “Vereinigte Staaten”. Solche Einträge wurden von Muchnik und seinen Kollegen wie ein einziger Knoten behandelt. Artikel, auf die kein einziger Link verweist das betrifft etwa 13 Prozent aller Wikipedia-Artikel wurden von den Forschern ignoriert. Denn Kategorien zeichnen sich ja gerade dadurch aus, dass sie mehrere Artikel unter einem Oberbegriff zusammenfassen. Es ist deshalb äußerst unwahrscheinlich, dass keiner der Artikel, der zu einer bestimmten Kategorie gehört, nicht direkt oder zumindest indirekt über Zwischenknoten auf den Artikel verweist, der die Kategorie beschreibt.
Allerdings gibt es in Wikipedia nicht zu jeder Kategorie einen Artikel, der der Kategorienüberschrift selbst gewidmet ist. Das von den Forschern angewandte Verfahren hatte keine Möglichkeit, solche Kategorien zu finden. Muchnik und Kollegen untersuchten aber, wie hoch der Prozentsatz solcher Kategorien in den verschiedenen Wikipedia-Sprachversionen ist. Von den 250 Sprachen, in denen inzwischen mehr oder weniger umfangreiche Wikipedia-Enzyklopädien existieren, bezogen die Forscher 23 in ihre Analyse ein. Der Spitzenreiter bei den Kategorien-Artikeln unter diesen 23 Sprachversionen ist die ukrainische. Dort ist über 70 Prozent der Kategorienüberschriften ein eigener Artikel geschrieben worden. Das Schlusslicht bildet die slowenische Version mit 17 Prozent.
Die Ermittlung des Kategorienbaums war nun für die Forscher eine reine Rechenaufgabe. Beispielsweise zeichnet eine Kategorienüberschrift sich dadurch aus, dass viele Artikel auf sie verweisen, sie selbst aber nur wenige Links auf andere Artikel hat. Ein weiterer wichtiges Prinzip bei der Bestimmung des Kategorienbaums ist die Betrachtung der kürzesten Verbindung zwischen je zwei beliebigen Artikeln. Will man zum Beispiel die Begriffe “Fledermaus” und “Jupiter” über ihre Links miteinander verbinden, so wird der Weg unweigerlich über den Oberbegriff “Naturwissenschaften” führen müssen. Denn die Fledermaus führt über einige Zwischenkategorien zum Oberbegriff “Biologie” und der “Jupiter” zum Oberbegriff “Astronomie”. Führt man die Berechnung dieser Wege für jedes beliebige Paar von Artikeln durch, dann führt jede Verbindung zwischen einem biologischen und einem astronomischen Artikel durch den Begriff “Naturwissenschaften”. Die Anzahl der kürzesten Verbindungen, die einen Artikel durchlaufen, ist deshalb ein Maß dafür, wie hoch der Begriff in der Kategorien-Hierarchie angesiedelt ist.
Gleichzeitig macht dies aber auch klar, welcher ungeheure Rechenaufwand zur Ermittlung des Kategorienbaums durchgeführt werden muss, da die Wege JEDES beliebigen Paares von Artikeln berechnet werden müssen. Die Ermittlung des Kategorienbaums für die englische Sprachversion mit etwa einer Million Artikeln und für die deutsche Version mit etwa 350.000 Artikeln (im April 2005) mussten die Forscher deshalb wegen nicht ausreichender Computerkapazitäten aufgeben.
Bei den restlichen 21 in ihre Analyse aufgenommenen Sprachversionen war die Übereinstimmung mit dem von den Wikipedia-Autoren selbst ermittelten Kategorienbaum erstaunlich groß abgesehen von den Kategorien, die die Forscher nicht ermitteln konnten, weil ihnen kein Artikel gewidmet war. Bis auf wenige Ausnahmen bewegte sich die Übereinstimmung bei den verschiedenen Sprachversionen im Bereich zwischen 70 und 100 Prozent. Die Forscher untersuchten jede der 21 Versionen mit fünf verschiedenen Analysevarianten. Die fünf Varianten lieferten jedoch ähnliche Ergebnisse.





