Linkek, mint a gráf csúcsait összekötő vektorok

2009. június 06.  | Tags: ,

Bizonyára mindenki ismeri ezt a PageRank-et szimbolizáló képet:pagerank

Erre érdemes odafigyelni. A weblapok egymás közötti természetes link kapcsolatokkal vannak összekapcsolva, ez ugye nem egy új dolog.

Azonban sokan nem tudják, hogy ezt a természetes kapcsolat rendszert lehet klaszterezni. Mi az a klaszterezés? A legjobb megfogalmazás talán az lehet, hogy  ” csoportosítás hasonlóság alapján”.  Ugye ez a kép ezt is megteszi nekünk. Kiszínezi a -valószínűleg- egy csoporthoz tartozó elemeket.

Ez pontosan így épül fel a valóságban is.Viszont, erre vannak modellek.

Tegyük fel (aki keresőoptimalizálással foglalkozik, ez feltételezhető) 20-30 weblapot is gondozol, linket cserélsz, katalógusokba regisztrálsz.

Hogyan csinálod? A következő kép jól mutatja, valószínű ezeket a mintákat használod (itt a katalógusoktól most eltekintünk):

Oldalk összelinkelése

Ennek vajmi kevés köze van ahhoz a modellhez, ami akkor jön létre, amit link baitingenek hívnak,  avagy a természetes linkekhez.

A google a klaszterezés nagymestere. Csak összevetik egy természetes és egy mesterséges modellel és már pontosan tudják is, hogy ki hogyan építette fel a saját kis külső link struktúráját.

A következő kép Zachary karate klubját ábrázolja. Zachary az az ember volt, aki a gráfokat kutatva csinált egy felmérést. Elment a karate klubba és mindenkit megkérdezett, hogy ki kivel áll kapcsolatban. (persze mindenki ismer mindenkit, de az nem jelenti azt, hogy tartják is a kapcsolatot stb.)

Ezt a modellt kapta eredményül:

Itt a pirossal jelölt csúcspontok voltak a fő összekötő pontjai a kapcsolat rendszernek. A modellből kiderül (legalábbis meg tudjuk tippelni), hogy kik a mesterek, kik azok akik a legbefolyásosabb személyek. Persze pl. a 16-os pont kicsit kivételnek tűnik, ő lehet pl. az idős nagymester, aki csak néha beugrik egy új technikát megtanítani.

A 0, 2, 32 azonban jól kivehetően a meghatározó személyek lehetnek.

(Később a klub kettészakadt, szerinted milyen csoportokká rendeződött át a gráf?)

Ennek az egésznek mi a lényege?

Az, hogy a Zachary féle gráf, már egy valós kisvilág gráf.

Miért fontos ez? Mert így néz ki a természetes úton kialakult rendszer. Ez mindenre igaz. Legyen ismeretség, vírusok terjedésének lánca, vagy akár weblapok között linkstruktúra.

Szóval, elkezdhetsz karikákat rajzolgatni, a sűrű pontokba a fontos oldalaid, a szélekre meg a kevésbé fontosak.. És gondold újra a köztük lévő kapcsolatokat. :)

A végére még egy valós kisvilág gráf, számokkal jelezve a köztük lévő kapcsolódás “erejét” :

  1. 2009 június 06 - 19:38

    Uh ez nagyon durva, ez a gugli tényleg egy klaszter master .

  2. Portas
    2009 június 06 - 20:16

    Ha a 16-os kivétel, milyen a 14-es. Az 1, 33, 31 milyen, habár az ábrán nem a legjobban látom a gráfokat. Egyébként az ismeretségi gráfokat kutatva megállapították, hogy a földön két ismeretlen között legfeljebb hatszintű ismerősi kapcsolat lehet és van.

  3. 2009 június 06 - 20:38

    Portas :

    A földön két ismeretlen között legfeljebb hatszintű ismerősi kapcsolat lehet és van.

    Igen, ez pontosan így van és itt van nagy szerepe a vírus terjedésnek.
    Visszatérve, a 14 is kivétel. Ez egy gyakorlati példa, ahol a klaszterből nem feltételeznéd, hogy az is fontos elem. Egy átlagos internet felhasználónak ilyen pl. a domain.hu, vagy a nic.hu.
    Az 1, 33, 31, ők is fontosak, ez látszik, de példánkban vehetjük úgy, hogy nem a karate klub szempontjából. Ez már a “relevanciával” kapcsolatos post lesz majd :) .

  4. djarni
    2009 június 09 - 10:28

    “Szóval, elkezdhetsz karikákat rajzolgatni, a sűrű pontokba a fontos oldalaid, a szélekre meg a kevésbé fontosak”

    És mivan, ha van 10 darab fontos oldalam, és netán relevánsak is, és mindegyiknek a lehető legjobbat szeretném? :)

  5. 2009 június 09 - 22:12

    Na igen. Ez jó kérdés. De még akkor is jobban jársz egy olyan modellel, ha pl. itt a legalsó képen található gráf egy részét veszed alapul, mint a második kép, fenti, jobb szélső megoldást választod. Majd jönnek még postok, fejben már megvan, hogy akarom felépíteni, csak nem értem el odáig, hogy meg is fogalmazzam :S .

  6. djarni
    2009 június 10 - 05:08

    Amit mutatsz, az a minden oldal linkel minden oldalt. Az valóban nem játszik sok oldal esetén. Mondanék egy konkrét példát. Adott 20 darab egyenrangú, egyformán fontos oldalunk. Nyilván valahogy ki kell használni a linkelés előnyeit, hogy egymást is erősítsék. Felállítottam egy sort 1-20-ig. És úgy tervezem, hogy mindegyik oldal csak az utána következő 4 oldalt linkeli meg. Értelemszerűen, ha a végére értünk a következő 4 az elején folytatódik, tehát, hogy körbe érjen a lánc. Így nem fordul elő, hogy 2 oldal oda-vissza linkelje egymást, és tulajdonképpen egy oldal amennyi linket kiküld, ugyanannyit vissza is kap. Bár érezhető ebben a rendszerben is a mesterséges linképítés, kíváncsi lennék Te, vagy Ti hogy oldanátok meg ezt a leghatékonyabban? A szempont, minden oldal erős legyen, amennyire csak lehet.

  7. abc
    2009 június 11 - 09:56

    Szerintem ez lehetetlen ebben a formában djarni. Osztályoznod kellene őket pl bevétel alapján, majd 1-4-ig besorolni a lapokat fontosság szerint.

    Én így csinálnám, de ellenőrzöm a mesterek miképp oldják meg :)

  8. 2009 június 13 - 12:26

    Személyes tapasztalatom szerint működik a modell akkor is ha, létrehozunk egy mikroközösséget (20-30 weoldal) és ezek keresztül-kasul linkelik egymást, de természetesen van a láncnak olyan tagja is ami külső linkekből is szívja az erőt és nem linkeli a közösséget.

    Egyébként egy kiséletet az is megérne, mi lenne ha “totális” burokban nevelnénk fel oldalainkat, tehát semmi külső link - csak (pl. 20 oldal) egymást linkeli. 1 év mulva megnézném a találati listát hogyan szerepelnek, pr értékek ???

  9. 2009 június 23 - 17:18

    “Szóval, elkezdhetsz karikákat rajzolgatni, a sűrű pontokba a fontos oldalaid, a szélekre meg a kevésbé fontosak.. És gondold újra a köztük lévő kapcsolatokat. :)”

    A vonalak hosszúságát pedig PageRank és még mi alapján határozzam meg?
    A bejövő sitewide linkek ábrázolása is egy vonal lenne? Gyanítom, mert ez egy egyszerűsített séma.
    Célszerű egy csokorba gyűjteni az azonos IP címen üzemelő oldalakat?

    Hirtelen ennyi :)

  10. 2009 július 06 - 18:49

    Nagyon érdekes a poszt, azonban nem vagyok benne biztos, hogy tudlak követni. A posztot olvasva úgy tűnik nekem, h. szerinted a kisvilág gráf szerű hálózatok sikeresebben szerepel(het)nek, mint az egyértelműen mesterséges networkok?

    Annak ellenére, hogy időről időre kisérletezem a networkokkel, leginkább mindig csak az átadott forgalomban bízhatom, hiszen akármennyire takaróznék egy kisvilág gráffal, ha ott a GWT ott a GA. Ezeket még mind meg lehet oldani jó memóriával, de a whois az tuti buktat.

    Mit szólsz ehhez?

TOP