Ako sa niektorý pavúk začne jeho cesty cez web? Obvyklé východiská sú zoznamy intenzívne používaných serverov a veľmi populárne stránky. Pavúk začne s populárnym webu, indexovanie slová na svojich stránkach a po každej odkazu nájdený v rámci webu. Týmto spôsobom sa Spidering systém rýchlo začína cestovať, šíri sa cez najpoužívanejších častí webu.
Google začal ako akademický vyhľadávač. V článku, ktorý opisuje, ako bol systém postavený, Sergey Brin a Lawrence Page dať príklad toho, ako rýchlo sa ich pavúky môže fungovať. Oni stavali svoje pôvodné systém používať viac pavúky, zvyčajne tri naraz. Každý spider mohli držať asi 300 spojení na webové stránky otvorenej naraz. Na jeho špičkový výkon, pomocou štyroch pavúky, ich systém by mohol prechádzať cez 100 stránok za sekundu, vytvára okolo 600 kilobajtov dát každú sekundu.
Udržiavanie všetko beží rýchlo znamenalo budovanie systému na kŕmenie potrebné informácie pavúky. Skorý systém Google mal server venuje poskytovaniu URL pre pavúky. Skôr než v závislosti od poskytovateľa internetových služieb pre názov domény servera (DNS), ktorý prevádza názov servera do adresy, Google mal vlastné DNS, aby držal meškanie na minimum.
Keď pavúk Google Pozrel sa na stránke HTML, je to vzala na vedomie dve veci:
Slová vyskytujúce sa v titul titulky meta tagy a iné pozície relatívny význam boli zaznamenané na osobitnú pozornosť pri následnej vyhľadávania používateľa. Pavúk Google bola postavená tak, aby index každé významné slovo na stránke, takže sa na články " a, " &Quot; " a ". " Ostatné pavúky majú rôzne prístupy.
Tieto rôzne prístupy zvyčajne pokúsi, aby sa pavúk pracovať rýchlejšie, umožňujú užívateľom vyhľadávať efektívnejšie, alebo oboje. Napríklad, niektorí pavúky sledovať slová v titulku, podkapitol a odkazy, spolu s 100 najpoužívanejších slov na stránke a každého slova v prvých 20 riadkov textu. Lycos je povedal, aby používal tento prístup k Spidering web
Ďalšie systémy,