Ak chcete viac užitočné výsledky, väčšina vyhľadávačov uloženie viac než len slová a URL. Motor môže uložiť číslo časy, ktoré sa objavia na stránke slovo. Motor môže priradiť váhu každému vstupe s rastúcou hodnôt priradených na slová, ako sa objavujú v hornej časti dokumentu, v sub-čísel, v odkazoch, v meta tagy, alebo v názve stránky. Každý obchodný vyhľadávač má iný vzorec pre priradenie váhu slová vo svojom indexe. To je jeden z dôvodov, aby vyhľadávanie pre rovnaké slovo na rôznych vyhľadávačov budú vytvárať rôzne zoznamy, sa stránkami uvedenými v rôznom poradí.
Bez ohľadu na presné kombinácie dodatočných častí informácií uložených vyhľadávaním motor, budú údaje zakódovaná ušetriť úložný priestor. Napríklad pôvodný článok Google popisuje použitie 2 bajty, po 8 bitoch, na ukladanie informácií na váženie - či už slovo bolo veľkými písmenami, veľkosť písma, umiestnenie, a ďalšie informácie, ktoré pomôžu v rebríčku hit. Každý faktor môže trvať až 2 alebo 3 bity v rámci 2-byte zoskupenie (8 bitov = 1 bajt). Výsledkom je, že veľké množstvo informácií, môže byť uložené vo veľmi kompaktnej forme. Potom, čo sú tieto informácie zhutnený, je pripravený na indexovanie
An index má jediný účel :. To umožňuje, aby informácie, ktoré majú byť nájdené tak rýchlo, ako je to možné. Existuje pomerne málo spôsobov, ako pre index byť stavaný, ale jeden z najúčinnejších spôsobov, ako je vybudovať hash tabuľky. V zatrieďovanie vzorec je použitá pre pripojenie číselnú hodnotu pre každé slovo. Vzorec je navrhnutý tak, aby rovnomerne položky po vopred stanovený počet oddielov. Táto číselná rozdelenie sa líši od rozdelenia slov naprieč abecedy, a to je kľúčom k efektivite hash tabuľky.
V angličtine, tam sú niektoré listy, ktoré začínajú veľa slov, zatiaľ čo iní začnú menej. Zistíte napríklad, že " M " časť slovníka je oveľa silnejšie ako " X " oddiel. To znamená, že nespravodlivosť nájsť slovo začínajúce veľmi " populárne " List môže trvať oveľa dlhšie, n