Získavanie vedomostí
/ Knowledge Discovery >> Získavanie vedomostí >> technológie >> počítač >> internet >> základy internetu >>

Ako Internet Vyhľadávače Work

l nájdený. V skutočnosti, to by pre motor o obmedzené použitie, pretože tam by bol žiadny spôsob, ako povedať, či slovo bolo použité v dôležitý alebo triviálne spôsobom na stránke, či slovo bolo používané jednou alebo mnohokrát, alebo či stránke obsahovali odkazy na iné stránky, ktoré obsahujú slovo. Inými slovami, tam by bol žiadny spôsob, ako budovanie rebríček, ktorý sa snaží prezentovať najužitočnejší stránok v hornej časti zoznamu výsledkov vyhľadávania.

Ak chcete viac užitočné výsledky, väčšina vyhľadávačov uloženie viac než len slová a URL. Motor môže uložiť číslo časy, ktoré sa objavia na stránke slovo. Motor môže priradiť váhu každému vstupe s rastúcou hodnôt priradených na slová, ako sa objavujú v hornej časti dokumentu, v sub-čísel, v odkazoch, v meta tagy, alebo v názve stránky. Každý obchodný vyhľadávač má iný vzorec pre priradenie váhu slová vo svojom indexe. To je jeden z dôvodov, aby vyhľadávanie pre rovnaké slovo na rôznych vyhľadávačov budú vytvárať rôzne zoznamy, sa stránkami uvedenými v rôznom poradí.

Bez ohľadu na presné kombinácie dodatočných častí informácií uložených vyhľadávaním motor, budú údaje zakódovaná ušetriť úložný priestor. Napríklad pôvodný článok Google popisuje použitie 2 bajty, po 8 bitoch, na ukladanie informácií na váženie - či už slovo bolo veľkými písmenami, veľkosť písma, umiestnenie, a ďalšie informácie, ktoré pomôžu v rebríčku hit. Každý faktor môže trvať až 2 alebo 3 bity v rámci 2-byte zoskupenie (8 bitov = 1 bajt). Výsledkom je, že veľké množstvo informácií, môže byť uložené vo veľmi kompaktnej forme. Potom, čo sú tieto informácie zhutnený, je pripravený na indexovanie

An index má jediný účel :. To umožňuje, aby informácie, ktoré majú byť nájdené tak rýchlo, ako je to možné. Existuje pomerne málo spôsobov, ako pre index byť stavaný, ale jeden z najúčinnejších spôsobov, ako je vybudovať hash tabuľky. V zatrieďovanie vzorec je použitá pre pripojenie číselnú hodnotu pre každé slovo. Vzorec je navrhnutý tak, aby rovnomerne položky po vopred stanovený počet oddielov. Táto číselná rozdelenie sa líši od rozdelenia slov naprieč abecedy, a to je kľúčom k efektivite hash tabuľky.

V angličtine, tam sú niektoré listy, ktoré začínajú veľa slov, zatiaľ čo iní začnú menej. Zistíte napríklad, že " M " časť slovníka je oveľa silnejšie ako " X " oddiel. To znamená, že nespravodlivosť nájsť slovo začínajúce veľmi " populárne " List môže trvať oveľa dlhšie, n

Page [1] [2] [3] [4] [5] [6]