Získavanie vedomostí
/ Knowledge Discovery >> Získavanie vedomostí >> peniaze >> ekonómia >> charita goodwill >>

Ako Shoah Foundation Works

> Ak chcete katalogizovať konkrétne svedectvo, zamestnanec zadá krátky životopisné informácie o prežil alebo svedka. Potom, svedectvo je indexovaná pomocou špecifických kľúčových slov vybraných z 30.000 slovom šoa nadácie, kontrolovaný-slovná zásoba, v angličtine tezaurus. Tiež vytvoril in-house, tezaurus vyvinula v priebehu času ako indexers sledovať aktuálne svedectvo. Vzhľadom k tomu, kľúčové slová skutočne pochádzajú z výpovede, tezaurus pokračuje v expanzii ako viac svedectvo je indexovaný. Všeobecné podmienky sú predovšetkým geografickej miestne mená, ako sú názvy miest, obcí a ďalších miestach, ale je tu zahrnuté skúsenostné obsah rovnako, ako je napríklad " vnímanie času v táboroch ".

Vzhľadom na to, tezaurus je v angličtine, všetky súčasné indexovanie prebieha v angličtine. Svedectvo vzhľadom k tomu, v iných jazykoch je spracovávaný bi-kultúrne indexer.

Najprv, každý videa svedectvo indexované v troj- až päťminútových segmentov, ale bolo zistené, že veľa z času stráveného indexovanie v týchto krokoch bol stratený snaží rozhodnúť, kam segment skončila a ďalšie začala - niečo ako 75 percent z indexovania času strávil prevíjanie a rýchle prevíjanie vpred pásku. Teraz svedectvá sú členené do jednominútových úsekov.

Každé video má bežiaci časový kód, takže každý z nich minút segment reprezentovaný určitým časovým kódom. INDEXATOR prikladá svoje Všeobecnej uvedeného časového kódu. Na tom, čo je uvedené v jednej minúty segmente na báze, viac ako jeden index termín môže byť spojená s daný segment. Katalogizácia softvér je navrhnutý tak, aby indexer jednoducho vyberie a ťahá vhodných podmienok od roletového menu do iného okna, a že automaticky prepojí tento konkrétny kľúčové slovo podľa časového kódu.
Potrebujú nové hardvéru

Kým softvér za digitálne video knižnice je up-to-date, jeho hardware nie je tak špičkové. V súčasnej dobe 52.000 svedectvo sú držané na sériu digitálnych opasok s celkovou skladovacou kapacitou 400 terabajtu. Nastavenie je viac ako osem rokov a pracuje veľa ako veľký Juke box. Je tu obrovský robotické rameno, ktorý vyhľadáva a načíta špecifický pásku z otáčavého banky pások. Akonáhle je robotické rameno je načítaná pásku, načíta výber do stroja, ktorý lokalizuje špecifický segment svedectvo bádateľ hľadá. Tento proces trvá niečo ako 10 až 15 minút - v čase, Shoah Foundation CEO Doug Greenberg by chceli znížiť:
ľudia sa stali tak zvyknutí na počítačové vyhľadávanie. Sadnem si na