Simulácia zbierok testov vyhľadávania informácií

Simulácia testovacích kolekcií na vyhľadávanie informácií (David Hawking)

Pôvodný názov:

Simulating Information Retrieval Test Collections

Obsah knihy:

Simulované testovacie súbory sa môžu uplatniť v situáciách, keď nie je možné ľahko získať prístup k skutočným súborom údajov z dôvodu ochrany dôverných údajov alebo praktických ťažkostí. Môžu potenciálne podporovať experimentovanie, ladenie, validáciu, predpovedanie výkonu a určovanie veľkosti hardvéru. Presnosť a užitočnosť výsledkov získaných zo simulácie prirodzene závisí od vernosti a všeobecnosti modelov, ktoré sú jej základom. Vernosť emulácie skutočného korpusu bude pravdepodobne obmedzená požiadavkou, aby sa dôverné informácie v skutočnom korpuse nedali získať z emulovanej verzie. Uvádzame celý rad metód, ktoré skúmajú kompromisy medzi vernosťou emulácie a stupňom zachovania súkromia.

Uvádzame tri rôzne jednoduché typy textových generátorov, ktoré fungujú na mikroúrovni: Markovove modely, modely neurónových sietí a substitučné šifry. Opisujeme aj metódy na makroúrovni, kde môžeme navrhnúť makro vlastnosti korpusu, pričom uvádzame celý rad modelov pre každú z významných vlastností: rozdelenie dĺžky dokumentu, rozdelenie frekvencie slov (pre nezávislé a nezávislé prípady), dĺžka slov a textová reprezentácia a rast korpusu.

Uvádzame výsledky emulovania existujúcich korpusov a zväčšovania korpusov o dva rády. Ukazujeme, že simulované zbierky vytvorené relatívne jednoduchými metódami sú vhodné na niektoré účely a možno ich vytvoriť veľmi rýchlo. V skutočnosti môže byť niekedy možné vložiť jednoduchý odľahčený generátor korpusov do indexátora na účely štúdií efektívnosti.

Prirodzene, korpus umelého textu nemôže podporovať IR experimenty, ak chýba súbor kompatibilných dotazov. Diskutujeme a experimentujeme s publikovanými metódami na generovanie dotazov a emuláciu dotazových protokolov.

Uvádzame štúdiu proof-of-the-pudding, v ktorej pozorujeme prediktívnu presnosť výsledkov účinnosti a efektívnosti získaných na emulovaných verziách korpusov TREC. Štúdia zahŕňa tri otvorené vyhľadávacie systémy a niekoľko súborov údajov TREC. Existuje kompromis medzi dôvernosťou a presnosťou predpovede a medzi vyhľadávacími systémami a súbormi údajov existujú zaujímavé interakcie. Náš predbežný záver je, že existujú metódy emulácie, ktoré dosahujú užitočnú presnosť predpovedí a zároveň poskytujú úroveň dôvernosti primeranú pre mnohé aplikácie.

Mnohé z opísaných metód boli implementované v open source projekte SynthaCorpus, ktorý je dostupný na adrese: https: //bitbucket.org/davidhawking/synthacorpus/.

Ďalšie údaje o knihe:

ISBN:	9783031011955
Autor:	David Hawking
Vydavateľ:	Springer International Publishing AG
Jazyk:	anglicky
Väzba:	Mäkká väzba
Rok vydania:	2020
Počet strán:	162

Nákup:

Momentálne k dispozícii, na sklade.

Simulácia testovacích kolekcií na vyhľadávanie informácií

Pôvodný názov:

Obsah knihy:

Ďalšie údaje o knihe:

Nákup:

Ďalšie knihy autora:

Diela autora vydali tieto vydavateľstvá: