Simulácia testovacích kolekcií na vyhľadávanie informácií

Simulácia testovacích kolekcií na vyhľadávanie informácií (David Hawking)

Pôvodný názov:

Simulating Information Retrieval Test Collections

Obsah knihy:

Simulované testovacie súbory sa môžu uplatniť v situáciách, keď nie je možné ľahko získať prístup k skutočným súborom údajov z dôvodu ochrany dôverných údajov alebo praktických ťažkostí. Môžu potenciálne podporovať experimentovanie, ladenie, validáciu, predpovedanie výkonu a určovanie veľkosti hardvéru. Presnosť a užitočnosť výsledkov získaných zo simulácie prirodzene závisí od vernosti a všeobecnosti modelov, ktoré sú jej základom. Vernosť emulácie skutočného korpusu bude pravdepodobne obmedzená požiadavkou, aby sa dôverné informácie v skutočnom korpuse nedali získať z emulovanej verzie. Uvádzame celý rad metód, ktoré skúmajú kompromisy medzi vernosťou emulácie a stupňom zachovania súkromia.

Uvádzame tri rôzne jednoduché typy textových generátorov, ktoré fungujú na mikroúrovni: Markovove modely, modely neurónových sietí a substitučné šifry. Opisujeme aj metódy na makroúrovni, kde môžeme navrhnúť makro vlastnosti korpusu, pričom uvádzame celý rad modelov pre každú z významných vlastností: rozdelenie dĺžky dokumentu, rozdelenie frekvencie slov (pre nezávislé a nezávislé prípady), dĺžka slov a textová reprezentácia a rast korpusu.

Uvádzame výsledky emulovania existujúcich korpusov a zväčšovania korpusov o dva rády. Ukazujeme, že simulované zbierky vytvorené relatívne jednoduchými metódami sú vhodné na niektoré účely a možno ich vytvoriť veľmi rýchlo. V skutočnosti môže byť niekedy možné vložiť jednoduchý odľahčený generátor korpusov do indexátora na účely štúdií efektívnosti.

Prirodzene, korpus umelého textu nemôže podporovať IR experimenty, ak chýba súbor kompatibilných dotazov. Diskutujeme a experimentujeme s publikovanými metódami na generovanie dotazov a emuláciu dotazových protokolov.

Uvádzame štúdiu proof-of-the-pudding, v ktorej pozorujeme prediktívnu presnosť výsledkov účinnosti a efektívnosti získaných na emulovaných verziách korpusov TREC. Štúdia zahŕňa tri otvorené vyhľadávacie systémy a niekoľko súborov údajov TREC. Existuje kompromis medzi dôvernosťou a presnosťou predpovede a medzi vyhľadávacími systémami a súbormi údajov existujú zaujímavé interakcie. Náš predbežný záver je, že existujú metódy emulácie, ktoré dosahujú užitočnú presnosť predpovedí a zároveň poskytujú úroveň dôvernosti primeranú pre mnohé aplikácie.

Mnohé z opísaných metód boli implementované v open source projekte SynthaCorpus, ktorý je dostupný na adrese: https: //bitbucket.org/davidhawking/synthacorpus/.

Ďalšie údaje o knihe:

ISBN:9783031011955
Autor:
Vydavateľ:
Jazyk:anglicky
Väzba:Mäkká väzba
Rok vydania:2020
Počet strán:162

Nákup:

Momentálne k dispozícii, na sklade.

Ďalšie knihy autora:

Simulácia testovacích kolekcií na vyhľadávanie informácií - Simulating Information Retrieval Test...
Simulované testovacie súbory sa môžu uplatniť v...
Simulácia testovacích kolekcií na vyhľadávanie informácií - Simulating Information Retrieval Test Collections

Diela autora vydali tieto vydavateľstvá:

© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)