Augmenting Latent Dirichlet Allocation and Rank Threshold Detection with Ontologies
V prostredí s čoraz väčším množstvom údajov je potrebné z obrovského množstva rôznorodých, často voľných textových zdrojov získavať, filtrovať a korelovať informácie, ktoré sa dajú využiť. Užitočnosť získaných informácií závisí od toho, ako tieto kroky vykonáme a ako analytikovi predložíme najrelevantnejšie informácie.
Jednou z metód extrakcie informácií z voľného textu je Latent Dirichlet Allocation (LDA), technika kategorizácie dokumentov, ktorá slúži na klasifikáciu dokumentov do ucelených tém. Hoci LDA zohľadňuje niektoré implicitné vzťahy, napríklad synonymiu (rovnaký význam), často ignoruje iné sémantické vzťahy, napríklad polysémiu (rôzne významy), hyponymum (podradené), meronymum (časť) a troponymum (spôsob).
Na kompenzáciu tohto nedostatku začleňujeme do algoritmu LDA explicitné ontológie slov, ako je WordNet, aby sme zohľadnili rôzne sémantické vzťahy. Experimenty na 20 zbierkach dokumentov Newsgroups, NIPS, OHSUMED a IED ukazujú, že začlenenie takýchto znalostí zlepšuje mieru perplexity oproti samotnému LDA pre dané parametre.
© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)