Statistical and Semantic Similarity between English Sentences
Táto kniha predstavuje rôzne algoritmy na výpočet sémantickej podobnosti medzi anglickými textami.
Skúmal som tri rôzne algoritmy na výpočet podobnosti anglických viet. Prvý algoritmus, ktorý je v literatúre dobre preskúmaný Salton a Buckley, 1988, Wu a Salton, 1981), váži slová v každej vete podľa frekvencie termov a inverznej frekvencie dokumentov (tf-idf ) a nepoužíva žiadne sémantické informácie.
Druhý algoritmus používa miery sémantickej vzdialenosti medzi slovami patriacimi do tej istej časti reči. Tretí algoritmus kombinuje skóre tf-idf a skóre sémantickej vzdialenosti medzi slovami. Výkonnosť druhého a tretieho algoritmu som hodnotil na dvoch súboroch údajov: O'Sheaovej súbore dvojíc viet s ľudskými úsudkami o podobnosti Li a kol., Aug, Rubenstein a Goodenough, 1965) a súbore údajov o parafrázach na úrovni viet spoločnosti Microsoft Research Rus a kol., 2012).
Na dátovom súbore O'Shea tretí algoritmus presnejšie zodpovedá ľudským posudkom ako druhý. Na súbore údajov spoločnosti Microsoft nebol medzi oboma algoritmami významný rozdiel.
© Book1 Group - všetky práva vyhradené.
Obsah tejto stránky nesmie byť kopírovaný ani použitý čiastočne alebo v celku bez písomného súhlasu vlastníka.
Posledná úprava: 2024.11.13 22:11 (GMT)