Štatistický POS tagger (ME)

Stránka projektu: http://nlp.bednarik.top/tagger/

Implementácia štatistického POS Taggera využíva štatistický model maximálnej entropie, ktorý sme natrénovali na Slovenskom národnom korpuse od JÚĽŠ SAV v Bratislave [1]. Pri trénovaní tohto modelu bol využitý aj morfologický slovník [2], ktorý obsahuje rôzne slovné tvary a im priradené informácie o slovnom druhu (POS značky). Toto rozšírenie zabraňuje priradeniu nevhodných značiek pre známe slová a zároveň zrýchľuje algoritmus, ktorý nemusí prehľadávať veľké množstvo možností. Trénovanie vzhľadom na pamäťové nároky bolo obmedzené na 100 000 000 tokenov a veľkosť modelu je 291 MB. Pri rýchlom porovnaní na 371 tokenoch sme ukázali, že toto riešenie dosahuje vysokú úspešnosť na komplikovanom korpuse európskych dekrétov. Porovnanie POS taggerov v slovenčine [3]:

Riešenie Počet tokenov Úspešnosť
Dagger [4] 333 0,96
Naivný pravidlový korpusový POS tagger 326 0,60
Štatistický POS tagger (CRF) – Mészáros [5] 371 N/A*
Štatistický POS tagger (ME) – Bednárik 371 0,97
*Nástroj rozpoznáva len slovné druhy, pri tejto úlohe dosiahol úspešnosť 97,57 %, pre porovnanie naše riešenie dosahovalo úspešnosť pri takejto úlohe 99,46 %.

Nástroj je možné používať ako anotátor v zreťazenom spracovaní v CoreNLP [6].

  • Dátum: Máj 2016
  • Implementoval: F. Bednárik


Referencie:

  1. JÚĽŠ SAV: Slovenský národný korpus – prim-6.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2013. Dostupný z WWW: http://korpus.juls.savba.sk.
  2. GARABÍK, R., ŠIMKOVÁ, M. Slovak Morphosyntactic Tagset. In Journal of Language Modelling, Vol 0, No 1, pp. 41–63, 2012.
  3. BEDNÁRIK, F. Extrakcia informácii z textu. Diplomová práca. Vedúci práce: Dr. Marián Šimko. Fakulta informatiky a informačných technológií STU v Bratislave. Bratislava, 2016.
  4. HLÁDEK, D., STAŠ, J., JUHÁR, J. Dagger: The Slovak morphological classifier. In Proc. of ELMAR 2012. IEEE, pp. 195-198, 2012.
  5. MESZÁROS, D.: Určovanie slovných druhov v slovenčine. Vedúci práce: Ing. Márius Šajgalík. Bakalárska práca. Fakulta informatiky a informačných technológií STU v Bratislave. Bratislava, 2015, 30s.
  6. MANNING, C.D. et al. The Stanford CoreNLP Natural Language Processing Toolkit. In Proc. of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, ACL, pp. 55–60, 2014. Dostupné online: http://aclweb.org/anthology/P14-5010.
Späť na stránku služieb