Štatistický segmentátor viet

Stránka projektu: http://nlp.bednarik.top/ssplit/

Oddeľovanie viet na základe štatistického modelu natrénovaného na Slovenskom národnom korpuse od JÚĽŠ SAV v Bratislave [1]. Nástroj využíva implementáciu OpenNLP, ktorá je založená na štatistickom modeli maximálnej entropie. Implementácia zahŕňa anotátor využiteľný v procese spracovania prirodzeného jazyka v rámci množiny nástrojov CoreNLP [2]. Model sme natrénovali na vzorke 300 000 000 tokenov a má veľkosť 74 MB. V angličtine, v základnom balíčku dostupný natrénovaný, OpenNLP segmentátor dosahuje v rámci dostupného porovnania z roku 2012 v priemere najlepšiu hodnotu F-skóre 0,97 [3]. Podľa iného porovnania z roku 2014 dosahuje chybovosť na úrovni 9 % na korpuse OntoNotes [4].

  • Dátum: Máj 2016
  • Implementoval: F. Bednárik


Referencie:

  1. JÚĽŠ SAV: Slovenský národný korpus – prim-6.1-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2013. Dostupné online: http://korpus.juls.savba.sk.
  2. MANNING, C.D. et al. The Stanford CoreNLP Natural Language Processing Toolkit. In Proc. of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, ACL, pp. 55–60, 2014. Dostupné online: http://aclweb.org/anthology/P14-5010.
  3. READ J., et al. Sentence Boundary Detection: A Long Solved Problem? In Proc. of Int. Conf. on Computational Linguistics COLING 2012 (Posters), pp. 985-994, 2012.
  4. SLIUSARENKO O, DYOMKIN V. How to Split Sentences. 2014. Dostupné online: http://tech.grammarly.com/blog/posts/How-to-Split-Sentences.html
Späť na stránku služieb