Pravidlový segmentátor viet

Stránka projektu: http://nlp.bednarik.top/ssplit/

Oddeľovanie viet na základe pravidiel získaných pri tokenizácii pomocou tokenizátora PTBTokenizer, ktorý je dostupný v množine nástrojov CoreNLP [1]. Tento segmentátor nevyžaduje natrénovaný štatistický model a využíva definované pravidlá a zoznam skratiek pre oddeľovanie viet , ktoré sú už súčasťou tokenizátora. Výhodou tohto segmentátora je vysoká rýchlosť spracovania oproti riešeniam využívajúcim štatistický model. Podľa porovnania z roku 2012 dosahuje na korpusoch v anglickom jazyku v priemere F-skóre 0,89 [2]. Podľa iného porovnania z roku 2014 dosahuje najnižšiu chybovosť zo všetkých porovnávaných nástrojov 1,7% na korpuse OntoNotes [3].

  • Dátum: Máj 2016
  • Implementoval: F. Bednárik


Referencie:

  1. MANNING, C.D. et al. The Stanford CoreNLP Natural Language Processing Toolkit. In Proc. of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, ACL, pp. 55–60, 2014. Dostupné online: http://aclweb.org/anthology/P14-5010.
  2. READ J., et al. Sentence Boundary Detection: A Long Solved Problem? In Proc. of Int. Conf. on Computational Linguistics COLING 2012 (Posters), pp. 985-994, 2012.
  3. SLIUSARENKO O, DYOMKIN V. How to Split Sentences. 2014. Dostupné online: http://tech.grammarly.com/blog/posts/How-to-Split-Sentences.html
Späť na stránku služieb