Pravidlový tokenizátor

Stránka projektu: http://nlp.bednarik.top/tokenizer/

Tokenizátor je založený na pravidlách napísaných v jazyku JFlex. Tieto pravidlá sú prekladané do jazyka Java. Pri preklade zároveň dochádza ku odvodzovaniu nových pravidiel a tvorbe uzáverov. Implementácia využíva existujúci tokenizátor (PTBTokenizer) a anotátor z množiny nástrojov CoreNLP [1] a existujúce anglické pravidlá, ktoré sú upravené a prispôsobené pre prácu so slovenským jazykom (ide najmä o pridanie titulov a iných skratiek). Tokenizátor ukladá tiež počiatočnú a koncovú pozíciu znakov tokenu v texte. Pri tokenizácii využíva heuristiky. Bolo ukázané, že v prípade angličtiny dosahuje v porovnaní so štatistickými tokenizátormi veľmi vysokú rýchlosť tokenizácie [2].

  • Dátum: Máj 2016
  • Implementoval: F. Bednárik


Referencie:

  1. MANNING, C.D. et al. The Stanford CoreNLP Natural Language Processing Toolkit. In Proc. of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations [online], ACL, pp. 55–60, 2014. Dostupné online: http://aclweb.org/anthology/P14-5010.
  2. HE, Y., KAYAALP, M. A Comparison of 13 Tokenizers on MEDLINE December 2006. In Bethesda, MD: The Lister Hill National Center for Biomedical Communications. Technical report LHNCBC-TR-2006-003. 2006.
Späť na stránku služieb