Pokročilý korpusový lematizátor

Stránka projektu: http://nlp.bednarik.top/lemmatizer/

Lematizátor využíva pri spracovaní tokenov morfologický slovník od JÚĽS SAV v Bratislave v rámci projektu Slovenský národný korpus [1, 2]. Tento prístup je vylepšený zohľadňovaním slovných druhov (POS) tak, že v prípade nájdenia viacerých výskytov vstupného slovného tvaru v slovníku, nástroj využije informáciu o slovnom druhu (POS tag) pre presnejšie vyhľadanie morfologicky upraveného slova. Ako príklad môžeme uviesť vety:

Veta Korpusový lematizátor Pokročilý korpusový lematizátor
Mám ťa rada. Mám ty rada. Mať ty rád.
Je tam dlhá rada. Je tam dlhý rada. Byť tam dlhý rada.

Slovník je vo formáte FST (Finite State Transducer), ktorý využíva konečné stavové automaty na rýchle vyhľadanie lemy slova. Implementácia zahŕňa aj anotátory použiteľné v zreťazenom spracovaní v rámci množiny nástrojov CoreNLP [3].

  • Dátum: Máj 2016
  • Implementoval: F. Bednárik


Referencie:

  1. GARABÍK, R., ŠIMKOVÁ, M. Slovak Morphosyntactic Tagset. In Journal of Language Modelling, Vol 0, No 1, pp. 41–63, 2012.
  2. JÚĽŠ SAV: Slovenský národný korpus – prim-6.1-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2013. Dostupné online: http://korpus.juls.savba.sk.
  3. MANNING, C.D. et al. The Stanford CoreNLP Natural Language Processing Toolkit. In Proc. of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, ACL, pp. 55–60, 2014. Dostupné online: http://aclweb.org/anthology/P14-5010.
Späť na stránku služieb