Závislostný parser

Stránka projektu: http://vm35.studenti.fiit.stuba.sk

Syntaktický parser [1] prispôsobený pre slovenský jazyk [2]. Model bol natrénovaný na Slovenskom Závislostnom Korpuse [3]. Okrem základného modelu ponúka aj model špecializovaný na presnejšie určovanie prísudku (Pred tag). Úspešnosť parsovania sa pohybuje okolo 82% pre hľadanie závislostí a 65% pre hľadanie závislostí a ich typov. Vstup pre službu je surový text, tzn. že nie je nutné text segmentovať na vety, lematizovať, alebo tagovať. Na morfologickú analýzu je použitý TreeTagger [4]. Služba tiež ponúka využitie nástrojov na korekciu textu – rekonštrukciu diakritiky a spellchecking. Tie sa môžu hodiť pri spracovaní webového textu.
Výstup služby je buď vo formáte CoNLL09, alebo ako vizualizácia závislostného stromu.

  • Dátum: Máj 2016
  • Implementoval: J. Loebl


Referencie:

  1. BOHNET, B. Very high accuracy and fast dependency parsing is not a contradiction. In: Proc. of the 23rd Int. Conf. on Computational Linguistics. ACL, pp. 89-97, 2010.
  2. LOEBL, J., ŠIMKO, M. Real-World Dependency Parsing of Slovak Text. In Proc. of The Tenth Int. Conf. on Natural Language Processing, HrTAL2016. Springer, Accepted, 2016.
  3. GAJDOŠOVÁ, K., ŠIMKOVÁ, M. Slovenský závislostný korpus. In: Grammar & Corpora, Academia. pp. 135-14, 2008.
  4. SCHMID, H. Probabilistic part-of-speech tagging using decision trees. In: Proc. of the int. conf. on new methods in language processing, pp. 44-49, 1994.
Späť na stránku služieb