Štatistický POS tagger

Stránka projektu: https://github.com/Denrasill/SkCrfPosTagger

Metódy využívajúce slovníky majú viacero nedostatkov - nezohľadňujú kontext slova, alebo na to využívajú ručne vytvorené pravidlá a navyše ani nevedia určiť slovný druh neznámeho slova, ktoré sa v slovníku nevyskytuje. Všetky tieto nedostatky vieme eliminovať využitím grafového pravdepodobnostného modelu - podmienených náhodných polí. Navrhli sme architektúru [2] tohto modelu vhodnú pre určovanie slovných druhov v slovenčine, ktorú sme natrénovali a vyhodnotili na datasete slovenskej wikipédie [1]. Dosahovaná úspešnosť je 97,45% [2], čím sa nám podarilo prekonať úspešnosť doterajších prístupov v slovenčine.

  • Dátum: Jún 2015
  • Implementoval: D. Mészáros


Referencie:

  1. JÚĽŠ SAV: Slovenský národný korpus – prim-6.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2013. Dostupný z WWW: http://korpus.juls.savba.sk.
  2. MESZÁROS, D.: Určovanie slovných druhov v slovenčine. Vedúci práce: Ing. Márius Šajgalík. Bakalárska práca. Fakulta informatiky a informačných technológií STU v Bratislave. Bratislava, 2015, 30s.
Späť na stránku služieb