Pravidlový stemmer

Stránka projektu: http://nlp.bednarik.top/stemmer/

Stemmer využíva definované pravidlá odstraňovania prípon a tiež pravidlá pre normalizáciu konca slova. Pri tvorbe stemmera sme využili morfologický slovník, na ktorom sme testovali úspešnosť stemmera počas tvorby, úprave a odstraňovaní pravidiel. Predpoklad je taký, že čím viac morfologicky upravených slov stemmer upraví na rovnaký stem a zároveň tieto slová majú spoločnú lemu, tým je úspešnejší.

Príklad:
Léma Morfologicky upravené slovo Stem
bránkový bránkový bránk
bránkový bránkového bránk
bránkový bránkovému bránk
... ... ...
bránka bránka bránk
bránka bránky bránk
bránka bránke bránk
... ... ...

Ako môžeme vidieť, v tomto prípade stemmer upravil slová s rôznymi lemami na rovnaký stem. Táto funkcionalita v závislosti od použitia je žiadaná, tolerovateľná alebo nežiadaná. V iných prípadoch sa stáva, že stemmer naopak priradí rôzne stemy slovám s rovnakou lemou. Tento prípad je bežný pri neštandardne skloňovaných slovách alebo pri slovesách, ktorých prípony je možné odstraňovať len v prípade slovies, keďže pri podstatných menách by spôsobovali prestemovanie.

Príklad:
Léma Morfologicky upravené slovo Stem
fazuľa fazuľa fazul
fazuľa fazule fazul
... ... ...
fazuľa fazúľ fazul

Pri implementácii sme využili: existujúce pravidlá pre český jazyk, Pravidlá slovenského pravopisu [1] a morfologický slovník [2].

Porovnanie stemmerov v slovenskom jazyku [3]:
Riešenie Presnosť Pokrytie F-skóre Čas (t)
Bednárik 0,91 0,76 0,83 3,61
Pifková 0,61 0,94 0,74 4,54
Kosorin 0,75 0,85 0,80 8,64
Horváth 0,74 0,96 0,84 N/A

V ďalšej práci sa budeme snažiť eliminovať problém s neštandardne skloňovanými slovami doplňovaním ďalších pravidiel a zlepšenie stemovania slovies môžeme dosiahnuť využitím POS značiek.

  • Dátum: Máj 2016
  • Implementoval: F. Bednárik


Referencie:

  1. Pravidlá slovenského pravopisu. 2000. Bratislava: VEDA, 2000.
  2. GARABÍK, R., ŠIMKOVÁ, M. Slovak Morphosyntactic Tagset. In Journal of Language Modelling, Vol 0, No 1, pp. 41–63, 2012.
  3. BEDNÁRIK, F. Extrakcia informácii z textu. Diplomová práca. Vedúci práce: Dr. Marián Šimko. Fakulta informatiky a informačných technológií STU v Bratislave. Bratislava, 2016.
Späť na stránku služieb