Stránka projektu: http://nlp.bednarik.top/stemmer/
Stemmer využíva definované pravidlá odstraňovania prípon a tiež pravidlá pre normalizáciu konca slova. Pri tvorbe stemmera sme využili morfologický slovník, na ktorom sme testovali úspešnosť stemmera počas tvorby, úprave a odstraňovaní pravidiel. Predpoklad je taký, že čím viac morfologicky upravených slov stemmer upraví na rovnaký stem a zároveň tieto slová majú spoločnú lemu, tým je úspešnejší.
Príklad:Léma | Morfologicky upravené slovo | Stem |
---|---|---|
bránkový | bránkový | bránk |
bránkový | bránkového | bránk |
bránkový | bránkovému | bránk |
... | ... | ... |
bránka | bránka | bránk |
bránka | bránky | bránk |
bránka | bránke | bránk |
... | ... | ... |
Ako môžeme vidieť, v tomto prípade stemmer upravil slová s rôznymi lemami na rovnaký stem. Táto funkcionalita v závislosti od použitia je žiadaná, tolerovateľná alebo nežiadaná. V iných prípadoch sa stáva, že stemmer naopak priradí rôzne stemy slovám s rovnakou lemou. Tento prípad je bežný pri neštandardne skloňovaných slovách alebo pri slovesách, ktorých prípony je možné odstraňovať len v prípade slovies, keďže pri podstatných menách by spôsobovali prestemovanie.
Príklad:Léma | Morfologicky upravené slovo | Stem |
---|---|---|
fazuľa | fazuľa | fazul |
fazuľa | fazule | fazul |
... | ... | ... |
fazuľa | fazúľ | fazul |
Pri implementácii sme využili: existujúce pravidlá pre český jazyk, Pravidlá slovenského pravopisu [1] a morfologický slovník [2].
Porovnanie stemmerov v slovenskom jazyku [3]:Riešenie | Presnosť | Pokrytie | F-skóre | Čas (t) |
---|---|---|---|---|
Bednárik | 0,91 | 0,76 | 0,83 | 3,61 |
Pifková | 0,61 | 0,94 | 0,74 | 4,54 |
Kosorin | 0,75 | 0,85 | 0,80 | 8,64 |
Horváth | 0,74 | 0,96 | 0,84 | N/A |
V ďalšej práci sa budeme snažiť eliminovať problém s neštandardne skloňovanými slovami doplňovaním ďalších pravidiel a zlepšenie stemovania slovies môžeme dosiahnuť využitím POS značiek.