Hybridný ner

Stránka projektu: http://nlp.bednarik.top/ner/

Hybridná metóda prístupu k rozpoznávaniu pomenovaných entít pozostáva z lingvistickej a štatistickej časti, ktoré sa vzájomne dopĺňajú. Lingvistická metóda zahŕňa identifikáciu entít pomocou dostupných slovníkov (z MINV SR, MINV ČR, data.gov.sk), regulárnych výrazov a pravidiel . Štatistická metóda využíva model podmienených náhodných polí natrénovaný na vzorke 760 ručne anotovaných súdnych rozhodnutí (z toho vyplýva aj určitá doménová závislosť našej metódy). Hybridná metóda využíva štatistický model podmienených náhodných polí doplnený o črty získané pri lingvistickej anotácii. Štatistický model bol natrénovaný najmä pre účely ďalšieho spracovania výsledkov NER pre anonymizáciu, a preto zatiaľ podporuje iba entity: súd, osoba, organizácia, adresa, dátum narodenia, IČO. Nástroj je implementovaný ako anotátor v zreťazenom spracovaní v CoreNLP [1] a využíva vizualizáciu výsledkov anotácie pomocou knižnice Brat [2]. Vyhodnotenie úspešnosti hybridnej metódy oproti lingvistickej a štatistickej, podľa entity na 760 dokumentoch pomocou pät násobnej náhodnej krížovej validácie [3]:

Entita Metóda Presnosť Pokrytie F-Skóre
Súd Hybridná 0,9384 0,7930 0,8594
Lingvistická 0,9940 0,4236 0,5940
Štatistická 0,7989 0,6951 0,7434
IČO Hybridná 0,9815 1,000 0,9906
Lingvistická 0,9901 0,9784 0,9842
Štatistická 0,9881 0,9823 0,9852
Osoba Hybridná 0,9697 0,9518 0,9601
Lingvistická 0,9743 0,5988 0,7417
Štatistická 0,9787 0,9789 0,9788
Narodenie Hybridná 0,9946 0,9271 0,9593
Lingvistická 0,9988 0,8888 0,9406
Štatistická 0,9244 0,9869 0,9546
Adresa Hybridná 0,9764 0,9622 0,9692
Lingvistická 0,8490 0,7133 0,7752
Štatistická 0,9492 0,9229 0,9358
Organizácia Hybridná 0,9448 0,8402 0,8892
Lingvistická 0,9837 0,4020 0,5708
Štatistická 0,9478 0,8068 0,8716
  • Dátum: Máj 2016
  • Implementoval: F. Bednárik


Referencie:

  1. MANNING, C.D. et al. The Stanford CoreNLP Natural Language Processing Toolkit. In Proc. of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, ACL, pp. 55–60, 2014. Dostupné online: http://aclweb.org/anthology/P14-5010.
  2. STENETORP, P. et al. BRAT: a web-based tool for NLP-assisted text annotation. In Proc. of the Demonstrations at the 13th Conf. of the European Chapter of the Association for Computational Linguistics. ACL, pp. 102-107, 2012.
  3. BEDNÁRIK, F. Extrakcia informácii z textu. Diplomová práca. Vedúci práce: Dr. Marián Šimko. Fakulta informatiky a informačných technológií STU v Bratislave. Bratislava, 2016.
Späť na stránku služieb