Rozpoznávač pomenovaných entít

Stránka projektu: http://mus.fiit.stuba.sk/

Rozpoznávanie pomenovaných entít (angl. Named Entity Recognition) predstavuje proces identifikácie vybraných typov slovných entít v textoch [1]. Medzi tieto typy patria osoby, lokality, organizácie, dátumy, čísla a zmiešané udalosti. Navrhnutý extraktor predstavuje prvé existujúce riešenie vytvorené pre slovenský jazyk [2, 3]. Jeho princíp je založený na lingvistickej metóde, využívajúcej korpus entít z portálu Wikipedia1 2. Navrhnutý proces očakáva na vstupe slovenský text písaný v prirodzenom jazyku, prípadne URL na webovú stránku, z ktorej je pomocou služby Metallurgy3 extrahovaný samotný text. Výstupom metódy je zoznam, vo formáte JSON, identifikovaných entít spolu s označením typu identifikovanej entity, pozície začiatku entity v texte a dĺžka entity. Alternatívou je výstup v podobe textu obohateného o označenie entít vo formáte definovanom [1].

  • Dátum: Apríl 2012
  • Implementoval: O. Kaššák


Referencie:

  1. GRISHMAN, R., SUNDHEIM, B.: Message understanding conference-6: A brief history. In Proc. of COLING 96, 1996, pp. 466-471.
  2. KAŠŠÁK, O, KOMPAN, M., BIELIKOVÁ, M.: Extrakcia pomenovaných entít pre slovenský jazyk. In: ZNALOSTI 2012 : Sborník příspěvků 11. ročníku konference. Praha: Matfyzpress, 2012, pp. 52-61. [V slovenčine]
  3. KAŠŠÁK, O.: Extrakcia pomenovaných entít zo slovenského textu. Bakalárska práca. Vedúci práce: Michal Kompan. Bratislava: FIIT STU, 2012. 44 s. [V slovenčine]

1) https://en.wikipedia.org/
2) https://sk.wikipedia.org/
3) http://metallurgyapi.eu/

Späť na stránku služieb