Spracovanie textu na
FIIT STU
Chcem vedieť viac

Úlohy spracovania textu

Spracovanie prirodzeného jazyka je kľúčové pre zlepšovanie prístupu k stále narastajúcemu množstvu informácií na Webe. Aby nám v tom stroje mohli pomôcť (uľahčiť vyhľadávanie, odporúčať novinové správy, asistovať pri nákupe produktov a pod.), musíme zabezpečiť, aby rozumeli informáciám a jazyku tak ako my, ľudia.

Kým v iných jazykoch je softvérová podpora pre spracovanie textu na dobrej úrovni, pre slovenčinu bolo urobeného len veľmi málo. Preto sa na Fakulte informatiky a informačných technológií v rámci skupiny PeWe venujeme aj spracovaniu slovenského jazyka.

Na týchto stránkach nájdete reálne prakticky využiteľné aj experimentálne služby a nástroje, ktoré sme vytvorili v rámci rôznych projektov pre nasledujúce úlohy spracovania prirodzeného jazyka:

Predspracovanie textu

Cieľom predspracovania textu je nachystať vstupný dokument do tvaru pre ďalšie (spravidla lingvistické) spracovanie. To najčastejšie zahŕňa: extrakciu čistého textu z dokumentu, tokenizáciu a segmentáciu textu, normalizáciu textu a odstránenie/označenie stop slov. Pozri služby a nástroje

Rekonštrukcia a normalizácia textu

Rekonštrukcia textu, kontrola a oprava rôznych druhov chýb, rekonštrukcia diakritiky. Pozri služby a nástroje

Lematizacia a stemovanie

Určenie základného (slovníkového) tvaru slova, tzv. lemy. Napr. pre slovo 'rybníkom' je lemou 'rybník', pre slovo 'klesajúci' je lemou 'klesať', pre slovo 'vznešenou' je lemou 'vznešený'. Pozri služby a nástroje

Určovanie slovných druhov

Určenie slovného druhu (podstatné meno, prídavné meno, zámeno, atď.) a k nemu prislúchajúcich gramatických kategórií daného slova. Napr. pre slovo 'rybníkom' určíme, že ide o 'podstatné meno, mužský rod, jednotné číslo, inštrumentál' a niekedy aj viac. Pozri služby a nástroje

Rozlišovanie viacslovných pojmov

Niekedy rozdelenie textu na slová len pomocou medzier nestačí a je potrebné pracovať aj s viacslovnými pojmami (slovnými spojeniami). Napr. 'čierna diera' nie je obyčajná diera, ktorá je čierna. Pozri služby a nástroje

Extrakcia vlastných pomenovaní

Pri extrakcii vlastných pomenovaní (tiež tzv. pomenovaných entít) hľadáme slovné spojenia, ktoré reprezentujú konkrétny objekt, najčastejšie osobu, organizáciu alebo miesto. Pozri služby a nástroje

Syntaktická analýza (parsovanie)

Určenie syntaktických vzťahov medzi slovami vo vete, analýza štruktúry vety. Vytvorenie syntaktického stromu, kde sú identifikované jednotlivé vetné členy (podmet, prísudok, a pod.) a určené vzťahy medzi nimi (prisudzovací, priraďovací a pod.). Pozri služby a nástroje

Služby a nástroje


Predspracovanie textu

Cieľom predspracovania textu je nachystať vstupný dokument do tvaru pre ďalšie (spravidla lingvistické) spracovanie. To najčastejšie zahŕňa: extrakciu čistého textu z dokumentu, tokenizáciu a segmentáciu textu, normalizáciu textu a odstránenie/označenie stop slov.


Webové služby:

Pravidlový tokenizátor

Implementoval: F. Bednárik

Status: funkčný


zistiť viac » 
Štatistický segmentátor viet

Implementoval: F. Bednárik

Status: funkčný


zistiť viac » 
Pravidlový segmentátor viet

Implementoval: F. Bednárik

Status: funkčný


zistiť viac » 
Zoznam stop slov

Autor: text.fiit.stuba.sk

 


zistiť viac » 

Rekonštrukcia a normalizácia textu

Rekonštrukcia mäkčeňov, dĺžňov a vokáňov v textoch bez diakritiky.


Webové služby:

Štatistický diakritikovač

Implementoval: J. Gedera

Status: funkčný


zistiť viac » 
Štatistický korektor (spell-checker)

Implementoval: O. Čičkán

Status: funkčný


zistiť viac » 

Lematizácia (lemmatization) a stemovanie (stemming)

Lematizácia je určenie základného (slovníkového) tvaru slova, tzv. lemy. Napr. pre slovo 'rybníkom' je lemou 'rybník', pre slovo 'klesajúci' je lemou 'klesať', pre slovo 'vznešenou' je lemou 'vznešený'.


Webové služby:

Korpusový lematizátor

Implementoval: R. Horváth

Status: funkčný


zistiť viac » 
Pravidlový lematizátor (Tvaroslovník)

Implementoval: R. Horváth

Status: funkčný


zistiť viac » 
Lematizátor na základe latentného mod. jazyka

Implementoval: L. Gallay

Status: experimentálny


zistiť viac » 
Pravidlový stemmer

Implementoval: F. Bednárik

Status: funkčný


zistiť viac » 
Pokročilý korpusový lematizátor

Implementoval: F. Bednárik

Status: funkčný


zistiť viac » 

Určovanie slovných druhov (POS Tagging)

Pri určovaní slovných druhov ide o zistenie jedného z 10 slovných druhov v slovenčine (podstatné meno, prídavné meno, zámeno, číslovka, sloveso, príslovka, predložka, spojka, častica, citoslovce) a k nemu prislúchajúcich gramatických kategórií daného slova. Napr. pre slovo 'rybníkom' určíme, že ide o 'podstatné meno, mužský rod, jednotné číslo, inštrumentál' a niekedy aj viac.


Webové služby:

Korpusový POS tagger

Implementoval: R. Horváth

Status: funkčný


zistiť viac » 
Naivný pravidlový korpusový POS tagger

Implementoval: M. Plank

Status: funkčný


zistiť viac » 
Štatistický POS tagger (CRF)

Implementoval: D. Mészáros

Status: funkčný


zistiť viac » 
Štatistický POS Tagger (ME)

Implementoval: F. Bednárik

Status: funkčný


zistiť viac » 

Rozlišovanie viacslovných pojmov

Pripravujeme...

Extrakcia vlastných pomenovaní

Pri extrakcii vlastných pomenovaní (tiež tzv. pomenovaných entít) hľadáme slovné spojenia, ktoré reprezentujú konkrétny objekt, najčastejšie osobu, organizáciu alebo miesto.


Webové služby:

Rozpoznávač pomenovaných entít

Implementoval: O. Kaššák

Status: funkčný


zistiť viac » 
Hybridný NER

Implementoval: F. Bednárik

Status: funkčný


zistiť viac » 

Syntaktická analýza (parsovanie)

Určenie syntaktických vzťahov medzi slovami vo vete, analýza štruktúry vety. Vytvorenie syntaktického stromu, kde sú identifikované jednotlivé vetné členy (podmet, prísudok, a pod.) a určené vzťahy medzi nimi (prisudzovací, priraďovací a pod.).


Webové služby:

Závislostný parser

Implementoval: J. Loebl

Status: funkčný


zistiť viac » 

Kontakt

ks.abuts.tiif@txet