Tomáš Pavelek: Práce s češtinou je velká zábava
S panem Tomášem Pavelkem ze společnosti Lingea jsem se sešel v době, kdy jsem testoval jazykový nástroj Grammaticon. Během hodinového rozhovoru se pan Pavelek, který se na vzniku Grammaticonu výraznou měrou podílel, nejen rozhovořil o vývoji tohoto produktu, ale prezentoval také svůj názor na další vývoj jazykových nástrojů.
Jak dlouho trval vývoj Grammaticonu a jak vlastně příprava tohoto nástroje probíhala?
Vývoj Grammaticonu trval přibližně tři roky a byl docela zajímavý, protože se úplně neshodoval s tím, co jsme očekávali. S vývojem jsme začali před necelými pěti lety a řádově během několika měsíců jsme měli hotovou první fázi, které se říká desambiguace.
Co si pod tím máme představit?
Desambiguace je v podstatě zjednoznačnění významu jednotlivých slov. Důležitost desambiguace se dá demonstrovat třeba na slově „zdraví“, což může být podstatné jméno (železné zdraví), přídavné jméno (zdraví lidé), nebo sloveso (zdraví nás z dovolené). Je tedy nutné zjistit, jakou funkci v konkrétní větě dané slovo plní, a to lze jen na základě kontextu. Naším cílem bylo, aby algoritmus, který desambiguaci provádí, nikdy neudělal chybu.
Myslíte si, že se to podařilo?
Troufám si tvrdit, že ano. To byla vlastně další fáze projektu, kdy jsme tento algoritmus několik měsíců testovali na spoustě textů, zjišťovaly se chyby a upravovala se pravidla tak, aby desambiguace byla třeba trochu obecnější, ale aby nikdy „nevyloučila“ ve skutečnosti správnou variantu.
Takže algoritmus pro desambiguaci byl vlastně základem celého projektu?
Přesně tak. Kdyby totiž desambiguace nefungovala správně, nemohlo by se ve větě po gramatické stránce opravovat v podstatě nic. Tuhle fázi jsme ale zvládli relativně rychle a mohli jsme se pustit do vytváření pravidel pro celé věty. Vycházeli jsme přitom mimo jiné z rozsáhlého valenčního slovníku, který jsme pro tento účel sestavili.
Když jste se zmínil o pravidlech pro věty, Grammaticon upozorňuje třeba na věty, ve kterých chybí sloveso. V řadě případů jsou ale takové věty správně. Neřešili jste tak trochu dilema, na které věty upozorňovat?
Jsem rád, že se na to ptáte. To, o čem jste se zmínil, patří do takzvaných stylových pravidel. My jsme ta stylová pravidla koncipovali tak, aby uživateli pomáhala, pokud on sám chce. Když třeba někdo píše vědecký text a chce zkontrolovat, zda tam nikde nemá první osobu, stačí, když si příslušnou volbu zaškrtne a program mu všechna inkriminovaná místa vyhledá. A podobné je to i s těmi větami bez sloves.
Kdybychom se vrátili na obecnější úroveň, dalo by se říci, kde jsou v současné době limity Grammaticonu?
Když jsme s vývojem programu začínali, těšili jsme se na to, že připravíme nástroj, který dovede kontrolovat spoustu věcí. Takže jsme dali dohromady asi šedesát typů chyb, kterých se pisatelé nejčastěji dopouštějí. Při testování jsme ale zjistili, že program spouští velké množství falešných poplachů. Některá pravidla totiž platila třeba v devadesáti procentech případů, ale v těch zbylých deseti procentech upozorňovala na jevy, které byly ve skutečnosti správně.
Jak jste to řešili?
Postupem času jsme těch původních šedesát typů chyb zredukovali na třicet. Udělali jsme hodně přísná pravidla, abychom se rizika falešných poplachů zbavili. Zároveň jsme ale přišli na dalších přibližně třicet kategorií chyb, které jsme původně neobjevili.
Myslíte si tedy, že se podařilo Grammaticon v oblasti falešných poplachů trochu „vychovat“?
Ano. Testování jsme věnovali ještě více času než samotnému vývoji a prováděli jsme ho opravdu důkladně, takže můžeme zodpovědně říct, že Grammaticon falešné poplachy téměř nespouští. Co se týče limitů, na které jste se ptal, Grammaticon je samozřejmě omezen tím, že podobně jako jiné produkty nedokáže pracovat s kontextem více vět, nedokáže „přemýšlet“ o tom, co chtěl pisatel tím či oním vyjádřením říct.
O tom, jaká jsou omezení automatických korektorů a dalších podobných nástrojů, se občas spekuluje. Kdybyste si měl zahrát na vizionáře, kam až podle vás může dojít vývoj jazykových nástrojů?
Osobně si myslím, že Grammaticon došel téměř až na hranici toho, co je v současné době v oblasti automatické kontroly gramatiky možné. Aby se dal udělat další krok dopředu, musela by se podchytit sémantika – počítač by musel opravdu „pochopit“, co chtěl pisatel říct, a potom danou větu zkontrolovat. Často není až takový problém poznat, že je věta špatně, jako spíš pochopit, kde je chyba, a navrhnout optimální řešení. Na té větě totiž může být špatně prakticky všechno. Velký pokrok určitě přinese to, až se automatické kontrolory naučí pracovat s kontextem více vět.
A jak je to například s automatickými překladači? Vidíte tam nějakou možnost dalšího zlepšování?
U překladačů určitě ano. Tam je totiž velká výhoda, že člověk nemusí a priori předpokládat, že je věta špatně. Naopak je velká pravděpodobnost, že je text gramaticky správně, a je snazší s ním pracovat. Velmi dobře se proto může uplatnit takzvaná „stromečková analýza“, která určí, jak na sobě jednotlivé větné členy závisí, a podchytí tak strukturu celé věty.
Vrátím se teď zase ke Grammaticonu. Nemáte trochu obavy, že s uveřejněním Kontroly české gramatiky od Microsoftu klesne zájem o Grammaticon?
Je to docela paradoxní, ale zájem o Grammaticon od té doby naopak vzrostl, protože se o téhle problematice hodně mluví a ukazuje se, že zautomatizovat kontrolu české gramatiky není vůbec snadný úkol. Navíc si řada lidí chce oba produkty porovnat, takže zájem o Grammaticon opravdu vzrůstá.
Jako velká výhoda Grammaticonu se vnímá to, že jej lze použít i jako samostatnou aplikaci, nejen jako nástroj pro MS Office. Neuvažujete o tom, že by v budoucnu bylo možné Grammaticon integrovat například do sady OpenOffice?
Realizovatelné to samozřejmě je, což je vidět i z toho, že Grammaticon má už v současné době tři různé výstupy. Mnoho našich produktů dodáváme jako komponenty pro celou řadu programů. Takže i případná integrace do OpenOffice nebo jiných programů je jen otázkou domluvy.
Plánuje se na nejbližší dobu nějaká vylepšená, doplněná verze Grammaticonu?
Samozřejmě i na Grammaticonu by bylo pořád co vylepšovat. Jako příklad bych uvedl problematiku velkých a malých písmen, což by byla zřejmě záležitost dalšího specializovaného slovníku. V nejbližší době ale uveřejnění další verze Grammaticonu neplánujeme.
Jakým lidem nebo profesím byste Grammaticon doporučil?
Grammaticon obsahuje dva režimy kontroly – standardní a přísnou, přičemž každý z těchto režimů je určen jiným uživatelům. Standardní kontrola je určena běžným uživatelům, kteří si v oblasti češtiny nejsou moc jistí, a tak chtějí, aby je program upozornil pouze na to, co je skutečně špatně. Potom je ale druhá skupina uživatelů, jako jsou novináři, kteří češtinu ovládají dobře a kteří se chyb dopouštějí spíše proto, že píšou rychle, než proto, že by neznali příslušná pravidla. Tito uživatelé proto spíše ocení režim přísné kontroly, kdy jsou upozorněni třeba i na jevy, které nemusí být špatně, protože jsou schopni sami určit, zda se o chybu jedná, nebo ne.
Závěrečná otázka – jak byste zhodnotil ty tři roky práce na Grammaticonu?
Pro mě osobně to byla velká zábava. Člověk může pozorovat, jak bohatý a někdy rafinovaný jazyk čeština je. Byli jsme rádi, že jsme si mohli „vyhrát“ i s pravidly, které se třeba tak často neuplatní, ať už se jedná o vokalizaci předložek (k krádeži) nebo o vyšinutí z vazby (před i po začátku jednání). V každém případě budu na ty tři roky rád vzpomínat.
Děkuji za rozhovor.
Mohlo by vás také zajímat
-
10 nejpopulárnějších programovacích jazyků a jejich využití
9. listopadu 2023 -
Užitečné nástroje pro bezpečnost na internetu
17. října 2024 -
Thunderbolt 4 vs. OCuLink: Přišel čas na upgrade?
27. května 2024
Nejnovější
-
Výkonný a kompaktní: ASOME Max Studio s výjimečným poměrem cena/výkon
11. listopadu 2024 -
Šokující data od Microsoftu: Kyberútoky rostou o stovky procent!
8. listopadu 2024 -
Chcete jedinečnou doménu? Objevte koncovky FOOD, MEME a MUSIC!
7. listopadu 2024 -
OpenAI představilo novou funkci ChatGPT Search
6. listopadu 2024