Kontrola české gramatiky pro MS Office – konec korektorů v Čechách?

18. července 2005

Když jsem se dozvěděl, že společnost Microsoft představila nástroj pro kontrolu české gramatiky, mísila se ve mně zvědavost s trochou skepse. Nechtělo se mi věřit, že by „strojová“ kontrola gramatiky (a částečně i stylistiky, jak bylo avizováno) byla v případě češtiny vůbec technicky možná. Své zkušenosti s tím, co tento nástroj umí a kde jsou momentálně hranice jeho možností, jsem se pokusil zachytit v tomto článku.

Informace ze zákulisí

Jak bylo uvedeno v oficiální tiskové zprávě, vývoj nástroje Kontrola české gramatiky trval více než 5 let a podílel se na něm Ústav pro jazyk český Akademie věd České republiky společně s odborníky z Univerzity Karlovy. Softwarovou finalizaci a integraci produktu do MS Word a MS Windows zajišťovala maďarská softwarová firma MorphoLogic.

Počítá se s tím, že současná verze se bude dále zdokonalovat, a to mimo jiné na základě postřehů a námětů uživatelů. Balík MS Office, který by měl být uveřejněn na podzim příštího roku (MS Office 12), by tak měl obsahovat novou, pokročilejší verzi doplňku Kontrola české gramatiky.

Jak kontrola funguje

Jedním z hlavních kritérií při vývoji nástroje Kontrola české gramatiky byla minimalizace výskytu „falešných poplachů“, tedy chybových hlášení poukazujících na jevy, které jsou ve skutečnosti správně. Proto byla jako základ použita lingvistická teorie „vždy nesprávných vět“. Druhým důležitým kritériem pak byl samozřejmě počet reálně odhalených chyb.

Nástroj tedy vychází z jakési „presumpce neviny“ – poukáže pouze na ty věty či spojení, které jsou v každém případě a prokazatelně špatně. Je však potřeba pamatovat na to, že Kontrola české gramatiky je v podstatě stroj, a proto nemůže textu porozumět a neumí vydedukovat, „co chtěl básník říci“. Větu a její části hodnotí podle gramatických pravidel na základě rodu, pádu, čísla a podobných charakteristik. Proto řadu chyb, které se nám mohou zdát banální, zkrátka odhalit nemůže.

Činnost aplikace je možné rozdělit do čtyř kroků:

  1. Segmentace textu na slova, čísla, interpunkci a na věty.
  2. Analýza správnosti věty.
  3. Vyhledání a ohlášení chyby.
  4. Návrh na opravu.

Pokud se analyzátoru něco nelíbí, objeví se na příslušném místě zelená vlnovka. Po kliknutí pravým tlačítkem se uživatel buď přímo dozví, jak chybu opravit, nebo dostane alespoň doporučení, aby věnoval pozornost určitému slovu nebo úseku. Pro zobrazení podrobnějšího vysvětlení je nutné mít aktivovaného Pomocníka Office.

Co můžete očekávat

V porovnání s dosavadní kontrolou pravopisu jsou možnosti nového nástroje opravdu široké – Kontrola české gramatiky si všímá například těchto jevů:

  • shody přísudku s podmětem (zaregistruje například větu: Děvčata se smály.)
  • chybějící nebo přebývající interpunkce (Byl to člověk který se nikdy nevzdal.)
  • chyby v zájmenech (Žena, který zvítězila. nebo Udělal to pro jej.)
  • chyby ve slovesných tvarech (Přišel jsme, viděl jsme. nebo Chtěl bych, aby jste se tu cítili dobře.)
  • chyby v předložkách (Půjdeme na nimi.)

Na druhou stranu je nutné zopakovat, že vzhledem k již zmíněné metodě odhalování chyb, tedy hledání vždy nesprávných konstrukcí, a také vzhledem k charakteru češtiny, je Kontrola české gramatiky k určitým prohřeškům relativně velkorysá, a to ze dvou možných důvodů.

Za prvé je to tím, že věta, která člověku připadá chybná, přece jen nějaké formálně správné (byť v reálném světě nesmyslné) čtení má, a je tedy vlastně gramaticky správně. Například věta Na dvoře si hráli hezké dívky. je na první pohled špatně, v přísudku by mělo stát „hrály“ – jenže slovo „dívky“ je z formálního hlediska úplně stejný tvar podstatného jména jako slovo „hry“, a věta Na dvoře si hráli hezké hry. špatně není.

Za druhé to může být tím, že ve větě je chyb příliš mnoho, což systém buď zmate, nebo (i když systém vnitřně správně rozpozná, že věta je špatně) mu to znemožní poskytnout uživateli rozumný návrh opravy, takže žádnou chybu raději nehlásí. Například následující odstavec tak nechá současná verze zcela bez povšimnutí:

Já čekat dlouhý na Kontrole Češtiny. I když já dobrá Čecha být, toto nástroj hodí se vždy. Včera bylo slunečná den a lidé usmívali. Rád bych věřila, že hezký počasí je zítra i. Já jel zítra na výletě do spišských nová vsi!?

Rozhodně bych tímto způsobem nechtěl degradovat význam nástrojů, jako je Kontrola české gramatiky, spíš jen ukázat (a potvrdit slova tvůrců), že ani využíváním tohoto nástroje nelze „záplatovat“ nedostatek znalostí v oblasti pravopisu a gramatiky.

Osobně si ale myslím, že metodika hledání chyb byla zvolena správně. Přestože nástroj není při hledání chyb stoprocentní (a možná ani padesátiprocentní), je to podle mě lepší, než kdyby byl uživatel neustále bombardován dotazy, zda ta či ona věta není náhodou špatně.

Souhrn

Doplněk Kontrola české gramatiky pro MS Office považuji za velmi užitečný nástroj, jehož používáním určitě nic nezkazíte. Naopak vám pomůže odhalit lecjakou chybu, která by se jinak možná přehlédla (již zmiňované aby jste, záměna jsme a jsem a další).

Spílat ÚJČ a Microsoftu za to, že nestvořili dokonalý nástroj (což už někteří dělají), je nespravedlivé. Tento nástroj jistě má své nedostatky, z nichž některé se možná postupně odstraní a jiné zřejmě odstranit nepůjdou. Nelze ale požadovat, aby se lingvistické schopnosti počítače vyhouply na lidskou úroveň.

Vrátím-li se k názvu tohoto článku, musím konstatovat, že korektorům v Čechách ani s nástupem tohoto nástroje snad neodzvonilo. Přesto (anebo právě proto) ho mohu uživatelům MS Office doporučit.

Odkazy a zdroje

Starší komentáře ke článku

Pokud máte zájem o starší komentáře k tomuto článku, naleznete je zde.

Štítky: Články

Mohlo by vás také zajímat

Nejnovější

1 komentář

  1. Anonym

    Bře 9, 2011 v 12:19

    Je to krok vpřed. Mám pocit, že redaktorům tištěných medií by být mělo nařízeno tento software používat. Rozhodně jim to doporučuji. Je to nástroj sice nezralý, ale dává šanci kultivovat češtinu v povědomí veřejnosti.
    Děkuji.
    dufu

    Odpovědět

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *