Proč (ne)používat Google Translate (1.)

Automatické jazykové překladače se dnes staly pro mnoho lidí neodmyslitelným pomocníkem při brouzdání na internetu. Stačí jednoduše zadat text v určitém jazyce, vybrat si cílový jazyk a ihned získáme zdarma překlad. Na celém světě jsou tímto způsobem každý den přeloženy desítky milionů webových stránek a jiných textů. Většina lidí si však už příliš neláme hlavu nad tím, jakým způsobem bylo tohoto překladu dosaženo. Ve skutečnosti se jedná o nesmírně zajímavý proces, který má jak svoje přednosti, tak zjevné limity.

Pokusy o strojový překlad se začaly objevovat již od chvíle, kdy byly vytvořeny první počítače. Počítačoví odborníci původně vycházeli z předpokladu, že každý jazyk je možné rozdělit na dvě samostatné složky: na slova, která nesou určitý význam, a na soubor gramatických a syntaktických pravidel, s jejichž pomocí se tato slova seskupují dohromady. Výsledky, kterých bylo dosaženo, se však ukázaly jako zcela neuspokojivé. Je totiž zřejmé, že slova dostávají význam podle svého kontextu a platnost gramatických a syntaktických pravidel má velmi často značná omezení. Během studené války chtěla americká tajná služba tento postup v masovém měřítku aplikovat na překlad ruských dokumentů, výsledky však byly velmi chabé.

Zhruba před 20 lety přišla společnost IBM s odlišným přístupem, než bylo do té doby běžné. Vzdala se myšlenky, že je třeba, aby počítače textu „rozuměly“. Na místo toho do nich jednoduše vložili rozsáhlá kvanta dvoujazyčných textů a statistický program, jehož úkolem mělo být stanovení pravděpodobnosti, že určitý text odpovídá výrazu či frázi, které jsou již uložené v paměti. Protože jsme národem Járy Cimrmana, tak nás možná tolik nepřekvapí, že průkopníkem tohoto přístupu byl Čechoameričan Frederick Jelinek (nar. 1932 v Kladně), autor často citovaného bonmotu: „Pokaždé, když vyhodím lingvistu, náš systém začne dosahovat lepších výsledků“.

Před pěti lety (konkrétně 28. dubna 2006) do celé záležitosti výrazně promluvil také největší internetový gigant Google, když přišel s vlastní službou automatického strojového překladu Google Translate. V této době již začínal systém založený na statistickém srovnávání textů vykazovat určité limity. Jako velký problém se ukázal především překlad mezi jazyky, pro které je k dispozici málo paralelních dvojjazyčných textů. Google na to zareagoval tím způsobem, že do svého nového systému začlenil rozsáhlé textové databáze z vlastního projektu skenování knih a dalších internetových zdrojů. V tomto směru se mu podařilo předstihnout hlavní konkurenty na poli automatického překladu, kterými byli Bing od Microsoftu a Babel Fish od Yahoo. Velký objem dat získal Google také z přepisů dokumentů OSN, které jsou běžně překládány do 6 světových jazyků, a z dokumentů Evropského parlamentu, které jsou k dispozici ve 23 jazykových verzích.
Až do října 2007 využíval Google pro většinu jazyků rozšířený překladový systém SYSTRAN. Od této doby již používá pro všechny jazyky pouze vlastní systém. V květnu 2008 byla do projektu Google Translate přidána také čeština. V současnosti je k dispozici 57 jazyků, několik dalších jazyků (jako třeba azerbajdžánština, baskičtina či haitská kreolština) je ve fázi alfa, tzn., že jejich kvalita ještě zcela neodpovídá standardům, které si Google vytyčil. Podmínkou pro plnohodnotné zařazení určitého jazykového páru do Google Translate je dvojjazyčný textový korpus čítající více než milion slov. Zároveň však musejí být k dispozici také oba jednojazyčné korpusy s více než miliardou slov. Na základě těchto dat mohou být vytvořeny statistické modely, které slouží k překladu mezi danými jazyky.

Google Translate tedy nepokrývá všechny jazykové páry v rámci 57 oficiálně podporovaných jazyků . V případě jazykového páru, pro který neexistuje dostatečné množství paralelních dvojjazyčných textů, probíhá překlad prostřednictvím angličtiny. Pokud tedy hledáme např. překlad z maltštiny do češtiny, pak při překladu s velkou pravděpodobností nebude využita databáze paralelních maltsko-českých textů, ale proběhne nejdříve překlad z maltštiny do angličtiny a poté z angličtiny do češtiny. V důsledku tohoto převodu pochopitelně dojde k výraznému snížení kvality výsledného překladu. Při překladu mezi dvěma méně rozšířenými jazyky tedy musíme brát nabízené výsledky opravdu s velkou rezervou.

Služba Google Translate je dostupná na webových stránkách www.translate.google.com. Jednoduše ji však můžete využívat také jako součást svého internetového prohlížeče. Služba je přímo integrovaná v Google Chrome, existuje rovněž množství doplňků pro Mozilla Firefox (osobně bych doporučil méně známý doplněk gTranslator). Objevila se již také verze pro mobilní zařízení s operačním systémem Android, která funguje podobným způsobem jako v běžném webovém prohlížeči. V letošním roce k ní přibyla také oficiální aplikace pro uživatele iPhonů. Zanedlouho by se pravděpodobně měla objevit i možnost pořídit si mobilem fotku textu v určitém jazyce a s pomocí aplikace na analýzu obrázků provést překlad tohoto textu do jiného jazyka.

Další díly seriálu
Proč (ne)používat Google Translate

Žádné komentáře:

Okomentovat