Proč (ne)používat Google Translate (2.)

Služba statistického strojového překladu Google Translate dosáhla během uplynulých čtyř let velkého úspěchu především díky skutečnosti, že jí podařilo získat přístup k obrovskému množství dvojjazyčných dokumentů: celkově se jednalo o miliardy vět a biliony slov. S pomocí statistického programu je určována pravděpodobnost, že hledaný text odpovídá segmentu, který je již obsažený v databázi. Na základě tohoto statistického srovnávání poté Google Translate nabízí překlad, který bývá více nebo méně zdařilý.


Bezesporu nejlepších výsledků je dosahováno při překladu mezi velkými světovými jazyky. Pro jazykové páry, jako jsou např. angličtina-španělština či angličtina-francouzština, je k dispozici nejvíce přeložených textů, což se samozřejmě promítne do výsledné kvality. Dalšími jazyky, u kterých je možné počítat s rozsáhlými textovými databázemi, jsou např. portugalština, němčina, ruština, čínština, japonština, hindština či arabština. Nemusí to úplně souviset s tím, kolik lidí ve skutečnosti daným jazykem hovoří. Důležitou roli zde hraje také „kulturnost“ daného národa, tedy kolik překladů z/do konkrétního jazyka bylo vytvořeno. V každém případě se musíme smířit s tím, že čeština bude mezi velkými světovými jazyky představovat spíše popelku. Domnívám se, že pro jazykový pár čeština-angličtina by ve srovnání s páry, jako jsou španělština-angličtina nebo francouzština-angličtina, mohlo být k dispozici snad kolem 2 % textů – tedy pouze nepatrný zlomek.

Pro překladače je typické, že mají problémy s některými syntaktickými jevy – tedy se vztahy mezi slovy ve větě a se správným slovosledem. Je zajímavé, že Google Translate má velké obtíže s takovým poměrně nenápadným slovním druhem, jakým jsou zájmena. U nich je totiž velmi těžké rozhodnout, na který výraz ve větě ve skutečnosti odkazují. Pokud je výraz, který je zájmenem zastupován, identifikován nesprávně, pak věta většinou zcela ztrácí svůj původní smysl. V češtině je vše navíc o to složitější, že se zájmena vyskytují ve třech rodech a v sedmi pádech. Počítačovému programu pak vlastně nezbývá nic jiného než procházet různé varianty syntaktické struktury a vybírat mezi nimi tu nejpravděpodobnější. Zvláště v případě delších souvětí, kdy vstupuje do hry velké množství různých kombinací, to však může být téměř neřešitelný problém.

Klasickým příkladem, na kterém bývá ilustrována syntaktická nejednoznačnost, je anglická věta: „Time flies like an arrow.“. Google Translate ji překládá následujícím způsobem:



Jak je vidět, jedná se o zdařilý překlad (je však hodně pravděpodobné, že si Google nenechal tento klasický příklad uniknout a do své databáze jej zařadil cíleně). Zřejmě bychom se rozhodli stejně. Vedle toho však existuje ještě několik dalších překladů této věty, které rovněž můžeme považovat za smysluplné:

  • Měř(te) rychlost much podobným způsobem, jako bys(te) měřil(i) rychlost šípu.
  • Měř(te) rychlost much podobným způsobem, jako by ji měřil šíp.
  • Měř(te) rychlost much, které jsou jako šíp.
  • Časové mouchy (všichni jedinci tohoto hmyzího druhu) mají rády (tentýž) šíp.
  • Časové mouchy (jednotliví jedinci tohoto hmyzího druhu) mají rády (specifický) šíp.
  • Čas se pohybuje v přímém směru jako šíp.
  • Časopis Time se (po odhození) pohybuje podobným způsobem jako šíp.

Google Translate však již začíná dosahovat svých limitů také v možnostech dalšího rozšiřování textových databází. Ukazuje se, že každé zdvojnásobení množství přeložených textů zvýší kvalitu dosahovaných výsledků překladače pouze o 0,5 %. A je evidentní, že rozsah databází přeložených textů není možné zdvojnásobovat donekonečna... Zdá se tedy, že techniku statistického strojového překladu, která byla založena na obrovských textových databázích a která vědomě rezignovala na pochopení významu, bude nyní třeba určitým způsobem přehodnotit. Je možné, že po 20 letech znovu přijdou ke slovu modely založené na gramatických a syntaktických pravidlech. A že se tedy překladače začnou „učit“ jazyky alespoň trochu podobným způsobem, jako je tomu v případě lidských bytostí.

Na závěr ocitujme názor Douglase Hofstadtera, amerického vědce zabývajícího se srovnáváním možností lidského rozumu a umělé inteligence, který patří k velkým kritikům současné techniky statistického počítačového překladu. Velmi důrazně varuje před představou, že porozumění jazyku je něco mechanického, co bychom mohli získat jako výstup na svoji počítačovou obrazovku.

Google Translate naprosto rezignuje na snahu o porozumění, a je proto navždy odsouzen ke stejnému neúspěchu. Občas samozřejmě dosahuje dobrých výsledků, ale v zásadě je to bezduché. Nabízejí službu velmi nízké kvality, jejímž produktem bude vždy cosi, co se příliš nepřehoupne přes úroveň nesmyslnosti. Myslím, že všichni do určité míry podlehneme tlaku ji využívat, nikdy zde však nezakusíme příchuť frází... Porozumění světu je oblastí, ve které vynikají lidé a kde jsou stroje zcela k ničemu.

Další díly seriálu Proč (ne)používat Google Translate

Žádné komentáře:

Okomentovat