Proč strojový překlad není dobrý?Tom Scott
5
Překladač Google patří mezi nejlepší nástroje na překlady. Ale čím to, že ani nástroj, za kterým stojí mnohamiliardová společnost, nedokáže překládat úplně přesně? Tom Scott se to pokusí alespoň částečně vysvětlit.
Přepis titulků
Strojový překlad je nesmírně složitý. Dokážu vám to tím, že tento úvod přečtu znovu po přeložení přes Google Translator, který patří mezi nejlepší na světě, a pak po zpětném přeložení zpět do angličtiny. Strojový překlad je velmi složitý. Poté přeložený zpět do angličtiny je právě jeden z nejlepších na světě. Je to dokazuje, že když byl poslán přes překladač Google, a já poté přečtu představím.
Dobře, vybral jsem si těžký jazyk. Každý, který jsem zkoušel, způsobil různé drobné chyby. V čínštině to přeložily "Google vlasy". Ve francouzštině jsem úvod zopakoval jako "to" a ne "ho". A to jsou nesmírně jednoduché věty. Lidé, kteří mluví jediným jazykem, a já přiznávám, že do té skupiny patřím... Lidé, kteří mluví jediným jazykem, předpokládají, že si můžete otevřít slovník, vybrat si správná slova, trochu zamíchat s gramatikou a tak získáte funkční větu.
U jednoduchých vět je to pravda. Ale jen málo běžných vět je tak snadných. Google zveřejnil práci o tom, jak strojový překlad zredukovali na problém vektorové matematiky, která reprezentuje koncept abstraktního jazykového prostředí. To se hodí při přepisu konceptů do slov a při rozpoznávání homograf.
To jsou slova, která mohou mít různé významy. S nimi se vyrovnáte díky kontextu. Dny, kdy "hydraulic ram" bylo překládáno jako "vodní ovce", jsou minulostí. Klasický inženýr. Pro formální technické dokumenty to může fungovat dobře. Ale s každodenní komunikací to nefunguje tak snadno. Například překlad mezi anglickou a americkou angličtinou nemusí být snadný. Nejen proto, že "hood" u vás znamená kapotu, u nás klobouk.
Ale i proto, že "to je smělá myšlenka" v britské angličtině není kompliment. Znamená to, že vaše představa je nesplnitelná. Existují koncepty, které se mezi různými jazyky neshodují. Bonne nuit může znamenat to samé jako buenas noches. Omlouvám se za svou výslovnost. Jedno znamená "dobrou noc", když jdete spát. To druhé znamená "ahoj" nebo "sbohem" kdykoliv po setmění.
Existují koncepty, které se vůbec přeložit nedají. Ve francouzštině se "ty" překládá jako vous, pokud někomu vyjadřujete jistou úctu. Ale v běžné konverzaci se to překládá jako "tu". Nebo pokud mluvíte k Bohu. Ano, Bůh je Tu. Překladač oboje při překladu do angličtiny změní na "ty". Ale při překladu zpět do francouzštiny nebude vědět, jaký druh "ty" to je. A tohle je pouze jednoduchý systém různého postavení lidí. Korejština má mnohem komplikovanější systém různých výrazů pro různé situace.
Pamatujete si tu opakující se větu? Oppa Gangnam style. Anglický překlad slova "oppa" je starší bratr ženy. Ale v běžném rozhovoru je to označení, které se řídí množstvím komplikovaných a nejasných pravidel, které rodilým mluvčím budou dávat smysl. Aby to bylo ještě složitější, PSY tam o sobě mluví ve třetí osobě. Při překladu z korejštiny to zní divně. Není možné přeložit plný význam tohoto spojení do jediné anglické věty.
Dál existuje problém se sdíleným očekáváním. Anglicky mluvící kultury bývají monochronní. Když si s někým dáte schůzku v jedenáct dopoledne, čeká se, že tam kolem jedenácté budete. Skupiny přátel se tím občas řídit nemusí. Když párty začíná v 18 hodin, lidi přijdou mezi 18:30 a 21 hodinou. Představte si ten nedostatek přesnosti a obecné přijímání nedostatku přesnosti, jak se promítne do všech aspektů každodenního života.
Vítejte ve zbytku světa. Obří část tohoto světa funguje na polychronním vnímání času. "Dvě schůzky ve stejnou dobu? V pohodě, to pochopí." A taky že pochopí. Asi není třeba říkat, že často nastává střet kultur, když se setkají monochronní a polychronní lidé. Ale strojový překladač nevezme anglickou větu "Sejdeme se v 19 hodin" a nepřidá poznámku pro někoho z polychronní kultury, že skutečně myslíte přesně 19 hodin a když nepřijde, budete naštvaný.
A nakonec, když chcete něco přesně přeložit, nestačí přiřazovat slova ke konceptům. Musíte chápat sociální strukturu, podtext, nuance, narážky... Musíte chápat teorii myšlení. Myšlenku, že mluvčí i posluchač své přesvědčení vyjadřují výběrem slov. Překladače musí být schopné se autora výroku ptát na otázky. Tak by mohly být schopné zjistit jemné rozdíly ve významu podle úmyslu.
Problémem není, že jazyk je chaotický. Počítače si s chaosem poradí. Dnes dokážou CAPTCHA řešit lépe než lidé. Problémem je, že věty jsou založeny na záměrech, na sdílených tajemstvích, skupinové identitě a skrytých znalostech. Nechápejte mě špatně, strojový překlad je užitečný nástroj. Ale představa, že stroj překládá lépe než člověk, je odvážnou myšlenkou.
Překlad: Mithril www.videacesky.cz
Dobře, vybral jsem si těžký jazyk. Každý, který jsem zkoušel, způsobil různé drobné chyby. V čínštině to přeložily "Google vlasy". Ve francouzštině jsem úvod zopakoval jako "to" a ne "ho". A to jsou nesmírně jednoduché věty. Lidé, kteří mluví jediným jazykem, a já přiznávám, že do té skupiny patřím... Lidé, kteří mluví jediným jazykem, předpokládají, že si můžete otevřít slovník, vybrat si správná slova, trochu zamíchat s gramatikou a tak získáte funkční větu.
U jednoduchých vět je to pravda. Ale jen málo běžných vět je tak snadných. Google zveřejnil práci o tom, jak strojový překlad zredukovali na problém vektorové matematiky, která reprezentuje koncept abstraktního jazykového prostředí. To se hodí při přepisu konceptů do slov a při rozpoznávání homograf.
To jsou slova, která mohou mít různé významy. S nimi se vyrovnáte díky kontextu. Dny, kdy "hydraulic ram" bylo překládáno jako "vodní ovce", jsou minulostí. Klasický inženýr. Pro formální technické dokumenty to může fungovat dobře. Ale s každodenní komunikací to nefunguje tak snadno. Například překlad mezi anglickou a americkou angličtinou nemusí být snadný. Nejen proto, že "hood" u vás znamená kapotu, u nás klobouk.
Ale i proto, že "to je smělá myšlenka" v britské angličtině není kompliment. Znamená to, že vaše představa je nesplnitelná. Existují koncepty, které se mezi různými jazyky neshodují. Bonne nuit může znamenat to samé jako buenas noches. Omlouvám se za svou výslovnost. Jedno znamená "dobrou noc", když jdete spát. To druhé znamená "ahoj" nebo "sbohem" kdykoliv po setmění.
Existují koncepty, které se vůbec přeložit nedají. Ve francouzštině se "ty" překládá jako vous, pokud někomu vyjadřujete jistou úctu. Ale v běžné konverzaci se to překládá jako "tu". Nebo pokud mluvíte k Bohu. Ano, Bůh je Tu. Překladač oboje při překladu do angličtiny změní na "ty". Ale při překladu zpět do francouzštiny nebude vědět, jaký druh "ty" to je. A tohle je pouze jednoduchý systém různého postavení lidí. Korejština má mnohem komplikovanější systém různých výrazů pro různé situace.
Pamatujete si tu opakující se větu? Oppa Gangnam style. Anglický překlad slova "oppa" je starší bratr ženy. Ale v běžném rozhovoru je to označení, které se řídí množstvím komplikovaných a nejasných pravidel, které rodilým mluvčím budou dávat smysl. Aby to bylo ještě složitější, PSY tam o sobě mluví ve třetí osobě. Při překladu z korejštiny to zní divně. Není možné přeložit plný význam tohoto spojení do jediné anglické věty.
Dál existuje problém se sdíleným očekáváním. Anglicky mluvící kultury bývají monochronní. Když si s někým dáte schůzku v jedenáct dopoledne, čeká se, že tam kolem jedenácté budete. Skupiny přátel se tím občas řídit nemusí. Když párty začíná v 18 hodin, lidi přijdou mezi 18:30 a 21 hodinou. Představte si ten nedostatek přesnosti a obecné přijímání nedostatku přesnosti, jak se promítne do všech aspektů každodenního života.
Vítejte ve zbytku světa. Obří část tohoto světa funguje na polychronním vnímání času. "Dvě schůzky ve stejnou dobu? V pohodě, to pochopí." A taky že pochopí. Asi není třeba říkat, že často nastává střet kultur, když se setkají monochronní a polychronní lidé. Ale strojový překladač nevezme anglickou větu "Sejdeme se v 19 hodin" a nepřidá poznámku pro někoho z polychronní kultury, že skutečně myslíte přesně 19 hodin a když nepřijde, budete naštvaný.
A nakonec, když chcete něco přesně přeložit, nestačí přiřazovat slova ke konceptům. Musíte chápat sociální strukturu, podtext, nuance, narážky... Musíte chápat teorii myšlení. Myšlenku, že mluvčí i posluchač své přesvědčení vyjadřují výběrem slov. Překladače musí být schopné se autora výroku ptát na otázky. Tak by mohly být schopné zjistit jemné rozdíly ve významu podle úmyslu.
Problémem není, že jazyk je chaotický. Počítače si s chaosem poradí. Dnes dokážou CAPTCHA řešit lépe než lidé. Problémem je, že věty jsou založeny na záměrech, na sdílených tajemstvích, skupinové identitě a skrytých znalostech. Nechápejte mě špatně, strojový překlad je užitečný nástroj. Ale představa, že stroj překládá lépe než člověk, je odvážnou myšlenkou.
Překlad: Mithril www.videacesky.cz


Komentáře (0)