Proč strojový překlad není dobrý?Tom Scott

Thumbnail play icon
Přidat do sledovaných sérií 5
85 %
Tvoje hodnocení
Počet hodnocení:249
Počet zobrazení:6 360

Překladač Google patří mezi nejlepší nástroje na překlady. Ale čím to, že ani nástroj, za kterým stojí mnohamiliardová společnost, nedokáže překládat úplně přesně? Tom Scott se to pokusí alespoň částečně vysvětlit.

Přepis titulků

Strojový překlad je nesmírně složitý. Dokážu vám to tím, že tento úvod přečtu znovu po přeložení přes Google Translator, který patří mezi nejlepší na světě, a pak po zpětném přeložení zpět do angličtiny. Strojový překlad je velmi složitý. Poté přeložený zpět do angličtiny je právě jeden z nejlepších na světě. Je to dokazuje, že když byl poslán přes překladač Google, a já poté přečtu představím.

Dobře, vybral jsem si těžký jazyk. Každý, který jsem zkoušel, způsobil různé drobné chyby. V čínštině to přeložily "Google vlasy". Ve francouzštině jsem úvod zopakoval jako "to" a ne "ho". A to jsou nesmírně jednoduché věty. Lidé, kteří mluví jediným jazykem, a já přiznávám, že do té skupiny patřím... Lidé, kteří mluví jediným jazykem, předpokládají, že si můžete otevřít slovník, vybrat si správná slova, trochu zamíchat s gramatikou a tak získáte funkční větu.

U jednoduchých vět je to pravda. Ale jen málo běžných vět je tak snadných. Google zveřejnil práci o tom, jak strojový překlad zredukovali na problém vektorové matematiky, která reprezentuje koncept abstraktního jazykového prostředí. To se hodí při přepisu konceptů do slov a při rozpoznávání homograf.

To jsou slova, která mohou mít různé významy. S nimi se vyrovnáte díky kontextu. Dny, kdy "hydraulic ram" bylo překládáno jako "vodní ovce", jsou minulostí. Klasický inženýr. Pro formální technické dokumenty to může fungovat dobře. Ale s každodenní komunikací to nefunguje tak snadno. Například překlad mezi anglickou a americkou angličtinou nemusí být snadný. Nejen proto, že "hood" u vás znamená kapotu, u nás klobouk.

Ale i proto, že "to je smělá myšlenka" v britské angličtině není kompliment. Znamená to, že vaše představa je nesplnitelná. Existují koncepty, které se mezi různými jazyky neshodují. Bonne nuit může znamenat to samé jako buenas noches. Omlouvám se za svou výslovnost. Jedno znamená "dobrou noc", když jdete spát. To druhé znamená "ahoj" nebo "sbohem" kdykoliv po setmění.

Existují koncepty, které se vůbec přeložit nedají. Ve francouzštině se "ty" překládá jako vous, pokud někomu vyjadřujete jistou úctu. Ale v běžné konverzaci se to překládá jako "tu". Nebo pokud mluvíte k Bohu. Ano, Bůh je Tu. Překladač oboje při překladu do angličtiny změní na "ty". Ale při překladu zpět do francouzštiny nebude vědět, jaký druh "ty" to je. A tohle je pouze jednoduchý systém různého postavení lidí. Korejština má mnohem komplikovanější systém různých výrazů pro různé situace.

Pamatujete si tu opakující se větu? Oppa Gangnam style. Anglický překlad slova "oppa" je starší bratr ženy. Ale v běžném rozhovoru je to označení, které se řídí množstvím komplikovaných a nejasných pravidel, které rodilým mluvčím budou dávat smysl. Aby to bylo ještě složitější, PSY tam o sobě mluví ve třetí osobě. Při překladu z korejštiny to zní divně. Není možné přeložit plný význam tohoto spojení do jediné anglické věty.

Dál existuje problém se sdíleným očekáváním. Anglicky mluvící kultury bývají monochronní. Když si s někým dáte schůzku v jedenáct dopoledne, čeká se, že tam kolem jedenácté budete. Skupiny přátel se tím občas řídit nemusí. Když párty začíná v 18 hodin, lidi přijdou mezi 18:30 a 21 hodinou. Představte si ten nedostatek přesnosti a obecné přijímání nedostatku přesnosti, jak se promítne do všech aspektů každodenního života.

Vítejte ve zbytku světa. Obří část tohoto světa funguje na polychronním vnímání času. "Dvě schůzky ve stejnou dobu? V pohodě, to pochopí." A taky že pochopí. Asi není třeba říkat, že často nastává střet kultur, když se setkají monochronní a polychronní lidé. Ale strojový překladač nevezme anglickou větu "Sejdeme se v 19 hodin" a nepřidá poznámku pro někoho z polychronní kultury, že skutečně myslíte přesně 19 hodin a když nepřijde, budete naštvaný.

A nakonec, když chcete něco přesně přeložit, nestačí přiřazovat slova ke konceptům. Musíte chápat sociální strukturu, podtext, nuance, narážky... Musíte chápat teorii myšlení. Myšlenku, že mluvčí i posluchač své přesvědčení vyjadřují výběrem slov. Překladače musí být schopné se autora výroku ptát na otázky. Tak by mohly být schopné zjistit jemné rozdíly ve významu podle úmyslu.

Problémem není, že jazyk je chaotický. Počítače si s chaosem poradí. Dnes dokážou CAPTCHA řešit lépe než lidé. Problémem je, že věty jsou založeny na záměrech, na sdílených tajemstvích, skupinové identitě a skrytých znalostech. Nechápejte mě špatně, strojový překlad je užitečný nástroj. Ale představa, že stroj překládá lépe než člověk, je odvážnou myšlenkou.

Překlad: Mithril www.videacesky.cz

Komentáře (26)

Zrušit a napsat nový komentář

Odpovědět

Dobrý by bylo, kdyby na konci v titulcích bylo: "Překlad: Google Translate" :D

00

Odpovědět

Parádní video, díky za něj.

30

Odpovědět

Proč ste u tý francouštiny nepoužili normální český "vy" a "ty"? Nebylo by to daleko srozumitelnější? Význam to má stejnej (z toho co jsem pochopil), tak ste to rovnou mohli přeložit do češtiny, kde to funguje stejně...

391

Odpovědět

Proč ste u tý vrancouštiny nepoužili normální český "vy" a "ty"? Nebylo by to daleko srozumitelnější? Význam to má stejnej (z toho co jsem pochopil), tak ste to rovnou mohli přeložit do češtiny, kde to funguje stejně...

72

Odpovědět

... fucking double post... smažte to pls xD

Jinak kde je ten slibovanej web? Tam už by snad mohlo bejt něco jako upravování/mazání postů...

141

Odpovědět

+Jménoಠ_ಠ
http://www.videacesky.cz/hudebni-klipy-videoklipy-hudba/umelci-vs-zelvy-ninja-erb#comment-325288

50

Odpovědět

+JménoAdBlock a nemusíš řešit toho zmrda z Alzy :)

52

Odpovědět

+JménoMám Adblock a mám ho konkrétně na VČ vypnutý a žadnýho alzáckýho zmrda jsem před přehráním videa neviděl.
Pokud bych měl hádat, má to na svědomí YouTube, které by nejraději podmínilo reklamou i zobrazení komentářů. S tím tady asi moc nenadělají.

60

Odpovědět

+JménoSuper odkaz, ale info zase žádný... nejdřív se říkalo, že snad do konce listopadu, pak, že určitě do konce roku... a teď se pro jistotu neříká vůbec nic.

00

Odpovědět

+JménoMožná, že kdyby jednou normálně odpověděli - např. "pracuje se na tom, snad do konce března"... tak by měli aspoň do konce března zase klid - pak se pochopitelně začnou lidi zase ptát.

00

Odpovědět

To mi připomnělo, když zkoušeli vytvořit robota, který by rozuměl a mohl si povídat s člověkem.
Problém nastal, že stroje nedokáží pochopit jak to vlastně myslíme a nepochopí nás.
Takový příklad, řeknu mu: Střelil jsem slona v pyžamu. Teď je otázkou, kdo byl v pyžamu, já nebo ten slon ?
Abychom měli přesnější překlad, museli by jsme tomu stroji či softwaru nastínit všechny okolnosti, proto ještě dlouho potrvá, než všichni přestanou nadávat na Google překladač. :)

271

Odpovědět

To, co popisuješ, není problém jen umělé inteligence. Spoustu víceznačných vět si může špatně interpretovat i člověk, pokud nezná okolnosti. Modelová věta: Podnikání jim zachránilo manželství. ;)

230

Odpovědět

Z mého pohledu je spíše otázkou, komu jsi toho slona v pyžamu střelil...

460


Odpovědět

Ženu holí stroj.

11

Odpovědět

Nic moc.

1035

Odpovědět

No prave ze presne vyjadril, proc si nikdy nepujde do ucha strcit rybku, ktera ti vsechno prelozi :) proste ani nejde o ten jazyk, ale o kulturu a kontext ..... jak ja bych chtel tu rybku :)

334

Odpovědět

+ghostRybka (myšleno tím rybka ze stopaře) by fungovala, právě díky tomu, že nepřekládala jednotlivá slova, nýbrž k překladu využívala samotnou myšlenkovou energii. Takže sorry ale rybky by fungovaly.

240

Odpovědět

+ghostMas pravdu :) musim si zase precist stopare :)

40

Odpovědět

Pravda není vždycky zábavná.

Tohle video bych doporučil všem co na překladatele pořád pořvávají věty typu:

"To bych zvládl přeložit lépe."
"Co vám na tom tak dlouho trvá?"
"Podle google translátoru to znamená něco jiného."

601

Odpovědět

+EdvinTu poslední větu snad nikdo nemůže myslet vážně. :D

362

Odpovědět

+EdvinJako by tu někdo pravidelně tyhle věty pořvával. Pravda nemusí být zábavná, ale od videa jsem čekal nějaké hlubší informace, než které zná každý kdo nemá strčenou hlavu ve skříni.
Navíc bych o problematice překladu poslouchal raději od programátora či lingvisty, kteří tomu aspoň rozumí. Z videa bylo jasně vidět, že to není jeho obor a jen opakuje obecně známé informace.
Když je to naučný kanál, tak bych čekal, že rozebere limity neuronových sítí translátoru a aspoň nastíní časový horizont, kdy se naučí ve většině jazyků dost na to, aby dokázaly statisticky odhadnout z kontextu správný tvar.
Díky velikosti uživatelské základny google si myslím, že to zase tak vzdálená budoucnost nebude.

151

Odpovědět

+Edvin*Tady* ty věty sice nikdo nepořvává (i když komentářů typu „"I know, right?!" Překlad: "Hustý, co?" DAFUQ?!“ tu i tak najdeš požehnaně), ale věř mi, že třeba u překladu her se s tím setkáš víc, než by bylo zdrávo.

Ještě moje oblíbené:
Týpek 1: Chybí vám inovace! Jste zoufale strojoví.
(proběhne oprava)
Týpek 2: Vy se ale vůbec nedržíte originálu!

A vážně chceš, aby tě nudili detaily o paralelních korpusech a tak? Myslím, že podstatu ve videu vystihli.

90

Odpovědět

+Edvin"A vážně chceš, aby tě nudili detaily o paralelních korpusech a tak?"

Každého, kdo tam vidí hrubku, právě doběhl problém víceznačnosti. Má si program myslet, že je tam hrubka, nebo dosadit nevyjádřený podmět? A co když to nakonec je jen hrubka? :D A v mluveném slově to je naprosto neřešitelné.

Věci, které se dají odvodit z obecné znalosti o světě, kultuře mluvčího příslušného jazyka atp., tak snad...jednou. Ale jestli na spoustu věcí nedojde člověk, a to už jen z podstaty problematiky, tak jak chcete, aby to programy dělaly za něj? To už bude smysluplnější jít hledat tu Babylonskou rybku :)

20

Odpovědět

+EdvinTak tu poslední větu: „Podle google translátoru to znamená něco jiného.“
jsem viděl jednou u překladu HIMYM.
Tuším, že tam šlo o nějaký rým a v originále bylo že něco yellow a překladatel aby se to rýmovalo, tak to přeložil na zelenou barvu a kdosi v překladu mu vytkl, že yellow je žlutá...

90

Odpovědět

+EdvinFlagellum dei: Ale může. Na jednom fóru mě jistý exot obviňoval ze lhaní, protože jsem přeložil japonské přísloví jinak (správně podle rodilého mluvčího) než google translator a trval na tom.

60