Vliv neuronových sítí na vývoj strojového překladu. Umělá inteligence v prohlížeči Yandex. Neural Machine Translation: proč až teď

Na moderním internetu existuje více než 630 milionů stránek, ale pouze 6 % z nich obsahuje obsah v ruském jazyce. Jazyková bariéra - hlavní problémšíření znalostí mezi uživateli sítě a domníváme se, že by to mělo být řešeno nejen výukou cizích jazyků, ale také pomocí automat. strojový překlad v prohlížeči.

Dnes čtenářům Habr řekneme o dvou důležitých technologických změnách v překladači Yandex.Browser. Za prvé, překlad vybraných slov a frází nyní používá hybridní model a připomeneme si, čím se tento přístup liší od použití pouze neuronových sítí. Za druhé, neuronové sítě překladatele nyní zohledňují strukturu webových stránek, o jejichž vlastnostech si také povíme pod řezem.

Hybridní překladač slov a frází

První systémy strojového překladu byly založeny na slovníky a pravidla(ve skutečnosti ručně psané regulární výrazy), které určovaly kvalitu překladu. Profesionální lingvisté léta pracují na vývoji stále podrobnějších manuálních pravidel. Práce byla tak pracná, že se vážná pozornost věnovala pouze nejoblíbenějším dvojicím jazyků, ale i v nich stroje fungovaly špatně. Živý jazyk je velmi složitý systém, který se dobře neřídí pravidly. Ještě obtížnější je popsat párovací pravidla dvou jazyků.

Jediný způsob, jak se stroj neustále přizpůsobovat měnícím se podmínkám, je učit se sám z velkého množství paralelních textů (významově stejných, ale psaných v různé jazyky). Toto je statistický přístup ke strojovému překladu. Počítač porovnává paralelní texty a nezávisle identifikuje vzory.

Na statistický překladač existují výhody i nevýhody. Na jednu stranu si dobře pamatuje vzácná a složitá slova a fráze. Pokud se setkali v paralelních textech, překladatel si je zapamatuje a bude dále správně překládat. Na druhou stranu může být výsledek překladu podobný hotovému puzzle: celkový obrázek se zdá být jasný, ale když se podíváte pozorně, uvidíte, že se skládá ze samostatných dílků. Důvodem je, že překladatel uvádí jednotlivá slova jako identifikátory, které v žádném případě nevyjadřují vztah mezi nimi. Nezapadá to do toho, jak lidé vnímají jazyk, kde jsou slova definována tím, jak se používají, jak souvisí s jinými slovy a jak se od nich liší.

Pomáhá vyřešit tento problém neuronové sítě. Vkládání slov, používané v neuronovém strojovém překladu, obvykle mapuje každé slovo na vektor dlouhý několik stovek čísel. Vektory se na rozdíl od jednoduchých identifikátorů ze statistického přístupu tvoří při trénování neuronové sítě a berou v úvahu vztahy mezi slovy. Model by například mohl rozpoznat, že protože „čaj“ a „káva“ se často objevují v podobných kontextech, obě tato slova by měla být možná v kontextu nového slova „rozlití“, s nímž se řekněme setkáte pouze s jedním z nich. tréninková data.

Proces učení vektorových reprezentací je však jednoznačně statisticky náročnější než memorování příkladů nazpaměť. Navíc není jasné, co dělat s těmi vzácnými vstupními slovy, která nejsou dostatečně častá, aby pro ně síť vytvořila přijatelnou vektorovou reprezentaci. V této situaci je logické obě metody kombinovat.

Od minulého roku používá Yandex.Translate hybridní model. Když Překladač obdrží od uživatele text, odešle jej k překladu do obou systémů – jak do neuronové sítě, tak do statistického překladače. Algoritmus založený na metodě učení pak vyhodnotí, který překlad je lepší. Při známkování se berou v úvahu desítky faktorů – od délky věty (krátké fráze se lépe překládají statistickým modelem) až po syntaxi. Překlad uznaný jako nejlepší se zobrazí uživateli.

Je to hybridní model, který se nyní používá v Yandex.Browser, kdy uživatel vybírá konkrétní slova a fráze na stránce pro překlad.

Tento režim je vhodný zejména pro ty, kteří obecně vlastní cizí jazyk a chtěli byste překládat pouze neznámá slova. Pokud ale například místo obvyklé angličtiny potkáte čínštinu, pak se bez překladače stránek jen těžko obejdete. Zdálo by se, že rozdíl je pouze v objemu přeloženého textu, ale ne vše je tak jednoduché.

Překladač webových stránek pro neuronové sítě

Od dob experimentu v Georgetownu až téměř do dnešních dnů byly všechny systémy strojového překladu trénovány tak, aby překládaly každou větu zdrojového textu samostatně. Zatímco webová stránka není jen soubor vět, ale strukturovaný text, který obsahuje zásadně odlišné prvky. Zvažte základní prvky většiny stránek.

záhlaví. Obvykle jasný a velký text, který vidíme hned při vstupu na stránku. Titulek často obsahuje podstatu zprávy, proto je důležité jej správně přeložit. To se ale těžko podaří, protože text v nadpisu je malý a bez pochopení kontextu můžete udělat chybu. V případě angličtiny je to ještě složitější, protože anglicky psané titulky často obsahují fráze s netradiční gramatikou, infinitivy nebo dokonce přeskakující slovesa. Například, Ohlášen prequel Game of Thrones.

Navigace. Slova a fráze, které nám pomáhají při navigaci na webu. Například, Domov, Zadní A Můj účet sotva stojí za to překládat jako „Domů“, „Zpět“ a „Můj účet“, pokud se nacházejí v nabídce webu a nikoli v textu publikace.

Hlavní text. Všechno je s ním snazší, jen málo se liší od běžných textů a vět, které můžeme najít v knihách. Ale i zde je důležité zajistit konzistenci překladů, tedy zajistit, aby stejné termíny a pojmy byly překládány stejným způsobem na stejné webové stránce.

Pro kvalitní překlad webových stránek nestačí použít neuronovou síť nebo hybridní model – je třeba vzít v úvahu i strukturu stránek. A kvůli tomu jsme se museli vypořádat s mnoha technologickými potížemi.

Klasifikace textových segmentů. K tomu opět využíváme CatBoost a faktory založené jak na samotném textu, tak na HTML značení dokumentů (tag, velikost textu, počet odkazů na jednotku textu, ...). Faktory jsou značně heterogenní, takže nejlepší výsledky vykazuje CatBoost (založený na zesílení gradientu) (přesnost klasifikace je nad 95 %). Samotná klasifikace segmentů však nestačí.

Údaje jsou zkreslené. Algoritmy Yandex.Translate jsou tradičně trénovány na textech z internetu. Zdálo by se, že toto dokonalé řešení vyškolit překladatele webových stránek (jinými slovy, síť se učí z textů stejného charakteru jako texty, na které to budeme aplikovat). Ale jakmile jsme se naučili oddělovat různé segmenty od sebe, našli jsme zajímavá vlastnost. Obsah tvoří v průměru asi 85 % veškerého textu na webových stránkách, přičemž nadpisy a navigace tvoří každý pouze 7,5 %. Připomeňme také, že samotné nadpisy a navigační prvky se výrazně liší stylem a gramatikou od zbytku textu. Kombinace těchto dvou faktorů vede k problému zkreslení dat. Pro neuronovou síť je výhodnější jednoduše ignorovat vlastnosti těchto velmi špatně zastoupených segmentů v trénovacím vzorku. Síť se naučí dobře překládat pouze hlavní text, což trpí na kvalitě překladu nadpisů a navigace. Abychom tento nepříjemný efekt neutralizovali, udělali jsme dvě věci: ke každé dvojici paralelních vět jsme přiřadili jeden ze tří typů segmentů (obsah, nadpis nebo navigaci) jako metainformaci a uměle jsme zvýšili koncentraci posledních dvou v tréninkovém korpusu. na 33 % díky tomu, že se začaly častěji ukazovat podobné příklady jako učící se neuronová síť.

Víceúkolové učení. Vzhledem k tomu, že jsme nyní schopni rozdělit texty na webových stránkách do tří tříd segmentů, mohlo by se zdát jako přirozený nápad natrénovat tři samostatné modely, z nichž každý si poradí s překladem jiného typu textu – nadpisů, navigace resp. obsah. To opravdu funguje dobře, ale ještě lépe funguje schéma, ve kterém trénujeme jednu neuronovou síť na překlad všech typů textů najednou. Klíč k porozumění spočívá v myšlence učení více úkolů (MTL): pokud mezi více úkoly strojové učení Pokud existuje vnitřní spojení, pak model, který se naučí řešit tyto problémy současně, se může naučit řešit každý z problémů lépe než úzkoprofilový specializovaný model!

doladění. Již jsme měli velmi dobrý strojový překlad, takže by bylo nerozumné školit nového překladatele pro Yandex.Browser od začátku. Logičtější je vzít si základní systém pro překlad běžných textů a natrénovat ho na práci s webovými stránkami. V souvislosti s neuronovými sítěmi se tomu často říká jemné doladění. Pokud se ale k tomuto problému postavíme čelem, tzn. stačí inicializovat váhy neuronové sítě s hodnotami z hotového modelu a začít se učit z nových dat, můžete narazit na efekt posunu domény: jak se budete učit, kvalita překladu webových stránek (v doméně) se zvýší, ale kvalita překladu běžných (mimo doménových) textů klesne. Abychom se této nepříjemné vlastnosti zbavili, při dodatečném tréninku uvalíme na neuronovou síť další omezení a zakážeme jí příliš měnit váhy oproti výchozímu stavu.

Matematicky je to vyjádřeno přidáním termínu ke ztrátové funkci (ztrátové funkci), což je Kullback-Leiblerova vzdálenost (KL-divergence) mezi pravděpodobnostními rozděleními generování dalšího slova, vydanými původní a přeškolenou sítí. Jak je vidět na ilustraci, má to za následek, že zkvalitnění překladu webových stránek již nevede k degradaci překladu prostého textu.

Leštění frekvenčních frází z navigace. V procesu práce na novém překladači jsme sbírali statistiky textů různých segmentů webových stránek a viděli něco zajímavého. Texty související s navigačními prvky jsou poměrně standardizované, takže často představují stejné standardní fráze. To je tak silný efekt, že více než polovina všech navigačních frází nalezených na internetu je v pouhých 2 000 nejčastějších.

Samozřejmě jsme toho využili a několik tisíc nejčastějších frází a jejich překladů dali k ověření našim překladatelům, abychom si byli naprosto jisti jejich kvalitou.

Vnější vyrovnání. Na překladač webových stránek v prohlížeči byl ještě jeden důležitý požadavek – neměl by zkreslovat označení. Když jsou HTML tagy umístěny mimo věty nebo na jejich hranicích, nevzniká žádný problém. Ale pokud je uvnitř věty např. dva podtrženo slova, pak v překladu chceme vidět „dva podtrženo slova“. Tito. V důsledku převodu musí být splněny dvě podmínky:

  1. Podtržený fragment v překladu musí přesně odpovídat podtrženému fragmentu ve zdrojovém textu.
  2. Konzistence překladu na hranicích podtrženého fragmentu by neměla být narušena.
Abychom zajistili toto chování, nejprve přeložíme text jako obvykle a poté pomocí statistických modelů zarovnání slov po slovech určíme shodu mezi fragmenty zdrojového a přeloženého textu. To pomáhá pochopit, co je třeba podtrhnout (kurzívou, hypertextovým odkazem, ...).

Pozorovatel křižovatky. Výkonné modely překladu neuronových sítí, které jsme trénovali, vyžadují znatelně více výpočetních zdrojů na našich serverech (jak CPU, tak GPU) než předchozí generace statistických modelů. Uživatelé zároveň ne vždy dočtou stránky až do konce, takže odesílání celého textu webových stránek do cloudu vypadá nadbytečně. Abychom ušetřili zdroje serveru a uživatelský provoz, naučili jsme používat Překladač

Webové stránky indexované vyhledávači mají více než půl miliardy kopií a celkový počet webových stránek je desetitisíckrát větší. Obsah v ruštině zabírá 6 % celého internetu.

Jak přeložit požadovaný text rychle a tak, aby byl zachován autorův zamýšlený význam. Staré metody modulů statistického překladu obsahu fungují velmi pochybně, protože nelze přesně určit skloňování slov, čas a další. Povaha slov a vazby mezi nimi je složitá, což někdy způsobovalo, že výsledek vypadal velmi nepřirozeně.

Nyní Yandex používá automatický strojový překlad, který zvýší kvalitu výsledného textu. Stáhnout nejnovější oficiální verze prohlížeč s novým vestavěným překladem, můžete .

Hybridní překlad frází a slov

Prohlížeč Yandex je jediný, který dokáže přeložit stránku jako celek i jednotlivě slova a fráze. Funkce bude velmi užitečná pro ty uživatele, kteří víceméně mluví cizím jazykem, ale někdy se potýkají s potížemi s překladem.

Neuronová síť zabudovaná do mechanismu překladu slov si ne vždy poradila se stanovenými úkoly, protože vzácná slova bylo extrémně obtížné vložit do textu a učinit jej čitelným. Nyní byla do aplikace zabudována hybridní metoda využívající staré i nové technologie.

Mechanismus je následující: program přijme vybrané věty nebo slova, pak je předá oběma modulům neuronové sítě a statistickému překladači a vestavěný algoritmus určí, který výsledek je lepší, a ten pak dá uživateli.

Překladač neuronových sítí

Zahraniční obsah je navržen velmi specifickým způsobem:

  • první písmena slov v nadpisech jsou velká;
  • věty jsou sestaveny se zjednodušenou gramatikou, některá slova jsou vynechána.

Navigační nabídky na webových stránkách jsou analyzovány na základě jejich umístění, jako je například slovo Zpět, správně přeloženo zpět (jít zpět), ne zpět.

Aby byly zohledněny všechny výše uvedené funkce, vývojáři navíc vytrénovali neuronovou síť, která již využívá obrovské množství textových dat. Nyní je kvalita překladu ovlivněna umístěním obsahu a jeho designem.

Výsledky aplikovaného překladu

Kvalitu překladu lze měřit pomocí algoritmu BLEU*, který porovnává strojové a profesionální překlady. Stupnice kvality od 0 do 100 %.

Čím lepší neurální translace, tím vyšší procento. Podle tohoto algoritmu začal prohlížeč Yandex překládat 1,7krát lépe.

Služba Yandex.Translate začala využívat technologie neuronové sítě při překladu textů, který zlepšuje kvalitu překladu, informoval web v Yandexu.

Do záložek

Služba funguje na hybridním systému, vysvětlil Yandex: technologie překladu pomocí neuronové sítě byla přidána do statistického modelu, který v Translatoru funguje od spuštění.

„Na rozdíl od statistického překladače neuronová síť nerozděluje texty na samostatná slova a fráze. Jako vstup obdrží celou větu a vydá její překlad,“ vysvětlil zástupce společnosti. Tento přístup podle něj umožňuje zohlednit kontext a lépe zprostředkovat význam překládaného textu.

Statistický model se zase lépe vyrovnává se vzácnými slovy a frázemi, zdůrazněnými v Yandexu. "Pokud význam věty není jasný, nefantazíruje, jak to neuronová síť může udělat," poznamenala společnost.

Při překladu služba využívá oba modely, algoritmus strojového učení pak výsledky porovná a nabídne podle ní nejlepší možnost. „Hybridní systém vám umožňuje využít to nejlepší z každé metody a zlepšit kvalitu překladu,“ říkají v Yandexu.

Během dne 14. září by se ve webové verzi Překladače měl objevit přepínač, se kterým můžete porovnávat překlady provedené hybridním a statistickým modelem. Zároveň někdy služba nemusí změnit texty, společnost poznamenala: "To znamená, že hybridní model rozhodl, že statistický překlad je lepší."

nebo kvantita přeroste v kvalitu

Článek na základě vystoupení na konferenci RIF + CIB 2017.

Neural Machine Translation: proč až nyní?

O neuronových sítích se mluví už dlouho a zdálo by se, že jeden z klasických úkolů umělé inteligence – strojový překlad – si právě na základě této technologie žádá řešení.

Nicméně zde je dynamika popularity při hledání dotazů o neuronových sítích obecně a o neuronovém strojovém překladu konkrétně:

Je naprosto jasné, že o neuronovém strojovém překladu donedávna na radaru nic nebylo – a na konci roku 2016 předvedlo své nové technologie a systémy strojového překladu založené na neuronových sítích několik společností, včetně Google, Microsoft a SYSTRAN. Objevily se téměř současně, s rozdílem několika týdnů nebo dokonce dnů. proč tomu tak je?

Pro zodpovězení této otázky je nutné pochopit, co je strojový překlad založený na neuronových sítích a jaký je jeho klíčový rozdíl od klasických statistických systémů nebo analytických systémů, které se dnes pro strojový překlad používají.

Neuronový překladač je založen na mechanismu obousměrných rekurentních neuronových sítí (Bidirectional Recurrent Neural Networks), postavených na maticových výpočtech, což umožňuje sestavit podstatně složitější pravděpodobnostní modely než statistické strojové překladače.


Stejně jako statistický překlad, i neurální překlad vyžaduje pro učení paralelní korpusy, což umožňuje porovnat automatický překlad s odkazem „člověk“, pouze v procesu učení nepracuje s jednotlivými frázemi a frázemi, ale s celými větami. Hlavním problémem je, že k trénování takového systému je potřeba mnohem větší výpočetní výkon.

Pro urychlení procesu používají vývojáři GPU od NVIDIA a Google také používá Tensor Processing Unit (TPU), proprietární čipy přizpůsobené speciálně pro technologie strojového učení. Grafické čipy jsou zpočátku optimalizovány pro maticové výpočetní algoritmy, a proto je nárůst výkonu 7-15krát vyšší než u CPU.

I při tom všem vyžaduje trénink jednoho neurálního modelu 1 až 3 týdny, zatímco přibližně stejně velký statistický model se vyladí za 1 až 3 dny a s rostoucí velikostí se tento rozdíl zvětšuje.

Brzdou rozvoje neuronových sítí v kontextu úlohy strojového překladu však nebyly pouze technologické problémy. Jazykové modely se nakonec podařilo trénovat dříve, i když pomaleji, ale zásadní překážky nebyly.

Svou roli sehrála i móda neuronových sítí. Mnoho z nich se vyvíjelo v sobě, ale nespěchali to prohlásit, možná se obávali, že se nedočkají zvýšení kvality, kterou společnost očekává od slovního spojení Neuronové sítě. To může vysvětlit skutečnost, že několik neuronových překladatelů bylo oznámeno jeden po druhém najednou.

Kvalita překladu: čí skóre BLEU je silnější?

Pokusme se pochopit, zda růst kvality překladu odpovídá nahromaděným očekáváním a nárůstu nákladů, které provázejí vývoj a podporu neuronových sítí pro překlad.
Google ve své studii ukazuje, že neurální strojový překlad poskytuje relativní zlepšení od 58 % do 87 %, v závislosti na jazykovém páru, ve srovnání s klasickým statistickým přístupem (nebo Phrase Based Machine Translation, PBMT, jak se také nazývá).


SYSTRAN provádí studii, ve které je kvalita překladu posuzována výběrem z několika prezentovaných možností vytvořených různými systémy, stejně jako "lidský" překlad. A tvrdí, že jeho neurální překlad je ve 46 % případů preferován před překladem vytvořeným osobou.

Kvalita překladu: existuje nějaký průlom?

I když Google uvádí zlepšení o 60 % nebo více, v tomto čísle je malý háček. Zástupci společnosti hovoří o „Relative Improvement“, tedy o tom, jak moc se jim podařilo přiblížit kvalitě Human Translation neuronovým přístupem ve vztahu k tomu, co bylo v klasickém statistickém překladači.


Odborníci z oboru analyzující výsledky prezentované společností Google v článku „Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation“ jsou k prezentovaným výsledkům dosti skeptičtí a říkají, že ve skutečnosti se skóre BLEU zlepšilo pouze o 10 % a Významný pokrok je patrný právě na poměrně jednoduchých testech z Wikipedie, které byly s největší pravděpodobností také použity v procesu trénování sítě.

Uvnitř PROMT pravidelně porovnáváme překlady různých textů našich systémů s konkurencí, a proto máme vždy po ruce příklady, na kterých si můžeme ověřit, zda je neuronový překlad skutečně tak lepší než předchozí generace, jak výrobci tvrdí.

Původní text (EN): Obavy nikdy nikomu neprospěly.
Překlad Googlem PBMT: Nebojte se, nikomu nic nedělejte.
Překlad Google NMT: Starost nikdy nikomu nepomohla.

Mimochodem, překlad stejné fráze na Translate.Ru: „Vzrušení nikdy nikomu nedělalo dobře“, můžete vidět, že to bylo a zůstalo stejné bez použití neuronových sítí.

Microsoft Translator v této věci také nezůstává pozadu. Na rozdíl od svých kolegů z Googlu dokonce vytvořili webovou stránku, kde si můžete přeložit a porovnat dva výsledky: neurální a preneuronální, abyste se ujistili, že tvrzení o růstu nejsou nepodložená.


Na tomto příkladu vidíme, že došlo k pokroku a je opravdu patrný. Na první pohled se zdá, že tvrzení vývojářů, že strojový překlad téměř dohnal „lidský“ překlad, je pravdivé. Ale je to opravdu tak a co to znamená z hlediska praktická aplikace technologie pro podnikání?

V obecný případ překlad pomocí neuronových sítí je lepší než statistický překlad a tato technologie má obrovský potenciál rozvoje. Pokud ale k problému přistoupíme opatrně, pak se můžeme ujistit, že pokrok není ve všem a ne všechny úkoly lze aplikovat na neuronové sítě, aniž bychom se podívali na úkol samotný.

Strojový překlad: jaké jsou úkoly

Od automatického překladače celá historie jeho existence - a to je již více než 60 let! – čekali na nějaký druh kouzla a představili jej jako psací stroj ze sci-fi filmů, který okamžitě převede jakoukoli řeč do mimozemské píšťalky a zpět.

Ve skutečnosti existují různé úrovně úkolů, z nichž jedna znamená „univerzální“ nebo, mohu-li to říci, „každodenní“ překlad pro každodenní úkoly a snadné porozumění. Online překladatelské služby a mnoho mobilních produktů odvádí vynikající práci této úrovně.

Mezi takové úkoly patří:

Rychlý překlad slov a krátkých textů pro různé účely;
automatický překlad v procesu komunikace na fórech, in v sociálních sítích, poslové;
automatický překlad při čtení zpráv, článků na Wikipedii;
cestovní tlumočník (mobilní).

Všechny ty příklady zkvalitňování překladu pomocí neuronových sítí, které jsme uvažovali výše, se týkají právě těchto úloh.

S cíli a záměry podnikání ve vztahu ke strojovému překladu je to však poněkud jiné. Zde jsou například některé požadavky, které se vztahují na podnikové systémy strojového překladu:

Překlady obchodní korespondence s klienty, partnery, investory, zahraničními zaměstnanci;
lokalizace stránek, internetových obchodů, popisů produktů, návodů;
překlad uživatelského obsahu (recenze, fóra, blogy);
schopnost integrovat překlad do obchodních procesů a softwarových produktů a služeb;
přesnost překladu v souladu s terminologií, důvěrnost a bezpečnost.

Pokusme se na příkladech porozumět tomu, zda lze nějaké úkoly překladatelského podnikání řešit pomocí neuronových sítí a jak.

Případ: Amadeus

Amadeus je jedním z největších globálních systémů distribuce letenek na světě. Na jedné straně jsou na něj napojeni letečtí dopravci, na straně druhé agentury, které musí veškeré informace o změnách dostávat v reálném čase a hlásit je svým zákazníkům.

Úkolem je lokalizovat podmínky pro uplatnění tarifů (Tarifní řád), které se automaticky tvoří v rezervačním systému z různých zdrojů. Tato pravidla se tvoří vždy na anglický jazyk. Ruční překlad je zde prakticky nemožný, vzhledem k tomu, že informací je hodně a často se mění. Agent letenek by si rád přečetl Pravidla jízdného v ruštině, aby mohl rychle a kvalifikovaně poradit svým zákazníkům.

Vyžaduje se srozumitelný překlad, který vyjadřuje význam tarifních pravidel s přihlédnutím k typickým termínům a zkratkám. A vyžaduje, aby byl automatický překlad integrován přímo do rezervačního systému Amadeus.

→ Úkol a realizace projektu jsou podrobně popsány v dokumentu.

Zkusme porovnat překlad vytvořený prostřednictvím PROMT Cloud API integrovaného do Amadeus Fare Rules Translator a „neurální“ překlad od Google.

Originál: OKAMŽITÉ NÁKUPNÍ CENY ZPRACOVÁNÍ

PROMT (Analytický přístup): LETOVÉ OKAMŽITÉ NÁKUPNÍ CENY

GNMT: KULATÝ NÁKUP

Zde si neurální překladač evidentně neporadí a o něco dále se ukáže proč.

Případ: TripAdvisor

TripAdvisor je jednou z největších světových cestovních služeb, kterou není třeba představovat. Podle článku zveřejněného The Telegraph se na webu každý den objeví 165 600 nových recenzí různých turistických míst v různých jazycích.

Úkolem je přeložit turistické recenze z angličtiny do ruštiny v kvalitě překladu dostatečné k pochopení významu této recenze. Hlavní problém: typické rysy obsahu vytvářeného uživateli (texty s chybami, překlepy, opomenutí).

Součástí úkolu bylo také automatické vyhodnocení kvality překladu před zveřejněním na webu TripAdvisor. Vzhledem k tomu, že ruční vyhodnocení veškerého přeloženého obsahu není možné, řešení strojového překladu by mělo poskytovat automatický mechanismus pro hodnocení kvality přeložených textů – skóre spolehlivosti, aby TripAdvisor mohl publikovat pouze přeložené recenze Vysoká kvalita.

K řešení byla použita technologie PROMT DeepHybrid, která umožňuje získat lepší a srozumitelnější překlad pro koncového čtenáře, a to i prostřednictvím statistické posteditace výsledků překladu.

Podívejme se na příklady:

Originál: Jedli jsme tam včera večer z rozmaru a bylo to krásné jídlo. Služba byla pozorná, aniž by byla přehnaná.

PROMT (hybridní překlad): Včera večer jsme tam náhodou jedli a bylo to skvělé jídlo. Zaměstnanci byli pozorní, ale ne panovační.

GNMT: Jedli jsme tam včera večer z rozmaru a bylo to skvělé jídlo. Služba byla pozorná, aniž by byla přehnaná.

Zde není vše z hlediska kvality tak depresivní jako v předchozím příkladu. A vůbec, podle jeho parametrů lze tento problém potenciálně řešit pomocí neuronových sítí a to může kvalitu překladu dále zlepšit.

Výzvy při používání NMT pro podnikání

Jak již bylo zmíněno dříve, "univerzální" překladač ne vždy poskytuje přijatelnou kvalitu a nemůže podporovat specifickou terminologii. Chcete-li se integrovat do vašich procesů a použít neuronové sítě pro překlad, musíte splnit základní požadavky:

Přítomnost dostatečného množství paralelních textů, aby bylo možné trénovat neuronovou síť. Často jich má zákazník prostě málo, nebo dokonce texty na toto téma v přírodě neexistují. Mohou být klasifikované nebo ve stavu, který není příliš vhodný pro automatické zpracování.

K vytvoření modelu potřebujete databázi, která obsahuje minimálně 100 milionů tokenů (použití slov), a pro získání překladu více či méně přijatelné kvality - 500 milionů tokenů. Ne každá firma má takový objem materiálů.

Přítomnost mechanismu nebo algoritmů pro automatické hodnocení kvality výsledku.

Dostatečný výpočetní výkon.
„Univerzální“ neuronový překladač většinou nevyhovuje z hlediska kvality a pro nasazení vlastní privátní neuronové sítě, která dokáže poskytnout přijatelnou kvalitu a rychlost práce, potřebujete „malý cloud“.

Není jasné, co dělat se soukromím.
Ne každý zákazník je z bezpečnostních důvodů připraven dát svůj obsah k překladu do cloudu a NMT je především cloudový příběh.

závěry

Obecně platí, že neurální automatický překlad poskytuje kvalitnější výsledek než „čistě“ statistický přístup;
Automatický překlad prostřednictvím neuronové sítě – vhodnější pro řešení problému „univerzálního překladu“;
Žádný z přístupů k MT sám o sobě není ideálním univerzálním nástrojem pro řešení jakéhokoli překladatelského problému;
U úloh obchodního překladu mohou zajistit splnění všech požadavků pouze specializovaná řešení.

Dospěli jsme k naprosto zřejmému a logickému rozhodnutí, že pro naše překladatelské úkoly musíte použít překladač, který je k tomu nejvhodnější. Nezáleží na tom, zda je uvnitř neuronová síť nebo ne. Pochopení samotného problému je důležitější.

Štítky: Přidat štítky