Home Umela inteligencia Vplyv transformátora: Vyriešil sa strojový preklad?

Vplyv transformátora: Vyriešil sa strojový preklad?

by
mm

Spoločnosť Google nedávno oznámila vydanie 110 nových jazykov v službe Google Translate ako súčasť svojej iniciatívy 1000 jazykov spustenej v roku 2022. V roku 2022, na začiatku pridalo 24 jazykov. S najnovšími 110 ďalšími je teraz 243 jazykov. Toto rýchle rozšírenie bolo možné vďaka Strojový preklad Zero-Shot, technológia, kde sa modely strojového učenia učia prekladať do iného jazyka bez predchádzajúcich príkladov. V budúcnosti však spoločne uvidíme, či tento pokrok môže byť konečným riešením problému strojového prekladu, a medzitým môžeme preskúmať spôsoby, ako sa to môže stať. Najprv však jeho príbeh.

Ako to bolo predtým?

Štatistický strojový preklad (SMT)

Toto bola pôvodná metóda, ktorú používal Google Translate. Spoliehalo sa na štatistické modely. Analyzovali veľké paralelné korpusy, zbierky zoradených prekladov viet, aby určili najpravdepodobnejšie preklady. Systém najprv preložil text do angličtiny ako stredný krok pred jeho konverziou do cieľového jazyka a potreboval porovnať frázy s rozsiahlymi súbormi údajov z prepisov Organizácie Spojených národov a Európskeho parlamentu. Je to odlišné od tradičných prístupov, ktoré si vyžadovali zostavenie vyčerpávajúcich gramatických pravidiel. A jeho štatistický prístup mu umožnil prispôsobiť sa a učiť sa z údajov bez toho, aby sa spoliehal na statické lingvistické rámce, ktoré by sa mohli rýchlo stať úplne nepotrebnými.

Tento prístup má však aj určité nevýhody. Prvý Google Translate používal frázový preklad, kde systém rozdelil vety na frázy a preložil ich jednotlivo. Toto bolo zlepšenie oproti prekladu doslova, ale stále malo obmedzenia, ako sú nešikovné frázy a kontextové chyby. Len to úplne nepochopilo tie nuansy ako my. SMT sa tiež veľmi spolieha na to, že má paralelné korpusy a akýkoľvek relatívne zriedkavý jazyk by bolo ťažké preložiť, pretože nemá dostatok paralelných údajov.

Neurónový strojový preklad (NMT)

V roku 2016 spoločnosť Google prešla na Neural Machine Translation. Používa modely hlbokého učenia na preklad celých viet ako celku a naraz, čím poskytuje plynulejšie a presnejšie preklady. NMT funguje podobne, ako keď máte vo svojom počítači sofistikovaného viacjazyčného asistenta. Pomocou architektúry postupnosti (seq2seq) NMT spracuje vetu v jednom jazyku, aby pochopil jej význam. Potom – vygeneruje zodpovedajúcu vetu v inom jazyku. Táto metóda využíva na učenie obrovské súbory údajov, na rozdiel od štatistického strojového prekladu, ktorý sa spolieha na štatistické modely analyzujúce veľké paralelné korpusy na určenie najpravdepodobnejších prekladov. Na rozdiel od SMT, ktoré sa zameralo na preklad založený na frázach a potrebovalo veľa manuálneho úsilia na vývoj a udržiavanie lingvistických pravidiel a slovníkov, schopnosť NMT spracovať celé sekvencie slov mu umožňuje efektívnejšie zachytiť nuansovaný kontext jazyka. Zlepšila sa tak kvalita prekladu v rôznych jazykových pároch, pričom sa často dostala na úroveň plynulosti a presnosti porovnateľnú s ľudskými prekladateľmi.

V skutočnosti tradičné modely NMT používali ako základnú architektúru rekurentné neurónové siete – RNN, pretože sú navrhnuté tak, aby spracovávali sekvenčné údaje udržiavaním skrytého stavu, ktorý sa vyvíja pri spracovaní každého nového vstupu (slova alebo tokenu). Tento skrytý stav slúži ako druh pamäte, ktorá zachytáva kontext predchádzajúcich vstupov a umožňuje modelu učiť sa závislosti v priebehu času. RNN však boli výpočtovo drahé a ťažko sa efektívne paralelizovali, čo obmedzovalo ich škálovateľnosť.

Predstavenie transformátorov

V roku 2017 Google Research zverejnil dokument s názvom „Pozornosť je všetko, čo potrebujete,“ zavedenie transformátorov do sveta a označenie kľúčového posunu od RNN v architektúre neurónových sietí.

Transformátory sa spoliehajú iba na mechanizmus pozornosti, – sebapozornosť, ktorá umožňuje modelom neurónového strojového prekladu zamerať sa selektívne na najkritickejšie časti vstupných sekvencií. Na rozdiel od RNN, ktoré spracovávajú slová v sekvencii v rámci viet, sebapozornosť vyhodnocuje každý token v celom texte a určuje, ktoré ďalšie sú kľúčové pre pochopenie jeho kontextu. Tento simultánny výpočet všetkých slov umožňuje transformátorom efektívne zachytiť závislosti krátkeho aj dlhého dosahu bez spoliehania sa na opakujúce sa spojenia alebo konvolučné filtre.

Eliminovaním recidívy teda transformátory ponúkajú niekoľko kľúčových výhod:

  • Paralelizácia: Mechanizmy pozornosti môžu počítať paralelne v rôznych segmentoch sekvencie, čo urýchľuje tréning na modernom hardvéri, ako sú GPU.
  • Efektívnosť školenia: V porovnaní s tradičnými modelmi založenými na RNN alebo CNN tiež vyžadujú výrazne menej času na zaškolenie, čím poskytujú lepší výkon pri úlohách, ako je strojový preklad.

Strojový preklad Zero-Shot a PaLM 2

V roku 2022 spoločnosť Google uvoľnila podporu pre 24 nových jazykov pomocou strojového prekladu Zero-Shot, čo predstavuje významný míľnik v technológii strojového prekladu. Ohlásili tiež iniciatívu 1 000 jazykov zameranú na podporu 1 000 najpoužívanejších jazykov na svete. Teraz sa spustili 110 ďalších jazykov. Strojový preklad nulového záberu umožňuje preklad bez paralelných údajov medzi zdrojovým a cieľovým jazykom, čím sa eliminuje potreba vytvárať školiace údaje pre každý jazykový pár – proces, ktorý bol predtým nákladný a časovo náročný a pre niektoré párové jazyky aj nemožný.

Tento pokrok bol možný vďaka architektúre a mechanizmom samoupozornenia transformátorov. Theschopnosti modelu transformátora naučiť sa kontextové vzťahy medzi jazykmi, ako kombinácia s jeho škálovateľnosťou na prácu s viacerými jazykmi súčasne, umožnila vývoj efektívnejších a efektívnejších viacjazyčných prekladových systémov. Modely zero-shot však vo všeobecnosti vykazujú nižšiu kvalitu ako modely natrénované na paralelných dátach.

Potom Google predstavil na základe pokroku transformátorov PaLM 2 v roku 2023, čo vytvorilo cestu pre vydanie 110 nových jazykov v roku 2024. PaLM 2 výrazne zlepšil schopnosť Prekladača učiť sa blízko príbuzné jazyky, ako je awadhi a marwadi (príbuzné hindčine) a francúzske kreolské jazyky ako seychelská a maurícijská kreolčina. Vylepšenia v PaLM 2, ako napríklad výpočtovo optimálne škálovanie, vylepšené množiny údajov a vylepšený dizajn, umožnili efektívnejšie učenie sa jazykov a podporili pokračujúce snahy spoločnosti Google o zlepšenie a rozšírenie jazykovej podpory a prispôsobenie sa rôznym jazykovým nuansám.

Môžeme tvrdiť, že problém strojového prekladu bol plne riešený pomocou transformátorov?

Vývoj, o ktorom hovoríme, trval 18 rokov od prijatia SMT spoločnosťou Google až po nedávnych 110 ďalších jazykov pomocou strojového prekladu Zero-Shot. To predstavuje obrovský skok, ktorý môže potenciálne znížiť potrebu rozsiahlej kolekcie paralelných korpusov – historicky a veľmi pracne náročná úloha, ktorú toto odvetvie sleduje už viac ako dve desaťročia. Tvrdenie, že strojový preklad sa úplne rieši, by však bolo predčasné, berúc do úvahy technické aj etické hľadiská.

Súčasné modely stále zápasia s kontextom a súdržnosťou a robia jemné chyby, ktoré môžu zmeniť význam, ktorý ste zamýšľali pre text. Tieto problémy sú veľmi prítomné v dlhších, zložitejších vetách, kde je pre výsledky potrebné zachovať logický tok a pochopiť nuansy. Tiež kultúrne nuansy a idiomatické výrazy sa príliš často strácajú alebo strácajú význam, čo spôsobuje preklady, ktoré môžu byť gramaticky správne, ale nemajú zamýšľaný vplyv alebo znejú neprirodzene.

Údaje pre predtréning: PaLM 2 a podobné modely sú vopred trénované na rôznorodom viacjazyčnom textovom korpuse, čím prekonávajú svojho predchodcu PaLM. Toto vylepšenie vybavuje PaLM 2 tak, aby vynikal vo viacjazyčných úlohách, čím sa zdôrazňuje pokračujúci význam tradičných súborov údajov pre zlepšenie kvality prekladu.

Jazyky špecifické pre doménu alebo zriedkavé jazyky: V špecializovaných oblastiach, ako sú právne, medicínske alebo technické oblasti, paralelné korpusy zabezpečujú, že modely sa stretávajú so špecifickými terminológiami a jazykovými nuansami. Pokročilé modely môžu zápasiť s žargónom špecifickým pre danú doménu alebo s meniacimi sa jazykovými trendmi, čo predstavuje výzvy pre strojový preklad Zero-Shot. Tiež jazyky s nízkymi zdrojmi sú stále zle preložené, pretože nemajú údaje, ktoré potrebujú na trénovanie presných modelov

Porovnávanie: Paralelné korpusy zostávajú nevyhnutné na hodnotenie a porovnávanie výkonnosti prekladových modelov, čo je obzvlášť náročné pre jazyky, ktorým chýba dostatok paralelných korpusových údajov. Automatizované metriky ako BLEU, BLERT a METEOR majú okrem gramatiky obmedzenia pri hodnotení nuancií v kvalite prekladu. Ale potom nám ľuďom bránia naše predsudky. Okrem toho tu nie je príliš veľa kvalifikovaných hodnotiteľov a nájdenie dokonalého dvojjazyčného hodnotiteľa pre každý pár jazykov, ktorý dokáže zachytiť jemné chyby.

Intenzita zdrojov: Povaha školenia a nasadzovania LLM, ktorá je náročná na zdroje, zostáva prekážkou, ktorá obmedzuje dostupnosť pre niektoré aplikácie alebo organizácie.

Zachovanie kultúry. Etický rozmer je hlboký. Isaac Caswell, výskumný pracovník Google Translate, opisuje strojový preklad Zero-Shot: „Môžete si to predstaviť ako polyglot, ktorý vie veľa jazykov. Ale potom navyše uvidí text v 1 000 ďalších jazykoch, ktorý nie je preložený. Môžete si predstaviť, že ak ste nejaký veľký polyglot, a potom začnete čítať romány v inom jazyku, môžete si začať dávať dokopy, čo by to mohlo znamenať na základe vašich znalostí jazyka vo všeobecnosti.“ Napriek tomu je dôležité zvážiť dlhodobý vplyv na menšinové jazyky, ktorým chýbajú paralelné korpusy, čo môže potenciálne ovplyvniť zachovanie kultúry, keď sa dôvera odkloní od samotných jazykov.

Source Link

Related Posts

Leave a Comment