Lingea Fordító - gyakran ismételt kérdések

Hogyan működik a gépi fordítás?

Egy olyan megközelítésről van szó, amely párhuzamos és egynyelvű adatok nagy korpuszain és matematikai képleteken alapul. Más néven statisztikai gépi fordításnak is hívják. A mondatok fordítása a forrásmondatban található kifejezések fordításainak összeállításával jönnek létre. A kifejezés egy olyan szósor, amely a tréningadatokban előfordult, és ismerjük az adott szavak szekvenciáját, amelyek azok fordítását képezik. A kifejezések fordításának kiválasztását és elrendezését a lefordított mondatban számos statisztikai modell befolyásolja, amelyek főleg annak valószínűségét modellezik, hogy a forrásmondat egy konkrét módon kerül lefordításra, valamint azt, hogy a kifejezés adott szövegű fordítása éppen az adott lefordított mondat szövegkörnyezetében jelenik meg. Annak következtében, hogy egyes szavak nem egyértelműek (több jelentéssel bírnak, és a különböző szövegkörnyezetben eltérően vannak lefordítva), más esetekben pedig találunk állandósult szókapcsolatokat vagy sajátosságokat, ezáltal minél több kétnyelvű szövegünk van, annál  nagyobb a valószínűsége, hogy a lefordított szöveg helyes lesz.

Hogyan működik a neurális gépi fordítás?

A forrásnyelvi szöveg mondatokra, a mondatok szavakra, a szavak alszavakra tagolódnak. Az egyes mondatoknak megfelelő alszavak szekvenciái a neurális hálózat bemeneténél helyezkednek el, amely létrehozza belőlük az egész mondat reprezentációját, aztán átalakítja a célnyelvi alszavak szekvenciájává. Az alszavak szavakká, a szavak mondatokká, ezek pedig a lefordított szöveggé egyesülnek. Alternatív megoldásként további lépéseket is lehet végrehajtani az eljárás során, mint például a céldokumentum formázásának megőrzése.

Mi az a neurális hálózat?

Ez a mesterséges intelligenciában használt egyik számítási modell. A neuron olyan számítástechnikai egység, amely nagyszámú bemenettel és egy kimenettel rendelkezik, amely viszont sok más neuron bemenete is lehet. A neurális hálózatot ezen mesterséges neuronok csoportja alkotja, amelyeket a kimenetek és bemenetek hatalmas számú kapcsolata köt össze.
A bemenetek és a hozzájuk rendelt kimenetek bemutatásával a neurális hálózat megtanítható a bemenetek és kimenetek általános kapcsolatára. Az így betanított neurális hálózat használható lesz ezután a helyes kimenetek és a bemenetek megbecsüléséhez, amelyek nem fordultak elő a betanítás során. A neurális gépi fordítás nagy mennyiségű párhuzamos szövegeken keresztül (az egyik nyelv szövege és annak fordítása a másik nyelvre) megtanulja, hogyan kell lefordítani az adott szöveget, hogy az a legjobban megfeleljen a tréning adatoknak (a tanuláshoz használt párhuzamos szövegnek).

Mire jó a grafikus kártya?

A grafikus kártyákat a fordításban a neurális hálózati számításokhoz használják. Itt kihasználják, hogy egy neurális hálózatban nagy mennyiségű számítás végezhető el párhuzamosan, és így a nagy teljesítményű grafikus kártyák képesek több tucat processzorhoz hasonló teljesítményt elérni ebben a tevékenységben. A grafikus kártyáknak köszönhetően a neurális gépi fordítók sokszor gyorsabbak, mint azok nélkül lennének, és ez abban mutatkozik főleg, hogy gyorsabb a reakcióidő, több szöveget képes ugyanannyi idő alatt lefordítani, és az adott teljesítménynél hardware-t takarít meg.

Milyen előnyeket jelent Ön számára ez a megoldás a konkurenciával szemben?

A Lingea Translator a következő előnyöket kínálja a többi elérhető fordítóprogrammal szemben:

  • A jobb eredmények elérése érdekében saját nyelvi adatainkat és technológiáinkat használjuk: párhuzamos és egynyelvű korpuszok, szótárak, egyéb adatok, valamint morfológiai és egyéb eszközök
  • A fordítóprogramok közvetlenül a szerveren futhatnak (offline) az ügyfélnél - ez biztosítja a bizalmas adatok biztonságát - nem kerülnek ki adatok senki máshoz a fordítás miatt.
  • A Közép-Európában használt kis nyelvek ugyanolyan fontosak számunkra, mint az emberek százmilliói által beszélt nyelvek, ezért maximális figyelmet és erőfeszítést fordítunk rájuk, míg például a Google elsősorban a nyugat-európai és az ázsiai nyelveket részesíti előnyben.
  • Lehetővé tesszük a fordítóprogram betanítását egy adott szakmai területre (autóipar, mérnöki, banki, gyógyszerészeti stb.) - egy ilyen speciális fordítóprogram általában lényegesen jobb eredményeket ér el, mint az általános fordítóprogramok.
  • Fordításkor biztosítani tudjuk, hogy az eredeti dokumentum formázása megmaradjon. A fordítás formázása tehát ugyanolyan marad (címsorok, bekezdések, félkövér vagy dőlt betűs szavak, linkek stb.), mint az eredeti szöveg, csak egy másik nyelven. Különböző formátumok támogatása is beállítható. Például lehetséges egy XML dokumentum csak egyes részeit lefordítani és másokat változatlanul hagyni, vagy különböző fordítóprogamokat lehet alkalmazni a dokumentumok különböző részeire.
  • Kombinálhatjuk a fordítóprogramokat szótárral vagy más nyelvi eszközökkel - például fordítás előtt, automatikusan kitölti a hiányzó ékezeteket (releváns például az e-maileknél és a társalgásoknál), majd ezután fordítja le a szöveget, és olvasás közben kattintással rákeresni a szavakra a szótárban.

Mi történik, ha a fordítóprogram valamit rosszul fordít le?

A fordítóprogram soha nem tud mindent tökéletesen lefordítani egy nagyon egyszerű okból, nevezetesen, hogy az adott mondat nem egyértelmű. Minden nyelvben vannak kétértelműségek, sok mondat feltételezi a szövegkörnyezet bizonyos ismeretét, akár az előző bekezdésből vagy cikkből, vagy akár egyszerűen általános ismeretekből. Előfordulhatnak az alany és a tárgy vagy az igeidő összetévesztése, a mondat felépítésének félreértése vagy egy adott szó jelentésének félreértése. Sok mondatot még egy tapasztalt, a forrás- és a célnyelvet beszélő ember számára is nehéz megérteni és lefordítani, mert a forrásmondat nem minden esetben tartalmazza a megfelelő fordításhoz szükséges összes információt. A legtöbb mondatot többféle módon lehet lefordítani, és mindegyik helyes, csak egyesek például kevésbé felelnek meg az adott szövegkörnyezetnek, vagy stilisztikailag nem megfelelők. A fordítóprogram nem helyettesítheti a minősített fordítót. A fordítóprogram egy olyan eszköz, amely meghatározott feladatot hajt végre, amelyre fel lett készítve. Például megkönnyítheti az emberi fordító munkáját (időt takarít meg), vagy lehetővé teheti a forrásnyelvet nem ismerő személy számára, hogy megtudjon valamilyen információt egy szövegből. Az integrált szótár nagyon hasznos erre a célra, hogy a felhasználó ellenőrizni tudja a fordítás fontos részeinek helyességét. A fordítóprogram és a szótár használatával a forrásnyelvet nem ismerő felhasználó képes gyorsan megszerezni a szükséges információkat a szövegből viszonylag pontosan, anélkül, hogy egy fordítótól rendelné meg a munkát és várna a fordításra.

Lehetséges az offline üzembe helyezés?

Ha bizalmas adatokkal dolgozik (például ügyfelektől származó e-mailek vagy személyes dokumentumok), akkor biztosan foglalkozik azok biztonságával, és valószínűleg elfogadhatatlan módszer a bizalmas szövegek bemásolása online fordítókba . Ebben az esetben lehetővé tesszük a fordítóprogramok telepítését közvetlenül az ügyfél infrastruktúrájába (offline) - a bizalmas adatok így soha nem fogják elhagyni a hálózatát. Ez a megoldás azonban további befektetést igényel egy fordítószerverbe. A hardverigény a telepített technológiáktól, a fordítási irányoktól (melyik nyelvről kell lefordítani) és a szükséges fordítási sebességtől is függ. Körülbelül azért elmondható, hogy a használható hardverek ára körülbelül 20 ezer koronánál kezdődik, azonban nagyon függenek a telepített technológiáktól, a szükséges fordítási sebességtől és a várható terheléstől, és ennek az összegnek a többszörösére is feltornázhatnak. Ezért további megbeszélések alapján pontosítjuk a konfigurációt, ami jelentősen eltérő lehet attól függően, hogy a statisztikai fordítás hagyományos megoldását választja, amely különösen memóriaigényes, vagy a neurális gépi fordítást használja, amely nem annyira memóriaigényes, de nagy teljesítményű grafikai kártyát igényel.

Hogyan lehet "betanítani" a neurális gépi fordítót?

Az oktató adatok megfelelő megválasztásával és a betanítás különböző szakaszaiban történő felhasználásukkal felkészíthetünk egy adott témára szabott fordítóprogramot. Ez volt a helyzet például a közegészségügy témában a HimL uniós projekt esetén vagy a turizmus területéről származó szövegek fordításkor turisztikai kézikönyvek belső lokalizálásához. Ily módon jobb minőségű fordítóprogramok készülhetnek, amelyek jobb eredményt adnak, mint az általános (nem szakosodott) fordítóprogramok egy adott tematikus és stilisztikai területen (az ún. tartományban), és jobban megőrzik a szemantikai pontosságot. Az eredmény minősége a tartomány összetettségétől és a felhasználható tartományspecifikus adatok mennyiségétől függ. A leghasznosabbak az úgynevezett párhuzamos adatok, vagyis az eredeti szövegek és azok fordításai. Ugyanakkor a célnyelvi tartományspecifikus szövegek is nagyon hasznosak, és a forrásnyelvi szövegek is használhatók. Mindhárom adattípus esetén érvényes, hogy minél több, annál jobb. Hasznosak a tartományra specializált szószedetek is, ahol azonban a minőség fontosabb, mint az adatmennyiség. A létrejövő fordítóprogram minősége tehát nagymértékben függ az ügyfél lehetőségeitől és hajlandóságától (természetesen szerződéses alapon) olyan adatok szolgáltatására, amelyek alkalmasak ezeknek a konkrét modelleknek a betanításához vagy legalábbis azok pontos leírására, amelyek felhasználhatók az adatok más forrásokból való megszerzésére.

A szótár, amely hozzáadható, értelmező vagy fordító ?

Bár a neurális gépi fordítók a fordítások minőségében jelentős változást jelentenek, ez nem jelenti azt, hogy a fordításuk mindig tényszerűen helyes. A nyelvek nagyszámú kétértelműséget, idiómát, szakmai kifejezéseket és állandósult szókapcsolatokat tartalmaznak, és nem lehet soha biztos abban, hogy a használt fordítás valóban helyes. Ezzel szemben a fordítási szótárakat továbbra is emberek, nyelvészek és tapasztalt fordítók készítik, így ezek a fordítások garantáltan helytállóak, és elég csak kiválasztani az adott kontextushoz megfelelőt. Ezért, ha ellenőrizni akarja a helyességet vagy kijavítani a gépi fordítást, megjelenítheti az átfogó szótári címszavakat a forrásszövegből vagy a fordításból (mindkettő lehetséges) a fordítási vagy értelmezési (ismét mindkettő lehetséges) szótárban, amely része lehet a fordítóprogram felhasználói felületének.