Amiről nem lesz szó:
A mesterséges intelligencia (MI) módszerek használatával a gépi fordítás jelentős fordulatot vett. Ma már könnyedén, akár ingyenesen, hozzáférhető mindenki számára asztali számítógépről, telefonról egyaránt. A mindennapi gyakorlatban a gépi fordító nem eszköz, ami segít a végterméket előállítani, hanem inkább egy generátor a végtermék, a célnyelvi szöveg előállítására. Ilyenkor a nyelvtudást, de minimum a szótárt helyettesíti. Mivel a gépi fordítás beszélt formában is működik, lényegében okos telefonunk egy zsebre dugott tolmács is egyben. Kevésbé szorgalmas és csekély tudásvággyal megáldottak körében ez könnyen felvet egy praktikus kérdést: érdemes-e egyáltalán időt és energiát pazarolni a nyelvtanulásra, ami többnyire 1-2 nyelv aktív használatát biztosítja, miközben ott van a zsebünkben több tucat nyelv használatának lehetősége? Izgalmas kérdés, de most nem ezt fogjuk elemezni. Sőt nem fogok hivatkozni és felidézni mulatságos gépi félrefordításokat, ahogyan mulatságos szakfordítói félrefordításokkal sem foglalkozom.
Miről is lesz szó?
Akkor vágjunk is bele!
Fordítást támogató eszközök
A fordítást támogató eszközök felsorolása a fordítás menetét igyekszik követni a forrásszöveg előkészítésétől a kész fordítás, a célszöveg minőségellenőrzéséig.
Karakterfelismerés
Hosszú múltra tekint vissza, miközben a felismerés pontossága egyre növekedett, a szóba jöhető nyelvek köre egyre bővült és kiterjedt a kézírásos szövegek felismerésére is. Ennek az eszköznek komoly magyar vonatkozása van, az 1980-as években egy magyar informatikai intézetben, a Számítástechnikai Kutató Intézet és Innovációs Központban fejlesztették ki a Recognita nevű eszközt, amely azóta is, világszerte, folyamatosan az egyik vezető eszköz. A karakterfelismerő eszközöknek a fordítás terén is egyre nagyobb szerepe van, hiszen a további fordás támogató eszközök használatának előfeltétele, hogy a forrásszöveg létezzen digitális formában (többnyire MS WORD formátumban). A forrásszöveg sokszor szkennelt formában létezik, ezt kell digitálisan használható formába hozni. Ekkor nem csak a karakterek hibátlan felismerése fontos, de a digitalizált szövegnek mentesnek kell lenni a felesleges karakterektől (írásjelek, soremelések, stb), mert ezek a felesleges karakterek lényegesen rontják a fordítást támogató eszközök, például a fordítói memória (TM) hatásfokát és ezzel a fordító munkájának hatásfokát. Nyugodtan kijelenthetjük, hogy a karakterfelismerés, vagyis a forrásszöveg tökéletes digitalizálása ma is az egyik legfontosabb fejlesztést igénylő eszköz.
Helyesírás-ellenőrzés
Ez a támogató eszköz lényegében egy időben jelent meg a személyi számítógépeken a szövegszerkesztő programokkal. Ma már lényegében minden nyelvet támogatják. A magyar változatból a Morphologic terméke emelkedik ki. Karbantartása úgy tűnik folyamatos, követi a helyesírás változásait és az új szavak megjelenését. Használata azt eredményezi, hogy a számítógépen, minimális gondossággal, figyelemmel készült szövegek nyelvtanilag helyesek. Lehet, hogy szövegszerkesztő nélkül, kézírással készülő szövegekről ez nem mondható el. Ugyancsak nem mondható el, a telefonon írott üzenetekre, ahol bár a helyesírás-ellenőrző szintén rendelkezésre áll, mégis egy sajátos nyelvi változat van kialakulóban a rövidítések miatt.
Fordítói memória (TM)
A legelterjedtebb fordítást támogató eszköz. Alapötlete roppant egyszerű: a műszaki dokumentációkat általában nem nulláról írják, hanem az előző változatokat módosítják a műszaki változásoknak megfelelően. A fordító tehát szintén hasznosítani tudja az előző változatok fordításait. Csupán fel kell ismernie, hogy korábban már fordított ilyen szöveget, elő kell keresni régi fordítását és az ismétlődő szövegeket átmásolni. Ezt az igazán egyszerű felismerést automatizálják a TM eszközök elősegítve, hogy a fordított műszaki leírások is azonosan adják vissza a korábbi szövegeket. Csupán egy olyan alkalmazásra van szükség, hogy a szöveget megfelelő logikai/fizikai egységekre bontsa és a fordítás során ezeket az egységeket tárolja, mégpedig együtt tárolva az egységek forrásnyelvi és célnyelvi változatát. Új szöveg esetén ismét elvégzi a szöveg felbontását egységekre. A fordításra következő egységet megkeresi adatbázisában, ha korábbi fordítás során már szerepelt, akkor megtalálja az adatbázisban a hozzá párosított célnyelvi változattal együtt, amit felajánl, mint kész fordítást. Sőt a „nagyon hasonló” változatot is megtalálja, ekkor a fordítónak az adott egységet megfelelően módosítani kell.
Nagyszerű eszköz, de itt már sejthetjük, hogy miért fontos a forrásszöveg nagyon pontos digitalizálása és a karakterek pontos felismerése. Ha az előkészítés nem tökéletes, a TM eszköz nem találja meg a korábban már lefordított egységet az adatbázisban.
Terminológiakezelő
A korábban ismertetett fordítói memória megoldja az ismétlődő szövegrészek fordításának támogatását. Ezzel elősegíti, hogy a dokumentációk lefordított változatai is egységes szövegezésűek, stílusúak legyenek. A szakszövegekkel szemben támasztott nagyon fontos követelmény, hogy a szakkifejezések egységesek legyenek. Ez alapvető a gördülékeny, egyértelmű szakmai kommunikáció biztosításához. Hiszen a Bábel projekt azon bukott meg, hogy a nyelvek összezavarása után, amikor a kőműves mester téglát kért, maltert kapott.
Tehát adott a következő igény a szoftverfejlesztők felé: készítsenek olyan alkalmazást, amely a terminusok egységes használatát biztosítja a fordítás során. A feladat nem bonyolult, de azért némi megfontolást igényel. Lényegében szakszótárkészítésről van szó, még akkor is, ha ez a szakszótár csak néhány tucat elemet tartalmaz. Sejthetjük, hogy a feladatnak része az adatgyűjtés: forrásnyelvi és hozzátartozó célnyelvi szópárok gyűjtése. Mivel egy ilyen szópár szakterület és szövegkörnyezet függő, a szópárokhoz érdemes további információt eltárolni. Ezzel segítjük a szótár használóját, hogy valóban helyesen használja a célnyelvi változatot.
Ha az ilyen terminológiakezelő eszközt sikerül a fordítói memóriával összekapcsolni, akkor igazán hasznos fordítástámogató eszközt adunk a fordító kezébe. Az összekapcsolás megtörtént, valóban létezik ez a hatékony eszköz.
Gépi fordító (MT) eszközök
Ha ezen a ponton leltárt csinál egy fordító, megállapíthatja, hogy a szoftverfejlesztők egy sor eszközt készítettek a fordítók munkájának támogatására. A forrásszöveg előkészítése fordításra (karakterfelismerés), helyesírás-ellenőrzés, fordítói memória, terminológiakezelő. Azért az informatika még tartozik egy támogató eszközzel, hiszen a fordítónak még mindig le kell fordítani a forrásszöveget. Igazán megoldhatná az informatika ezt a feladatot is. Egy tudományos téma ismertetését legjobb úgy kezdeni, hogy „már a régi görögök is”. Ami a gépi fordítás témáját illeti, ott csupán azt tudjuk mondani, hogy számítástechnika születésétől (legyen ez a kezdőpont 1952 az EDVAC Neumann elvű számítógép üzembe helyezése) izgatta ez a feladat az informatikusokat és az 1950-es években (hidegháború korszaka), már számítógép próbálkozott az orosz újságokat angolra fordítani. Azóta sok megoldás született, figyelemre méltó magyar megoldásokkal, de az áttörés valamikor a XXI. század elejére tehető (2006-2009) és a Google nevéhez kapcsolódik.
Akkor meg is érkeztünk a végállomáshoz, a gép fordít, a fordító pihen. Nincs miről tovább beszélni. Hát majdnem, de azért ennél egy kicsit összetettebb a helyzet. Zárjuk ezt a részt azzal, hogy igen, a fordító egy újabb eszközt kapott a kezébe, mégpedig egy olyan új eszközt, amely azt az illúziót keltheti, hogy a fordítást maga a számítógép végzi. Ott van az alkalmazás, beadjuk a forrásszöveget és az alkalmazás kiadja a célszöveget. Nincs itt kérem semmi érdekes, mehetünk tovább. Azért ennél bonyolultabb a helyzet, meg kell vizsgálnunk a gépi fordítással készült célnyelvi szöveg minőségét, hogy árnyaltabb képet kapjunk. Még ne szüntessük be a fordítóképzést és küldjük más pályára a fordítókat.
Minőségellenőrző eszközök
Azért, még adósak vagyunk a fordítást támogató eszközök ismertetése során egy olyan eszközzel, amely képes megvizsgálni a célszöveg mennyire felel meg a felhasználás minőségi elvárásának. Először próbáljuk meg legalább nagyvonalakban meghatározni az elképzelhető minőségi elvárásokat.
Mivel a fordítást támogató eszközeink között szerepelt a helyesírás-ellenőrzés, az eszközt alkalmazva a célnyelvi szövegre ezt a követelményt csaknem 100%-ban tudjuk teljesíteni. Hogy miért nem írok 100%-ot, egyszerűen azért, mert a helyesírás és a nyelvtan egzaktsága nem ér fel az Euklideszi geometriával (bár egykori magyar tanárom Visontai tanár úr egyenrangúnak tekintette) és mindig vannak tisztázatlan problémák.
Ezt a követelményt nagyon jól teljesítik a fordítói memóriák. Előzetes feldolgozást végeznek a forrásnyelvi változaton és ezt a rögzített és tárolt alaki elrendezést „ráhúzzák” a célnyelvi változatra a képanyaggal együtt.
Ennek a követelménynek a teljesítését nagymértékben támogatják a fordítói memóriák.
Ezt eleve támogatja a terminológiakezelő eszköz és azok a minőség ellenőrző eszközök, amelyek többek között ezt is ellenőrzik.
A minőségellenőrzést támogató eszközök összevetik a célnyelvi változatot a forrásnyelvi változattal. Hibajegyzékük lehet, hogy számos nem létező hibára utal, de felhívják a figyelmet például a számokban mutatkozó eltérésre, ami sokszor arra utal, hogy a fordító nem volt alapos valamelyik fuzzy szegmens értékelésénél, ezért érdemes ilyenkor a szegmens helyességét ellenőrizni.
Szerző: Végső László