Automatikus ékezetesítés

Az emberek többsége számára ismerős a helyzet. A jegyzeteinket, e-mailjeinket többnyire ékezetek nélkül írjuk - kényelemből. A kollégáink szintén így küldik át a jegyzeteiket. Amikor azonban ebből az anyagból hivatalos dokumentumot kell kidolgoznunk, melynek stilisztikailag és nyelvtanilag is helyesnek kell lennie, a kényelmességünk megbosszulja magát és hosszadalmasan töltögetjük az ékezeteket és pontokat.  

Pontosan erre a problémára kínálunk megoldást, rögtön kétfélét:

  1. Egy tetszés szerinti ékezetek nélküli szóhoz minden megfelelő ékezetesített szavat megtaláló modul.
  2. Teljesen automatikus megoldás, mely a statisztikai nyelvi modell segítségével az egész szöveget helyesen ékezetesíti. 

Nyelvi rész

A megoldás alapja ismét a részletes morfológiai leírás, mely segítségével a tetszés szerinti ékezetek nélküli szóhoz a program megtalálja az összes odaillő, nyelvtanilag helyes kifejezést. Ezekből több is lehet, pl. a lapos szó esetében helyes a lápos, de a lapos melléknév is. Amennyiben tehát teljesen biztosra akarunk menni, még valamit hozzá kell tennünk a programhoz - mégpedig a statisztikai metódusainkat. Az ő használatukkal a szókörnyezet alapján megtalálhatjuk a legvalószínűbb helyes ékezeteket.

Programmegoldás

Az első rész nagyon egyszerű, csak az adott nyelv morfológiai szótárára van szükség, ezért a program nagysága maximum 1 MB.

A második rész nagyobb memóriaigényű, mivel egy gigabyte nagyságban mozgó nyelvtani modellel dolgozik.