Fulltextes keresés

Amennyiben olyan rendszert hozunk létre, melyben szükségünk van a fulltextes keresésre, nagyon hasznosnak bizonyulnak az olyan applikációk, melyek megtalálják a szót és annak minden alakját. Ha pl. a részvények ára szókapcsolatot keressük, segítségünkre lehet, ha a program megtalálja a részvények árának alakulása szókapcsolatot vagy a részvény szót is. Pontosan erre szolgál az a program, mely két hasznos funkcióval rendelkezik:

  • megtalálja a szó alapalakját,
  • megmutatja az összes lehetséges alakot, melyeket az alapalakból képez.

A szó alapalakja (lemma) a legtöbb nyelvben az egyes számú alanyeseti alak, pl.: ház. Az igéknél a nyelvek többsége a magyar egyes sz. 3. személlyel ellentétben a főnévi igenevet használja lemmaként. Itt is vannak azonban kivételek, pl. a bolgár nyelv, amely nem ismeri a főnévi igenévi alakot, az egyes sz. 1. személyű alakot tünteti fel lemmaként.

Nyelvi rész

Az egész program alapja, csakúgy, mint az elütésjavítónál, a morfológiai leírás. Ebben a programban több információval van bővítve, elsősorban a következő nyelvtani kategóriákkal:

  • eset, szám, nyelvtani nem - főneveknél,
  • szám, személy, mód, idő, aspektus - igéknél,
  • kategória - névmások, számnevek, határozószók vagy kötőszók esetében.

A szó alapalakjának megtalálása nem olyan egyszerű, mint ahogy az első ránézésre tűnik. A rendszeres alakokon kívül ugyanis számolni kell a szótő alternációival is, melyek nemcsak a magyar nyelvben fordulnak elő. Ilyenek pl. a magyar kéz-kezes, a cseh stůl-stolu stb. Még az aránylag egyszerű angol nyelvben is találunk ilyen példákat: come-camebreak-broken, sőt go-went.

A másik probléma a homonímia, ugyanis számos szónál nem egyértelmű, milyen alapszóból származnak. Pl. a fog szó beírásánál az sem biztos, hogy főnév avagy ige-e az, amelyikre gondoltunk, amennyiben ige, úgy különbséget kell tennünk a jövő idő segédigéje és a tart ige szinonímája között.  Számos hasonló esetet ismerünk, ezért nem csodálkozhatunk azon, ha a szótár több alapszót is megjelenít. Biztosak lehetünk azonban abban, hogy mindegyik helyes.

Programmegoldás

A programmegoldásunk nagyon helytakarékos. Ha belegondolunk, több milliónyi szóalak elfér egy cca 1 MB nagyságú programban.

Elérhető funkciók

  • A szó alapalakjának megtalálása.
  • A szó minden nyelvtani alakjának megjelenítése.
  • A főnévből és melléknévből álló szókapcsolat egészének ragozása, pl. tanulmányi eredmény, tanulmányi eredménnyel, tanulmányi eredményhez stb. Bár a magyar nyelvben ilyen esetben a melléknevet nem ragozza, idegen nyelv esetén nagyon hasznos ez a funkció. 

Jelenleg számos nyelvhez kínálunk fulltextes keresőt, valamint több operációs rendszerből is választhatunk. 

Referenciák

A morfológiai keresést legjobban a Lingea Lexicon szótárakban tudja letesztelni, magyarországi megjelenéséig ez a szótár csehül, szlovákul, románul és lengyelül érhető el.