14 noiembrie 2016

Structurarea definițiilor

În prezent, definițiile din dexonline sunt stocate ca simple bucăți de text, cu marcaje pentru text aldin, italic sau alte formatări. De exemplu, definiția pentru föhn:
FÖHN, (2) föhnuri, s. n. 1. Vânt cald, uscat și puternic, care bate primăvara dinspre crestele alpine ale munților din Elveția și Austria spre văi, grăbind topirea zăpezilor. 2. Uscător electric pentru păr. [Pr.: fön] – Din fr. foehn, germ. Föhn.
este reprezentată, în baza noastră de date, ca:
@FÖHN,@ (@2@) $föhnuri,$ #s. n.# @1.@ Vânt cald, uscat și puternic, care bate primăvara dinspre crestele alpine ale munților din Elveția și Austria spre văi, grăbind topirea zăpezilor. @2.@ Uscător electric pentru păr. [#Pr.#: $fön$] - Din #fr.# @foehn,@ #germ.# @Föhn.@
Structurarea implică și ierarhizarea sensurilor
Acest format este simplu de folosit, dar are un dezavantaj. Componentele definiției sunt toate de-a valma: sensurile, subsensurile, pronunția, silabisirea, morfologia (conjugările de verbe și declinările de substantive), etimologia (originea cuvântului) etc. Lipsa structurării limitează utilitatea bazei noastre de date, căci unele analize sunt greu sau imposibil de făcut. De exemplu, nu este ușor să găsim toate cuvintele care se pronunță altfel decât se scriu, sau toate cuvintele care provin din limba germană.

De aceea, am demarat (de ceva vreme) un efort de structurare a definițiilor, adică de separare și clasificare a tuturor proprietăților sus-menționate. Nu știm sigur cât va dura acest efort; probabil câțiva ani. Nouă ni se pare un proiect foarte interesant. Poate și vouă? În orice caz, vă vom ține la curent ocazional cu evoluția procesului de structurare.

Pentru astăzi, etichetele pe cuvinte. Unele informații sunt relativ ușor de extras automat. Majoritatea verbelor din dexonline sunt acum etichetate cu informații despre grupă și conjugare:

  • a onora este verb de grupa I, conjugarea a II-a;
  • a părea este verb de grupa a II-a, conjugarea a VIII-a.
Am procedat similar și pentru alte părți de vorbire (cu oarece erori):
  • muncitor este adjectiv sau substantiv masculin și feminin;
  • aferim este interjecție.
În timp, vom adăuga și alte etichete de interes pe cuvinte, în special cele din registrul stilistic (familiar, popular, ironic ș.a.m.d.). De exemplu, zbenghi este un substantiv familiar și popular.

1 comentarii :

Ionuț spunea...

Arată mult mai bine.