Blogul dexonline s-a mutat la https://blog.dexonline.ro. Vă vom redirecta acolo în 5 secunde.

17 ianuarie 2012

Greva împotriva PIPA și SOPA, 18 ianuarie 2012

    Echipa DEX online a decis să participe la greva împotriva PIPA și SOPA din 18 ianuarie 2012 prin afișarea unui mesaj informativ pe toate paginile site-ului. Sigur, este posibil să deranjăm cei peste 100.000 de utilizatori care intră uzual pe site-ul nostru, însă considerăm că această cauză trebuie susținută!

    Mai multe amănunte găsiți pe această pagină.

3 decembrie 2011

DEX online folosește OpenID


Dacă aveți un cont pe DEX online și obișnuiți să stați autentificați în el, veți observa că mecanismul de autentificare s-a schimbat. DEX online a migrat la OpenID, o modalitate de autentificare mai simplă și mai sigură.

  • Nu mai este nevoie să rețineți un nume de cont și o parolă în plus;
  • Nu mai este nevoie să completați formulare cu detalii personale;
  • Un cont OpenID, odată creat, poate fi refolosit pe orice site care admite OpenID, iar numărul acestora este în creștere;
  • Sunt șanse mari să aveți deja un OpenID, deoarece multe site-uri mari (Google, Yahoo și altele) servesc și ca furnizori de OpenID;
  • Dacă aveați deja un cont pe DEX online, îl veți putea revendica și asocia cu OpenID-ul dumneavoastră, imediat după ce vă autentificați cu OpenID.
Dacă erați autentificați în momentul migrării, ați fost deconectat și veți fi rugați să vă autentificați folosind un OpenID.

Precizăm că autentificarea pe DEX online nu este necesară. Toate funcțiile de căutare funcționează exact la fel și pentru utilizatorii autentificați, și pentru cei anonimi. Site-ul răspunde chiar mai repede pentru utilizatorii anonimi, deoarece ei beneficiază de pagini precalculate, care sunt servite instantaneu. Vă recomandăm să vă autentificați numai în două cazuri:

  • Contribuiți cu definiții și doriți să primiți credit pentru ele;
  • Doriți să vă creați o listă de definiții favorite pentru acces ușor.

30 septembrie 2011

Definiții favorite

Începând de astăzi, utilizatorii autentificați își pot crea propria colecție de definiții favorite, pentru a le găsi cu ușurință mai târziu. După fiecare definiție veți găsi o legătură numită Adaugă la favorite. De asemenea, în meniul utilizatorului (sus-dreapta) veți găsi o legătură către colecția dumneavoastră.

Mulțumiri lui Andrei Gudiu, care a scris codul necesar!

7 septembrie 2011

DEX online caută programator


Descrierea postului

DEX online a crescut până la punctul în care avem nenumărate idei fascinante de implementat, dar nu avem destui oameni care să le implementeze (suntem doi programatori fără timp liber).

Oferta

În prezent DEX online caută un programator voluntar. O colaborare reușită pentru ambele părți se poate concretiza într-un contract de muncă la nivelul pieței, îndată ce DEX online va începe să angajeze.

Beneficii

  • Veți face un mare bine culturii românești. Nu este demodat sau jenant să fiți idealiști, chiar dacă trăim într-o societate care tinde să râdă de idealism. Noi așa suntem și ne este bine.
  • Unde împărțim munca, împărțim și prestigiul care decurge din ea. DEX online este o marcă îndrăgită; primim frecvent emailuri de mulțumire, iar ocazional stăm de vorbă și cu ziare, reviste, posturi de radio sau TV. În general, oamenii care află că lucrăm pentru DEX online au o reacție foarte puternică de admirație, mai ales când le spunem că suntem doar 6-7 oameni activi în echipă.
  • Întrucât oferta noastră se adresează în primul rând studenților, ne angajăm să vă fim mentori, să vă ajutăm să faceți o trecere ușoară și productivă de la teorie la practică, de la mediul academic la cel industrial. Unul dintre noi (Cătălin Frâncu) a lucrat la Google între 2001-2006 și promite să vă învețe, pe cât posibil, toate bunele deprinderi care formează un bun inginer software.
  • Pentru că nu avem o ierarhie, munca voastră va ajunge direct în producție și va fi folosită de un milion de oameni. Distanța între editorul vostru de texte și serverul principal al dexonline.ro este infimă.
  • Vă vom încuraja să lucrați, măcar din când în când, la componente de care avem nevoie stringentă (de exemplu buguri grave sau funcții foarte des cerute de utilizatori). În general, însă, veți putea lucra la absolut orice componentă vă atrage, cu singura condiție să nu faceți site-ul mai greu de utilizat sau mai lent.
  • Nu avem ședințe, ore fixe, obiective sau team buildinguri, dar nu refuzăm niciodată un pahar în Centrul Vechi.
  • Puteți lucra de acasă, în afară de cazul în care voi veți simți nevoia să lucrați alături de unul dintre programatorii DEX online.
  • Numărul de ore pe săptămână este la alegerea voastră. Vă recomandăm totuși minim 10 și ideal 20 de ore pe săptămână.
  • Dacă în timpul lucrului aveți nevoie de operatori umani care să proceseze volume mari de date pentru o cauză bună, DEX online poate coopta o echipă remarcabilă de voluntari.

Cerințe

  • Cunoștințe de PHP, MySQL, GNU/Linux
  • Cunoștințe de (sau dorința de a învăța din mers componente ca) Subversion, Smarty, AdoDB
  • Cunoștințe minime de algoritmi și structuri de date

Exemple de proiecte

Deoarece lumea ne tot întreabă „păi și ce mai e de făcut, nu aveți deja toate cuvintele?”, enumerăm o mică parte din proiectele la care ne gândim cu jind.

  • Depistarea automată a noilor cuvinte intrate în limbă. Avem nevoie de un crawler pe texte românești de încredere (ziare mari, literatură etc.) care să ruleze periodic și să țină o evidență a cuvintelor pe care nu le avem, împreună cu o frază din contextul unde au fost găsite. Când un cuvânt apare suficient de frecvent, el și toate contextele găsite sunt trimise unei echipe de lexicografi pentru a îi elabora o definiție (interfața pentru accesul lexicografilor trebuie și ea scrisă).
  • Exemple pe lângă definiții. Există multă literatură românească ieșită de sub incidența copyrightului pe care o putem indexa și servi pe marginea definițiilor, ca exemple (citate).
  • Restructurarea ghidului de exprimare. În prezent, ghidul este pe o singură pagină, nu este ordonat, nu este căutabil, iar articolele tind să fie mici și să nu dezbată toate argumentele. Unele înregistrări (de exemplu cea despre acordul substantivului „majoritate”) necesită un articol amplu de minim un ecran. Dorim să cooptăm un lexicograf și să-i creăm un sistem wiki în care să poată expanda acest ghid într-o serie de articole. Apoi, acest ghid trebuie integrat cu motorul de căutare („Ați căutat «majoritate»? Avem un articol detaliat despre folosirea acestui cuvânt!”).
  • O infrastructură pentru testare (unit testing, stress testing, functional testing etc.)
  • O unealtă pentru estimarea vocabularului unei persoane, după modelul testyourvocab.com.
  • Îmbunătățirea profilurilor de utilizator și integrarea cu OpenID; introducerea de „insigne” pentru diverse tipuri de contribuții, pentru a ne motiva voluntarii.
  • Restructurarea definițiilor într-un format XML general. Formatul curent (simple bule de text cu indicații pentru bold și italic) nu se pretează la analize statistice, are o redundanță uriașă între diversele dicționare și comasează sensuri, sinonime, expresii, etimologii indicații de uz (de exemplu „peiorativ”).

Puteți consulta lista noastră de buguri și idei grele și ușoare.

Filtru

Dacă următorul gen de întrebări vă sperie, probabil nu ați fi mulțumiți de munca la DEX online.

  • Ce se întâmplă de când tastez un URL în browser și până îmi apare pagina pe ecran? (răspunsul vostru ar vorbi câte puțin despre DNS, porturi, serverul de HTTP, cookie-uri, pagini dinamice, redirectări, Javascript, CSS și altele).
  • Ce este un cookie?
  • Care sunt diferențele între cererile de tip GET și POST? Când sunt de preferat una sau cealaltă?
  • Cum interclasez două șiruri ordonate de numere (de exemplu, interclasarea lui [1, 3, 5 10] cu [3, 4, 8] produce șirul [1, 3, 3, 4, 5, 8, 10])? Care este complexitatea? Cum interclasez k șiruri ordonate de câte n numere?  Care este complexitatea?

Descrierea proiectului

DEX online este o colecție de dicționare ale limbii române. Codul-sursă este software liber. O bună parte din datele deținute sunt de asemenea disponibile pentru descărcare și utilizare sub licența GNU GPL. DEX online are circa 1,4 milioane de vizitatori unici lunari și circa 11 milioane de pagini afișate lunar. Codul și datele au fost produse exclusiv prin eforturi voluntare.

Cum să ne contactați

Scrieți-ne la contact@dexonline.ro pentru a stabili un interviu pe teme de algoritmi și dezvoltare web.

22 august 2011

Dicționarul de cuvinte recente - ediția a II-a

    Cu sprijinul celor de la Editura Logos, am importat Dicționarul de cuvinte recente, ediția a II-a al Floricăi Dimitrescu. Ce este foarte important: în acest dicționar majoritatea intrărilor beneficiază de cel puțin un exemplu (împreună cu sursa preluării). Sperăm ca această colaborare să continue și cu editia a III-a a dicționarului, plănuită pentru această toamnă!

30 mai 2011

dexonline pe facebook

    Din motive de popularitate am hotărît să ne exhibăm și pe facebook :) Asta pentru că majoritatea utilizatorilor noștri intră în categoria 20-30 de ani, mult utilizatoare de rețele sociale. Sigur, acesta nu a fost argumentul hotărîtor, ci faptul că se pot deschide posibilități noi de dialog cu utilizatorii (de exemplu Websterul a început să aibă o legătură strînsă cu facebook-ul).
    De asemenea, acest experiment nu poate eșua, deoarece în cazul în care nu se vor fructifica avantajele folosirii unei platforme externe putem renunța la ea fără mari regrete...

4 mai 2011

Ziua împotriva DRM -- 4 mai 2011


DEX online există și vă este (sperăm) util prin conjunctura fericită a doi factori. Primul factor este efortul benevol depus de oameni care simt nevoia să lase ceva în urma lor. Digitizarea unor dicționare ca DEX-ul sau Dicționarul de neologisme a fost un efort mare și migălos. Mulți utilizatori apreciază acest efort și uneori ne trimit și mesaje de mulțumire care ne bucură mult.

Ceea ce lumea trece însă cu vederea este factorul software liber. Majoritatea oamenilor, nefiind de profesie ingineri software, nu își pun problema arhitecturii software pe care este construit DEX online și a considerentelor etice, morale, financiare și civice datorită cărora am stabilit această arhitectură software. Această atitudine este normală; când cineva își cumpără un televizor, vrea să îl folosească, nu să îi scoată capacul ca să se minuneze de circuitele dinăuntru.

Totuși, pentru existența DEX online, software-ul liber este un factor esențial. Acest software nu este doar gratuit din punct de vedere al costului, ci și liber în sensul că oricine îl poate studia, modifica pentru a-și deservi propriile nevoi, și redistribui cu modificările făcute, pentru ca și alții să poată beneficia de îmbunătățirile aduse. Software-ul pe care în folosește DEX online este cunoscut colectiv sub numele de GNU/Linux. La rândul său, DEX online își oferă codul-sursă ca software liber și, de-a lungul anilor, mai multe persoane au contribuit cu îmbunătățiri la acest cod, unele din ele importante.

Spre deosebire de software-ul liber, software-ul patentat (de exemplu, majoritatea produselor create de Microsoft, Apple și Adobe) este restricționat drastic de creatorii săi. El nu poate fi studiat, copiat, modificat sau redistribuit. Acest software este împovărat (și exemplele practice abundă) de funcții rău intenționate, cum ar fi spionarea utilizatorului, colectarea secretă de date asupra modului de folosire a software-ului, porți secrete prin care producătorul de software poate prelua controlul asupra calculatorului dumneavoastră. Nu mai puține sunt scăpările neintenționate (bug-uri) care vă pun în pericol sistemul. Software-ul nefiind liber, numai producătorul lui poate repara aceste scăpări și vulnerabilități, ceea ce poate dura ani de zile.

Fără software liber, DEX online nu ar fi existat. Punct. Eu personal, ca fondator al proiectului, nu aș fi conceput niciodată să construiesc DEX online altfel decât folosind software liber. Se poate argumenta că altcineva ar fi avut, poate, o inițiativă similară bazată pe software patentat, dar această posibilitate este de domeniul ipoteticului. În zece ani de zile de la crearea DEX online, nu am auzit de asemenea inițiative.

Aceasta este o antiteză între două modele de software. O antiteză similară apare la modul de distribuire a datelor (cum ar fi definițiile din DEX online, dar și muzica, filmele sau e-cărțile), și aici intervine conceptul de DRM.

DEX online își oferă baza de date (definițiile) spre descărcare în mod liber și gratuit, la fel ca și codul-sursă. Rezultatele sunt fantastice. Oricine își poate instala DEX online pe calculatorul personal sau pe telefonul mobil, pentru că oameni din afara proiectului DEX online au scris aplicații pentru aceasta. Un grup de cercetare folosește informațiile noastre pentru a produce un sintetizator de voce cu pronunție românească aproape perfectă. Pe internet există aplicații ca dicționare de rime, jocuri de rebus și de spânzurătoare bazate pe listele noastre de cuvinte. Multe birouri de traduceri beneficiază în mod gratuit de datele pe care noi le oferim.

Dar să presupunem că DEX online ar fi spus, „pentru a descărca datele noastre trebuie să folosiți numai acest program, care costă 500 de lei la cumpărare și 50 de lei pe lună. Acest program stochează definițiile la dumneavoastră pe calculator, dar într-o formă criptată, în care dumneavoastră nu aveți acces direct la ele. Puteți folosi definițiile DEX online numai în modul și pe durata pe care intenționăm noi să vi le oferim. Mai mult, am făcut lobby pe lângă Parlamentul României și l-am convins să voteze o lege prin care simpla încercare de a decripta definițiile din DEX online și de a le folosi altfel decât vă permitem noi este o crimă.” Acesta ar fi fost, în esență, conceptul de DRM (Digital Rights Management).

Intenția DRM este să limiteze lucrurile pe care utilizatorul le poate face cu datele pentru care a plătit. În special, DRM este un set de măsuri tehnice care încearcă să împiedice utilizatorul să redistribuie filmele și muzica pe care le-au cumpărat în format digital. În unele situații, DRM-ul poate fi ocolit pentru că unii programatori au găsit modalități de a-l ocoli și au scris programe care fac acest lucru; dar aceste programe sunt ilegale și simpla încercare de a le scrie sau de a le folosi a fost ridicată la rang de crimă în multe țări de pe glob.

DRM este un set de măsuri profund antisociale. Într-o societate cu răspundere civică, el ar fi inacceptabil. Propunătorii lui cunosc acest lucru și tocmai de aceea îl promovează prin diverse metode perfide. În primul rând, îl includ în mod treptat în software; versiunile mai noi conțin măsuri restrictive tot mai severe. În al doilea rând, desfășoară campanii de propagandă prin care utilizatorilor li se explică de ce copierea este un lucru rău, iar DRM este un lucru bun. Aceste campanii se bazează de obicei pe o analogie simplistă între furtul obiectelor fizice și copierea datelor digitale, pe care am expus-o și în manifestul DEX online. În al treilea rând, propunătorii DRM sunt în general trusturi uriașe de media, care au puterea financiară să cumpere guverne și să treacă legi prin care opoziția față de DRM să fie criminalizată.

În numele protejării creatorilor de conținut (dar, în realitate, în numele protejării intereselor financiare ale acestor trusturi), DRM produce nenumărate neajunsuri utilizatorului de rând. Acesta nu mai are dreptul de a-și face o copie a datelor în scopuri personale sau de a împrumuta o copie unui prieten. Pe termen lung, probabil vor dispărea și bibliotecile publice. Prin prelungirea la infinit a termenelor de copyright, domeniul public devine tot mai sărac. Utilizatorul este spionat fără rușine și informațiile despre filmele văzute, muzica ascultată și jocurile jucate sunt centralizate. În general, utilizatorul pierde controlul asupra unui echipament și a unor date pentru care el a plătit.

DRM este un set de măsuri profund haíne. Ele contravin spiritului uman de colaborare și de întrajutorare și calcă în picioare noțiuni de proprietate și de liberă exprimare stipulate în Constituțiile majorității țărilor democratice. În lume se organizează permanent acțiuni pentru informarea publicului asupra pericolelor prezentate de DRM. Una dintre acestea este Ziua Împotriva DRM, un eveniment anual care a prilejuit și acest mesaj.

29 aprilie 2011

Cuvîntul zilei

   Multă vreme de cînd nu am mai scris pe blog! Iată că după lupte (cu noi înșine), am reușit să lansăm „Cuvîntul zilei” pe dexonline. Deși infrastructura era gata de ceva timp, ne lipsea scînteia care să finalizeze proiectul, mai exact partea cea mai importantă, dar și cea mai migăloasă: găsirea metodei de alegere a cuvintelor. Cu ajutorul lui Dorelian care s-a alăturat echipei „Cuvîntului zilei” (și cu muncă, și cu idei).
    În scurt timp sperăm să putem să oferim și un widget care să permită afișarea pe alte site-uri și o arhivă a acestor cuvinte. Între timp, bucurați-vă de „Cuvîntul zilei” pe dexonline și în cadrul noțitelor  pe peretele prezentării noastre de pe facebook.

25 octombrie 2010

Forme nerecomandate pentru verbe

Începând de astăzi, la prezentarea paradigmelor (conjugări de verbe, respectiv declinări de substantive și adjective) DEX online indică și care dintre forme sunt nerecomandate, în conformitate cu ultimele norme ale Institutului de Lingvistică al Academiei Române.

Sperăm ca prin aceasta să eliminăm o sursă de confuzie: DEX online intenționează să ateste toate formele, inclusiv pe cele populare și pe cele aproape ieșite din uz, dar am simțit necesar să evidențiem că nu toate aceste forme sunt la fel de corecte. Formele nerecomandate sunt trecute cu roșu albastru.

Exemplu: conjugarea verbului a avea.

22 septembrie 2010

Manifest DEX online

Uneori, în afară de a face lucruri, este bine și să explici de ce le faci. Am încercat să expunem principiile pe care am construit proiectul DEX online și opiniile noastre despre direcția în care se îndreaptă limba și cultura română în era digitală. Am enumerat rolurile pe care considerăm că le are DEX online în raport cu limba română și limitele contribuției pe care credem că o putem aduce. Am adus în discuție politica noastră de deschidere și argumentele pentru care ea este singura atitudine viabilă față de valorile definitorii românești. Puteți citi manifestul DEX online aici.

12 mai 2010

ConsILR 2010

    Săptămîna trecută am participat la Conferința „Resurse lingvistice și instrumente pentru prelucrarea limbii române”, ediția a VI-a, care a avut loc la Muzeul Literaturii Române, pe 6 și 7 mai 2010, unde am fost invitați de către organizatori.
    Chiar dacă titlul lucrării pe care am susținut-o, „Iniţiative lexicografice colaborative. Cazul DEX online”, nu este foarte descriptiv, practic am lansat un manifest pentru utilizarea resurselor limbii române create pe bani publici în sprijinul publicului! Probabil vom materializa manifestul într-o pagină nouă în dexonline.ro în viitorul apropiat.
    Nouă ni s-a părut că am avut un oareșcare succes!

1 aprilie 2010

Noul design DEX online

DEX online s-a schimbat la față (și nu, nu e păcăleală, deși am ales să lansăm pe 1 aprilie ca să facem un pic de vâlvă în plus). Intenția este de a contura un pic mai bine personalitatea siteului nostru, deoarece considerăm că vechiul design, deși este funcțional, este puțin cam searbăd.

Încercăm să urmărim reacțiile publicului, pentru că știm și noi că nu e bine să-ți enervezi audiența. :-) Citim tot ce este public pe twitter, pe indexuri de bloguri etc. Cabral a avut și un paragraf întreg despre noi și un poll (între timp pollul a dispărut).

Dacă doriți să reveniți la vechiul design, dați click pe Preferințe, iar dintre opțiunile pentru Design alegeți „Polar”.

Dacă aveți sugestii sau nemulțumiri, comentați aici sau scrieți-ne pe adresa de contact.

31 martie 2010

dexonline pe mobil

    Chiar dacă și pînă acum se putea accesa dexonline.ro pe mobil (în special pe „smartphone”-uri), am primit destule solicitări ca site-ul să poată fi vizionat în bune condiții și pe mobilele obișnuite. Așa ca am purces la dezvoltare, iar cea mai mare parte este gata!
    Așa că ieri am lansat prima versiune a site-ului optimizat pentru mobil la adresa http://m.dexonline.ro.  De asemnea, am facut primii pași pentru a redirecta în mod automat accesul pe site-ul nostru (de pe mobil) pe cel optimizat pentru dispozitivele electronice mobile!
    Sperînd că noile modificări vor fi folositoare, vă dorim utilizare plăcută!

17 martie 2010

Îmbunătățiri de viteză

După cum probabil ați observat, în ultimele câteva zile DEX online a răspuns ceva mai greu la căutări. Această problemă a fost rezolvată și DEX online a redevenit rapid și ușor de consultat.

Pentru cei interesați de originea tehnică a problemei, doi factori au contribuit la ea. Zilele trecute am migrat tot codul-sursă la AdoDB, o bibliotecă de abstractizare a accesului la baza de date care include și un modul de ORM. Avantajele AdoDB sunt o structurare mult mai bună a codului și mai puține posibilități de eroare. Totuși, această migrare a dublat volumul de cod PHP executat pentru fiecare căutare și a scos la iveală cea de-a doua problemă cu serverul: DEX online nu avea încă un cache pentru PHP. La orele de vârf, când DEX online trebuie să răspundă cam la 10 căutări pe secundă, serverul începuse să nu mai facă față. Am adăugat și un pachet de cache, ceea ce a făcut ca DEX online să revină la timpi de încărcare foarte buni.

11 martie 2010

Preferințe pentru utlizatori anonimi și alte noutăți

Am extins preferințele și la nivelul utilizatorilor anonimi, astfel că acum orice utilizator are acces, prin intermediul Preferințelor (vezi linkul din partea de jos a paginii) la:
  • vizualizarea celor două caractere cu probleme: ş şi ţ cu sedilă (în loc de virguliţă);
  • invalidarea opțiunii implicite de adăugarea a diacriticelor în cuvîntul căutat;
  • folosirea ortografiei folosite pînă în 1993 (î din i) în locul celei de acum;
  • vizualizarea numai a definiţiilor din categoria „oficiale” (adică a celor girate de o instituție prestigioasă);
  • posibilitatea ca flexiunile să fie afișate expandat;
Între timp lucrăm la optimizarea site-ului, cea mai vizibilă fiind folosirea unei adrese URL mai prietenoase!

18 februarie 2010

Îmbunătățiri la căutare

De curând, am făcut două schimbări în modul de căutare și de prezentare a rezultatelor. În cele mai multe cazuri, ele nu vor fi vizibile, dar sperăm ca ele să facă diferența acolo unde contează: când utilizatorul a introdus o interogare mai complexă decât un singur cuvânt, când avem o sugestie sau când dorim să atenționăm utilizatorul că a căutat o formă greșită a cuvântului.
  • Atunci când cuvântul introdus nu este găsit, dar avem exact o sugestie (nu mai multe), DEX online redirectează automat la acea sugestie, cu un mesaj de atenționare. Astfel, oprobiu redirectează la oprobriu, iar repercursiune la repercusiune. Când există mai multe sugestii, atunci DEX online nu redirectează automat, ci prezintă acea listă de sugestii.
  • Atunci când utilizatorul introduce mai multe cuvinte, încercăm să găsim un termen care se referă la cât mai multe dintre acele cuvinte. Astfel, făt frumos, cal de mare și fata morgana vor da rezultatele așteptate. Înaintea acestei schimbări, DEX online elimina automat spațiile din toate căutările făcute, ceea ce crea confuzie.
Lectură plăcută în continuare. :-)

7 februarie 2010

Expandarea flexiunilor

    De circa doi ani există facilitatea vizualizării flexiunilor cuvintelor, însă acestea erau implicit ascunse (deși existau în pagină)! Abia săptămînile trecute am realizat suportul pentru schimbarea acestei opțiuni implicite (folosind setările din „Contul meu”)...
    Cum poate fi important să poți oferi celorlalți un link (de exemple pentru verbul a fi) către o pagină din dexonline cu flexionarea cuvîntului vizibilă indiferent de setările contului respectivului, am adăugat și un link care rezolvă. Și ca să facem treaba pînă la capăt, am modificat aspectul flexiunilor după ultimele standarde în materie, adică folosirea caracterelor îngroșate (bold) pentru marcarea accentelor!
    Sperăm să vă folosească!

5 februarie 2010

Din nou ultimele noutăți

    Au trecut doi ani de la ultima postare pe blog. Sigur, dexonline nu s-a oprit acolo, însă uneori e mai ușor să faci niște modificări decît să scrii cîte ceva despre ele pe blog! Între timp, Cătălin m-a delegat pe mine să mă ocup cu partea asta, iar pentru început o să trec în revistă cîteva din cele mai importate îmbunătățiri:
  • s-a generalizat folosirea lui „ș” și „ț” (cu virguliță, nu cu sedilă);
  • s-au creat în „Contul meu” diverse opțiuni pentru fiecare utilizator:
    • pentru cei care doresc să folosească sedila în locul virguliței (din motive de browser);
    • pentru cei care doresc să folosească vechea ortografie (cu î în loc de â);
    • pentru căutarea cu diacritice;
  • s-au adăugat surse noi și definiții în acestea (vezi topul voluntarilor);
Zilele trecute s-au mai realizat mici îmbunătățiri:
  • împărțirea în două categorii de surse: sursele „oficiale” (girate de o instituție sau o editură de prestigiu) și cele „neoficiale” – celelalte;
  • mutarea definițiilor din surse „neoficiale” la sfîrșitul paginii cu rezultatele căutărilor;
  • noi opțiuni în „Contul meu”:
    • expandarea automată a flexiunilor;
    • ascunderea definițiilor provenite din sursele „neoficiale”;
Sperăm ca elanul să ne țină și să mai aducem noutăți luna care vine!

25 ianuarie 2008

Pe ultima sută de metri

Ce mai este nou la DEX online?

Chiar azi am lansat un corector ortografic pentru Firefox (de limba română, evident). Îl puteţi instala din pagina de unelte, secţiunea "Integrare în browser". Momentan există câteva limitări de care sunt conştient:

  1. Nu vă este folositor decât dacă scrieţi cu diacritice. Altfel va sublinia drept greşeli toate cuvintele pe care le scrieţi fără diacritice, de exemplu caciula în loc de căciulă.
  2. Nu ştie nici un nume propriu, deoarece se bazează exclusiv pe dicţionarele din DEX online, care nu sunt de natură enciclopedică.
  3. Nu se descurcă cu formele enclitice, de exemplu gândindu- din forma compusă gândindu-se.
O altă noutate (şi nu prea) este căutarea prin tot textul definiţiilor. Puteţi căuta mai mulţi termeni şi primiţi toate definiţiile care conţin toţi termenii. Acest mecanism, dacă este folosit cum trebuie, poate fi extrem de puternic. De exemplu, dacă nu vă mai amintiţi cum se numeşte teama de spaţii largi, puteţi căuta aceste cuvinte prin tot textul definiţiilor:

teamă de spaţii largi

Rezultatele includ aeroacrofobie, agorafobie şi cenofobie. Punct ochit, punct lovit!

Tot în pagina de unelte a apărut o secţiune specială dedicată pasionaţilor de scrabble. Aceştia pot consulta Lista Oficială de Cuvinte acceptată de Federaţia Română de Scrabble la toate concursurile oficiale.

De ce se numeşte acest post Pe ultima sută de metri? Pentru că, după îndelungi frământări, am ajuns la hotărârea că de anul acesta vreau să renunţ la programarea pentru DEX online şi să încerc şi altceva (tot din domeniul programării). Evident, voi rămâne alături de proiect pentru tot ce nu implică programarea: monitorizarea siteului, răspunsurile la mesaje, îmbunătăţirea bazei de date etc. Am scris mai mult despre această hotărâre în blogul meu personal.

23 august 2007

Forme flexionare

Scriu rar, dar am mereu ceva important de spus :)

Astăzi am lansat componenta Dex Flex (numită şi Flex online, încă nu ne-am hotărât asupra unui nume). Această componentă permite, deocamdată:
  • Consultarea formelor flexionare ale oricărui cuvânt al limbii române (conjugarea verbelor, declinarea substantivelor, adjectivelor şi pronumelor). Pe fiecare pagină de rezultate, există un link numit "Flexiuni". Încercaţi-l cu nădejde!
  • Căutarea unui cuvânt după o formă flexionară, nu neapărat după cea de bază (verze).
  • Navigarea între definiţii printr-un click pe orice cuvânt din cadrul oricărei definiţii. Mecanismul funcţionează pentru orice cuvânt din orice definiţie. Nu mai este nevoie ca moderatorii să insereze manual trimiteri pentru cuvintele-cheie dintr-o definiţie.
  • Afişarea accentelor în formele flexionare. Deocamdată la acest capitol avem doar informaţii parţiale, dar chiar şi aşa, un procent semnificativ din formele flexionare conţin şi informaţii despre accent.
Motivul pentru care acest proiect a fost considerabil de dificil este că limba română, spre deosebire de alte limbi (în special engleza) nu se pretează la derivare regresivă (stemming). Dându-se un cuvânt în engleză (shining), este de obicei simplu de aflat forma de bază a cuvântului (shine). În română, dându-se un cuvânt (de exemplu perilor sau străzi), de obicei este imposibil de dedus automat forma de bază (păr sau stradă), deoarece pentru orice regulă găsită există un număr mare de excepţii.

Am optat pentru metoda inversă: derivarea completă a tuturor cuvintelor şi stocarea tuturor formelor flexionare ale limbii române. Pentru aceasta, aveam nevoie de o catalogare a cuvintelor după modul în care se declină / conjugă. De exemplu, cuvintele casă, artă şi sonată se declină la fel (formând pluralul în -e), iar cuvintele viaţă, vară şi iarnă se declină în alt fel (formând pluralul în -i şi suferind şi transformarea a/e la plural: iarnă/ierni).

Această clasificare a fost făcută pentru prima oară în 1981 de Alf Lombard şi Constantin Gâdei în Dictionnaire morphologique de la langue roumaine. Matei Gall şi Octavian Mocanu de la Federaţia Română de Scrabble (care are nevoie de o listă a formelor flexionare acceptate la jocul de scrabble) au construit în continuarea DMLR, perfecţionând şi extinzând lista de modele. Această listă are acum circa 770 de modele de flexionare. Unele din aceste modele acoperă mii de cuvinte, iar altele au un singur reprezentant. De exemplu, mai toate participiile verbelor se declină la fel (apărut, lăbărţat, irizat), dar verbe ca a fi şi a avea sau substantive ca staroste şi sombrero nu seamănă cu nimic altceva. Aşa a rezultat LOC4, Lista Oficială de Cuvinte admisă la jocul de scrabble.

Radu Borza şi cu mine ne-am ocupat de importarea LOC4 în DEX online. Şi acest pas are capcane. Modelele din LOC4 sunt listate desfăşurat, dar a fost treaba noastră să scriem cod care să examineze formele flexionare, să îşi dea seama ce se schimbă faţă de forma de bază, să extragă aceste transformări şi să le aplice altor cuvinte etichetate cu acelaşi model. De exemplu, modelul F62 este stradă, cu pluralul străzi. Programul compară cele două forme şi extrage transformările a→ă, d→z şi ă→i. Când întâlneşte un alt cuvânt etichetat cu F62, ca gardă, nadă sau ogradă, programul aplică aceste transformări pentru a obţine formele corecte de plural gărzi, năzi sau ogrăzi.

Importarea LOC4 este numai un pas de pornire. Afişarea conjugărilor verbelor sau navigarea între definiţii cu un singur click sunt aplicaţii interesante care decurg cu un minim de efort din LOC. Dar orizonturile de abia acum se deschid către alte aplicaţii şi mai utile:
  • Setul de forme flexionare este probabil cel mai complet de până acum, el putând fi folosit de aplicaţii ca OpenOffice pentru a verifica ortografia unui document scris în limba română.
  • Căutarea prin întreg corpul definiţiilor, nu doar prin cuvintele cheie. Această aplicaţie era posibilă şi mai înainte, folosind simple căutări de subşiruri. Dar, de exemplu, o căutare a şirului carte este inutilă dacă definiţia conţine textul cărţi. Având informaţiile despre flexiune, putem indexa baza de date şi căuta un cuvânt indiferent în ce caz/număr/timp/persoană se află.
  • Verificarea închiderii tranzitive a bazei de date a DEX online. Acum putem semnaliza orice definiţii care folosesc cuvinte care nu sunt la rândul lor definite în DEX online, precum şi definiţiile circulare. Ştim sigur că acest gen de erori există, pentru că le-am preluat din DEX. :) De exemplu, există multe perechi de cuvinte care se definesc prin referinţă unul la altul, fără ca vreunul din ele să enunţe şi o definiţie propriu-zisă.
Este greu de făcut o estimare, dar eu sunt de părere că, atunci când toate aceste funcţii vor fi implementate, proiectul Dex Flex va avea un impact la fel de mare şi va fi la fel de util ca şi baza de definiţii în sine.

Evident, toate datele adăugate astăzi la Dex online pot fi copiate şi redistribuite, ca şi restul bazei de date, sub Licenţa Publică Generală GNU.