CoRoLa - Corpus de referință pentru limba română contemporană
Institutul de Cercetări pentru Inteligență Artificială al Academiei Române "Mihai Drăgănescu"
Email: office@racai.ro
Institutul de Informatică Teoretică al Academiei Române – Filiala Iași
Email: secretariat@iit.academiaromana-is.ro
Corpus scris
Corpus oral
Word Embeddings

Introduceți 3 cuvinte pentru a obține o analogie de forma vec(A)-vec(B)+vec(C), unde vec(A) este reprezentarea vectorială asociată cuvântului A.

Exemplu: vec("rege")-vec("bărbat")+vec("femeie")=vec("regină")

A B C  

Introduceti un cuvant pentru a obtine cuvinte similare.

Cuvant  

Vectori pre-calculati

  Dimensiune Număr minim apariții Număr cuvinte Acuratețe SET1 Acuratețe SET2 Corelare WS-353  
 30020186.20232 %66 %-Download
recomandat30050106.40838 %69 %-Download

SET1 conține 1892 analogii pentru țări europene și capitalele acestora, urmărind formularea de întrebări de forma vec(țară1)-vec(capitală1)+vec(capitală2) și așteptând ca răspuns vec(țară2). (descărcare întrebări și răspunsuri).

SET2 este un subset din SET1 care conține analogii doar pentru țările și capitalele acestora dacă se regăsesc în top 30.000 cuvinte din corpus în ordinea numărului de apariții (descărcare întrebări și răspunsuri).

Pentru setul WS-353 în limba română a fost calculat coeficientul de corelare Spearman între notele acordate manual de utilizatorii umani și distanța cosinus calculată între vectorii corespunzători din corpus. Mai multe despre setul WS-353 se pot citi în lucrarea: Samer Hassan and Rada Mihalcea, Cross-Lingual Semantic Relatedness using Encyclopedic Knowledge, in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2009), Suntec, Singapore August 2009. Setul poate fi descărcat de la adresa: http://web.eecs.umich.edu/~mihalcea/downloads.html#CROSS_LIN_SEM_REL