CoRoLa - Corpus de referință pentru limba română contemporană

Introduceți 3 cuvinte pentru a obține o analogie de forma vec(A)-vec(B)+vec(C), unde vec(A) este reprezentarea vectorială asociată cuvântului A.

Exemplu: vec("rege")-vec("bărbat")+vec("femeie")=vec("regină")

Introduceti un cuvant pentru a obtine cuvinte similare.

Vectori pre-calculati

	Dimensiune	Număr minim apariții	Număr cuvinte	Acuratețe SET1	Acuratețe SET2	Corelare WS-353
	300	20	186.202	32 %	66 %	-	Download
recomandat	300	50	106.408	38 %	69 %	-	Download

SET1 conține 1892 analogii pentru țări europene și capitalele acestora, urmărind formularea de întrebări de forma vec(țară1)-vec(capitală1)+vec(capitală2) și așteptând ca răspuns vec(țară2). (descărcare întrebări și răspunsuri).

SET2 este un subset din SET1 care conține analogii doar pentru țările și capitalele acestora dacă se regăsesc în top 30.000 cuvinte din corpus în ordinea numărului de apariții (descărcare întrebări și răspunsuri).

Pentru setul WS-353 în limba română a fost calculat coeficientul de corelare Spearman între notele acordate manual de utilizatorii umani și distanța cosinus calculată între vectorii corespunzători din corpus. Mai multe despre setul WS-353 se pot citi în lucrarea: Samer Hassan and Rada Mihalcea, Cross-Lingual Semantic Relatedness using Encyclopedic Knowledge, in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2009), Suntec, Singapore August 2009. Setul poate fi descărcat de la adresa: http://web.eecs.umich.edu/~mihalcea/downloads.html#CROSS_LIN_SEM_REL

A	B	C

Afisare vectori

Cuvant

Afisare vectori