CoRoLa - Corpus de referință pentru limba română contemporană
Institutul de Cercetări pentru Inteligență Artificială al Academiei Române "Mihai Drăgănescu"
Email: office@racai.ro
Institutul de Informatică Teoretică al Academiei Române – Filiala Iași
Email: secretariat@iit.academiaromana-is.ro
Corpus scris
Corpus oral
Word Embeddings

Introduceți 3 cuvinte pentru a obține o analogie de forma vec(A)-vec(B)+vec(C), unde vec(A) este reprezentarea vectorială asociată cuvântului A.

Exemplu: vec("rege")-vec("bărbat")+vec("femeie")=vec("regină")

A B C  

Introduceti un cuvant pentru a obtine cuvinte similare.

Cuvant  

Vectori pre-calculati

  Dimensiune Număr minim apariții Număr cuvinte Acuratețe SET1 Acuratețe SET2 Corelare WS-353  
 10011.903.26520 %48 %51Download
 1005522.89926 %61 %53Download
 10010357.52725 %56 %51Download
 10020250.94226 %54 %49Download
 10050158.02022 %40 %49Download
 20011.903.26523 %58 %54Download
 2005522.89931 %65 %52Download
 20010357.52731 %64 %51Download
 20020250.94235 %72 %49Download
 20050158.02035 %66 %50Download
 30011.903.26520 %52 %54Download
 3005522.89931 %64 %51Download
 30010357.52732 %67 %50Download
recomandat30020250.94235 %74 %52Download
 30050158.02037 %72 %49Download
 40011.903.26518 %48 %55Download
 4005522.89928 %61 %52Download
 40010357.52730 %64 %52Download
 40020250.94233 %64 %47Download
 40050158.02036 %72 %49Download
 50011.903.26519 %49 %50Download
 5005522.89926 %56 %48Download
 50010357.52731 %67 %47Download
 50020250.94235 %69 %45Download
 50050158.02038 %72 %48Download
 60011.903.26514 %37 %50Download
 6005522.89924 %54 %50Download
 60010357.52728 %61 %50Download
 60020250.94231 %62 %49Download
 60050158.02038 %69 %47Download

SET1 conține 1892 analogii pentru țări europene și capitalele acestora, urmărind formularea de întrebări de forma vec(țară1)-vec(capitală1)+vec(capitală2) și așteptând ca răspuns vec(țară2). (descărcare întrebări și răspunsuri).

SET2 este un subset din SET1 care conține analogii doar pentru țările și capitalele acestora dacă se regăsesc în top 30.000 cuvinte din corpus în ordinea numărului de apariții (descărcare întrebări și răspunsuri).

Pentru setul WS-353 în limba română a fost calculat coeficientul de corelare Spearman între notele acordate manual de utilizatorii umani și distanța cosinus calculată între vectorii corespunzători din corpus. Mai multe despre setul WS-353 se pot citi în lucrarea: Samer Hassan and Rada Mihalcea, Cross-Lingual Semantic Relatedness using Encyclopedic Knowledge, in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2009), Suntec, Singapore August 2009. Setul poate fi descărcat de la adresa: http://web.eecs.umich.edu/~mihalcea/downloads.html#CROSS_LIN_SEM_REL