O echipă de cercetători români, afiliați Universității din București, Institutului de Logică și Știința Datelor și Universității Politehnica din București, a creat un model de limbaj (LLM – „large language model”) dedicat limbii române.
Realizarea este una remarcabilă, având în vedere că tiparul reprezintă o premieră în domeniu, fiind primul de acest tip destinat exclusiv limbii noastre, cu aplicații diverse în dezvoltarea de unelte și platforme bazate pe inteligență artificială.
Mai mult de atât, modelul este „open source”, astfel încât acesta permite accesul gratuit tuturor persoanelor interesate să creeze instrumente A.I. adaptate limbii române.
Până în prezent, modelele de limbaj existente, precum ChatGPT, Copilot și Gemini, sunt, în principal, disponibile și antrenate pe limba engleză, aspect care limitează performanțele în limbile cu circulație mai restrânsă, cum este limba română.
Specialiștii în A.I. au un limbaj pentru limba română
Odată cu publicarea LLM-ului personalizat, inițiatorii proiectului au lansat și comunitatea OpenLLM-Ro, care-și propune să reunească toți potențialii contributori care doresc să participe la dezvoltarea tehnologiilor A.I. pentru limba română.
Proiectul, realizat cu sprijinul BRD Groupe Société Générale, are drept obiectiv încurajarea interacțiunii între diverși actori sau facilitatori ce doresc să contribuie la dezvoltarea acestei tehnologii pentru limba română și la lansarea unor modele specializate pentru anumite domenii.
„Câteva dintre exemplele de utilizare ale modelului românesc sunt: căutarea de informații în baza de cunoștințe a unei organizații, cu ghiduri și proceduri de lucru, sau roboți conversaționali pentru clienții companiilor sau ai instituțiilor, care să îi ghideze în parcurgerea pașilor necesari pentru utilizarea unui produs sau serviciu. În ambele cazuri, angajații și/sau clienții economisesc timp în accesarea informației, beneficiind în multe situații și de îmbunătățirea calității acesteia”, a explicat prof. univ. dr. Alin Ștefănescu, directorul Departamentului de Informatică din cadrul Facultății de Matematică și Informatică a Universității din București și vicepreședintele Institutului de Logică și Știința Datelor, citat de mai multe publicații.
Vezi și Viteza vorbirii poate fi un indicator mai precis al sănătății creierului
Modelul românesc a fost lansat de echipa proiectului, după ce LLM-ul a fost expus la câteva milioane de documente în limba română, pentru a înțelege mai bine semnificația cuvintelor.
Mai multe informații despre comunitatea OpenLLM-Ro pot fi accesate aici.