Նիւթ

Վերնագիր: Approach and Challenges of Training an Armenian Version of BERT Language Model

Հրապարակման մանրամասներ:

This issue of the Periodical is dedicated to the 85-th anniversary of Hrant B. Marandjian,Doctor of Physical and Mathematical Sciences, Professor, Corresponding Member of NAS RA, Academician of the Russian Academy of Natural Sciences.

Ամսագրի կամ հրապարակման վերնագիր:

Математические вопросы кибернетики и вычислительной техники=Կիբեռնետիկայի և հաշվողական տեխնիկայի մաթեմատիկական հարցեր=Mathematical problems of computer science

Հրապարակման ամսաթիւ:

2024

Հատոր:

62

ISSN:

2579-2784 ; e-2538-2788

Լրացուցիչ տեղեկութիւն:

կապին հետեւելուն համար սեղմէ հոս

Ծածկոյթ:

59-71

Ամփոփում:

Training and deploying BERT models for specific languages, especially low-resource ones, presents a unique set of challenges. These challenges stem from the inherent data scarcity associated with languages like Armenian, the computational demands of training BERT models, often requiring extensive resources, and the inefficiencies in hosting and maintaining models for languages with limited digital traffic. In this research, we introduce a novel methodology that leverages the Armenian Wikipedia as a primary data source, aiming to optimize the performance of BERT for the Armenian language. Our approach demonstrates that, with strategic preprocessing and transfer learning techniques, it's possible to achieve performance metrics that rival those of models trained on more abundant datasets. Furthermore, we explore the potential of fine-tuning pre-trained multilingual BERT models, revealing that they can serve as robust starting points for training models for low-resource but significant languages like Armenian.

Հրատարակիչ:

Изд-во НАН РА

Ձեւաչափ:

pdf

Նոյնացուցիչ:

oai:arar.sci.am:405410

Բնօրինակին գտնուելու վայրը:

ՀՀ ԳԱԱ Հիմնարար գիտական գրադարան

Նիւթին հաւաքածոները:

Վերջին անգամ ձեւափոխուած է:

Aug 7, 2025

Մեր գրադարանին մէջ է սկսեալ:

Aug 7, 2025

Նիւթին բովանդակութեան հարուածներուն քանակը:

3

Նիւթին բոլոր հասանելի տարբերակները:

https://arar.sci.am/publication/437427

Ցոյց տուր նկարագրութիւնը RDF ձեւաչափով:

RDF

Ցոյց տուր նկարագրութիւնը OAI-PMH ձեւաչափով։

OAI-PMH

Հրատարակութեան անունը Թուական
Gyurjyan, Mikayel K., Approach and Challenges of Training an Armenian Version of BERT Language Model Aug 7, 2025

Օբյեկտի տեսակ՝

Նման

Այս էջը կ'օգտագործէ 'cookie-ներ'։ Յաւելեալ տեղեկատուութիւն