Object structure

Publication Details:

Հրատարակվում է 2015 թվականից։ Լույս է տեսնում տարին երկու անգամ

Journal or Publication Title:

Բանբեր Հայաստանի գրադարանների=Bulletin of Armenian Libraries

Date of publication:

2023

Number:

1 (Հատուկ թողարկում)

ISSN:

1829-4685

Official URL:


Additional Information:

Видал-Горен Шаан, Վիդալ-Գորեն Շահան

Title:

OCR / HTR Technologies and Armenian Heritage Preservation

Other title:

OCR и HTR технологии и сохранение армянского наследия ; OCR և HTR տեխնոլոգիաները և հայկական ժառանգության պահպանությունը

Creator:

Vidal-Gorène, Chahan

Corporate Creators:

Հայաստանի ազգային գրադարան

Subject:

Digitization ; Armenian archives

Uncontrolled Keywords:

handwritten text recognition ; optical character recognition

Coverage:

61-65

Abstract:

Character recognition is the task that automatically converts a scanned document into a searchable text format. A distinction is made between OCR (Optical Character Recognition) for printed documents and HTR (Handwritten Text Recognition) for handwritten documents. The objective of these steps is to provide a searchable and editable version of a document. These technologies meet the needs of institutions involved in the massive digitization of their collections, and strengthen the accessibility of documents and their preservation. Although the issue of OCR for printed documents remains a task considered to be largely resolved, including for Armenian, with a wide variety of software such as Abbyy Fine Reader26 (paid software), Tesseract 27 (free and open source) or Calfa28 (paid service) that can reach a character error rate (CER) of less than 1%, the recognition of manuscripts or historical documents remains an open research problem. The great variability of handwriting, the philological questions inherent to the transcription of documents, the degradation of documents (damaged printed materials, old printed matter or damaged manuscripts), the inconsistency of layouts or the quality of digitizations are all issues to be overcome, and that limit the development of generic models of recognition.
Օպտիկական տառաճանաչումը (OCR) և ձեռագիր տեքստի ճանաչումը (HTR) այժմ պատրաստ են գործարկման հայերենի համար։ Այս տեխնոլոգիան կարող է ապահովել փաստաթղթերի ավելի բարձր արժևորում՝ ապահովելով բարելավված հասանելիություն, օգտագործելով, օրինակ, բանալի բառերով որոնում և կարող է թելադրել թվային գրադարանների նոր մարտահրավերներ։ Զեկուցման նպատակն է, ներկայացնելով հայոց լեզվով տեքստերի ճանաչման գործընթացի ժամանակ առաջացած մարտահրավերները, ցույց տալ ժամանակակից հնարավորությունները: Շեշտադրումն արվելու է ձեռագիր արխիվի, հնագույն ձեռագրերի և հնատիպ գրքերի համար Կալֆայի կողմից մշակված տեխնոլոգիային։ Մենք կներկայացնենք մեր մեկնաբանությունները երեք ընթացիկ նախագծերի՝ Վենետիկի Մխիթարյան միաբանության հայկական ձեռագրերի գրացուցակի, ՀՀ ԳԱԱ հիմնարար գրադարանի թերթերի, Մխիթարյան միաբանության անդամների հայկական նամակների վերամշակման վերաբերյալ։ Կալֆայի կողմից կիրառվող մեթոդաբանությունն ապահովում է ձեռագիր փաստաթղթերի առավել քան 98%-ի և տպագիր փաստաթղթերի առավել քան 99,9%-ի ճշգրտությունը։


Publisher:

«Գիրք» հրատ.

Type:

Հոդված

Format:

pdf

Language:

en