Object

Title: OCR / HTR Technologies and Armenian Heritage Preservation

Publication Details:

Հրատարակվում է 2015 թվականից։ Լույս է տեսնում տարին երկու անգամ

Journal or Publication Title:

Բանբեր Հայաստանի գրադարանների=Bulletin of Armenian Libraries

Date of publication:

2023

Number:

1 (Հատուկ թողարկում)

ISSN:

1829-4685

Official URL:


Additional Information:

Видал-Горен Шаан, Վիդալ-Գորեն Շահան

Other title:

OCR и HTR технологии и сохранение армянского наследия ; OCR և HTR տեխնոլոգիաները և հայկական ժառանգության պահպանությունը

Corporate Creators:

Հայաստանի ազգային գրադարան

Coverage:

61-65

Abstract:

Character recognition is the task that automatically converts a scanned document into a searchable text format. A distinction is made between OCR (Optical Character Recognition) for printed documents and HTR (Handwritten Text Recognition) for handwritten documents. The objective of these steps is to provide a searchable and editable version of a document. These technologies meet the needs of institutions involved in the massive digitization of their collections, and strengthen the accessibility of documents and their preservation. Although the issue of OCR for printed documents remains a task considered to be largely resolved, including for Armenian, with a wide variety of software such as Abbyy Fine Reader26 (paid software), Tesseract 27 (free and open source) or Calfa28 (paid service) that can reach a character error rate (CER) of less than 1%, the recognition of manuscripts or historical documents remains an open research problem. The great variability of handwriting, the philological questions inherent to the transcription of documents, the degradation of documents (damaged printed materials, old printed matter or damaged manuscripts), the inconsistency of layouts or the quality of digitizations are all issues to be overcome, and that limit the development of generic models of recognition.
Օպտիկական տառաճանաչումը (OCR) և ձեռագիր տեքստի ճանաչումը (HTR) այժմ պատրաստ են գործարկման հայերենի համար։ Այս տեխնոլոգիան կարող է ապահովել փաստաթղթերի ավելի բարձր արժևորում՝ ապահովելով բարելավված հասանելիություն, օգտագործելով, օրինակ, բանալի բառերով որոնում և կարող է թելադրել թվային գրադարանների նոր մարտահրավերներ։ Զեկուցման նպատակն է, ներկայացնելով հայոց լեզվով տեքստերի ճանաչման գործընթացի ժամանակ առաջացած մարտահրավերները, ցույց տալ ժամանակակից հնարավորությունները: Շեշտադրումն արվելու է ձեռագիր արխիվի, հնագույն ձեռագրերի և հնատիպ գրքերի համար Կալֆայի կողմից մշակված տեխնոլոգիային։ Մենք կներկայացնենք մեր մեկնաբանությունները երեք ընթացիկ նախագծերի՝ Վենետիկի Մխիթարյան միաբանության հայկական ձեռագրերի գրացուցակի, ՀՀ ԳԱԱ հիմնարար գրադարանի թերթերի, Մխիթարյան միաբանության անդամների հայկական նամակների վերամշակման վերաբերյալ։ Կալֆայի կողմից կիրառվող մեթոդաբանությունն ապահովում է ձեռագիր փաստաթղթերի առավել քան 98%-ի և տպագիր փաստաթղթերի առավել քան 99,9%-ի ճշգրտությունը։


Publisher:

«Գիրք» հրատ.

Format:

pdf

Identifier:

oai:arar.sci.am:370148

Language:

en

Object collections:

Last modified:

Feb 16, 2024

In our library since:

Feb 15, 2024

Number of object content hits:

12

All available object's versions:

https://arar.sci.am/publication/399940

Show description in RDF format:

RDF

Show description in OAI-PMH format:

OAI-PMH

Objects

Similar

This page uses 'cookies'. More information