Ցույց տուր կառուցվածքը

Հրապարակման մանրամասներ:

Լույս է տեսնում 1948 թվականից՝ տարին 4 անգամ։

Ամսագրի կամ հրապարակման վերնագիր:

ՀՀ ԳԱԱ և ՀՊՃՀ Տեղեկագիր. Տեխնիկական գիտություններ =Proceedings of the NAS RA and SEUA: Technical Sciences

Հրապարակման ամսաթիվ:

2024

Հատոր:

77

Համար:

3

ISSN:

0002-306X

Պաշտոնական URL:


Լրացուցիչ տեղեկություն:

Գալստյան Դ. Մ., Галстян Д. М.

Վերնագիր:

Hierarchical Multimodal Transformer For Sign Language Recognition

Այլ վերնագիր:

Иерархический мультимодальный трансформер для распознавания языка жестов ; Հիերարխիկ բազմամոդալ տրանսֆորմատոր՝ նշանների լեզվի ճանաչման համար

Ստեղծողը:

Galstyan, D. M.

Աջակից(ներ):

Պատ․ խմբ․՝ Ա․ Գ․ Նազարով (1957-1964) ; Մ․ Վ․ Կասյան (1964-1988) ; Ռ․ Մ․ Մարտիրոսյան (1989-2017 ) ; Գլխավոր խմբ․՝ Վ․ Շ․ Մելիքյան (2018-)

Խորագիր:

Computer science and informatics

Չվերահսկվող բանալի բառեր:

deep learning ; transformers ; sign language ; multimodal ; CNN

Ծածկույթ:

315-321

Ամփոփում:

Traditional sign language recognition (SLR) systems primarily focus on hand gestures, while facial expressions and body posture also play a crucial role in solving these problems. This paper presents a multimodal transformer architecture (MM-Transformer) that integrates three main aspects of sign language: hand gestures, facial expressions, and body posture. The proposed system has a hierarchical fusion mechanism that combines specialized encoders: 3D-CNN for hand gesture recognition, a deep residual network for facial expression analysis, and a keypoint tracking system for body posture estimation. Testing results show that this system achieves 93.2% accuracy. The proposed model results in higher inference time and memory consumption compared to models that process only hand gestures. However, it achieves higher inference accuracy while maintaining real-time
Նշանների լեզվի ճանաչման ավանդական համակարգերը հիմնականում կենտրոնանում են ձեռքի ժեստերի ուսումնասիրության վրա: Այնուամենայնիվ, դեմքի արտահայտությունը և մարմնի դիրքը նույնպես շատ կարևոր են այս տիպի խնդիրները լուծելու համար: Ներկայացվում է բազմամոդալ տրանսֆորմերի ճարտարապետությունը, որը միավորում է նշանների լեզվի երեք հիմնական ասպեկտները՝ ձեռքի ժեստերը, դեմքի արտահայտությունը և մարմնի դիրքը: Առաջարկվող համակարգն ունի հիերարխիկական միաձուլման մեխանիզմ, որը համատեղում է կոդավորիչներ՝ 3D-CNN ձեռքի ժեստերի ճանաչման համար, խոր մնացորդային ցանց՝ դիմախաղի վերլուծության համար, և տարածաժամանակային հիմնակետերի հետևման համակարգ՝ մարմնի դիրքի գնահատման համար: Ստանդարտ թեստավորման արդյունքները ցույց են տալիս, որ այս համակարգը հասնում է 93.2% ճշգրտության: Առաջարկվող մոդելը հանգեցնում է եզրակացությանը՝ ավելի մեծ ժամանակի և հիշողության սպառման, համեմատած այն մոդելների հետ, որոնք մշակում են միայն ձեռքի ժեստերը: Այնուամենայնիվ, այն հասնում է ավելի բարձր ճշգրտությամբ եզրակացության։
Традиционные системы распознавания языка жестов в основном фокусируются на изучении жестов рук. Однако мимика и поза тела также очень важны для решения такого рода задач. В данной статье представлена мультимодальная архитектура трансформера, которая объединяет три основных аспекта языка жестов: жесты рук, мимику и позу тела. Предлагаемая система имеет иерархический механизм слияния, который объединяет специализированные кодировщики: 3D-CNN для распознавания жестов рук, глубокую остаточную сеть для анализа мимики и пространственно-временную систему отслеживания ключевых точек для оценки позы тела. Тестирование на стандартных эталонных тестах показывает, что эта система достигает точности 93,2%. Предлагаемая модель приводит к более высокому времени вывода и потреблению памяти по сравнению с моделями, которые обрабатывают только жесты рук. Однако она достигает более высокой точности вывода, сохраняя производительность в реальном времени.

Հրատարակության վայրը:

Երևան

Հրատարակիչ:

«Պոլիտեխնիկ» տպ.

Տեսակ:

Հոդված

Ձևաչափ:

pdf

Դասիչ:

АЖ 413

Թվայնացում:

ՀՀ ԳԱԱ Հիմնարար գիտական գրադարան

Բնօրինակի գտնվելու վայրը:

ՀՀ ԳԱԱ Հիմնարար գիտական գրադարան