Object structure

Traditional sign language recognition (SLR) systems primarily focus on hand gestures, while facial expressions and body posture also play a crucial role in solving these problems. This paper presents a multimodal transformer architecture (MM-Transformer) that integrates three main aspects of sign language: hand gestures, facial expressions, and body posture. The proposed system has a hierarchical fusion mechanism that combines specialized encoders: 3D-CNN for hand gesture recognition, a deep residual network for facial expression analysis, and a keypoint tracking system for body posture estimation. Testing results show that this system achieves 93.2% accuracy. The proposed model results in higher inference time and memory consumption compared to models that process only hand gestures. However, it achieves higher inference accuracy while maintaining real-time
Նշանների լեզվի ճանաչման ավանդական համակարգերը հիմնականում կենտրոնանում են ձեռքի ժեստերի ուսումնասիրության վրա: Այնուամենայնիվ, դեմքի արտահայտությունը և մարմնի դիրքը նույնպես շատ կարևոր են այս տիպի խնդիրները լուծելու համար: Ներկայացվում է բազմամոդալ տրանսֆորմերի ճարտարապետությունը, որը միավորում է նշանների լեզվի երեք հիմնական ասպեկտները՝ ձեռքի ժեստերը, դեմքի արտահայտությունը և մարմնի դիրքը: Առաջարկվող համակարգն ունի հիերարխիկական միաձուլման մեխանիզմ, որը համատեղում է կոդավորիչներ՝ 3D-CNN ձեռքի ժեստերի ճանաչման համար, խոր մնացորդային ցանց՝ դիմախաղի վերլուծության համար, և տարածաժամանակային հիմնակետերի հետևման համակարգ՝ մարմնի դիրքի գնահատման համար: Ստանդարտ թեստավորման արդյունքները ցույց են տալիս, որ այս համակարգը հասնում է 93.2% ճշգրտության: Առաջարկվող մոդելը հանգեցնում է եզրակացությանը՝ ավելի մեծ ժամանակի և հիշողության սպառման, համեմատած այն մոդելների հետ, որոնք մշակում են միայն ձեռքի ժեստերը: Այնուամենայնիվ, այն հասնում է ավելի բարձր ճշգրտությամբ եզրակացության։
Традиционные системы распознавания языка жестов в основном фокусируются на изучении жестов рук. Однако мимика и поза тела также очень важны для решения такого рода задач. В данной статье представлена мультимодальная архитектура трансформера, которая объединяет три основных аспекта языка жестов: жесты рук, мимику и позу тела. Предлагаемая система имеет иерархический механизм слияния, который объединяет специализированные кодировщики: 3D-CNN для распознавания жестов рук, глубокую остаточную сеть для анализа мимики и пространственно-временную систему отслеживания ключевых точек для оценки позы тела. Тестирование на стандартных эталонных тестах показывает, что эта система достигает точности 93,2%. Предлагаемая модель приводит к более высокому времени вывода и потреблению памяти по сравнению с моделями, которые обрабатывают только жесты рук. Однако она достигает более высокой точности вывода, сохраняя производительность в реальном времени.

Երևան

Հոդված

pdf

Publication Details:

Journal or Publication Title:

Date of publication:

Volume:

Number:

ISSN:

Official URL:

Additional Information:

Title:

Other title:

Creator:

Contributor(s):

Subject:

Uncontrolled Keywords:

Coverage:

Abstract:

Place of publishing:

Publisher:

Type:

Format:

Call number:

Digitization:

Location of original object: