@misc{Galstyan_D._M._Hierarchical, author={Galstyan, D. M.}, address={Երևան}, howpublished={online}, publisher={«Պոլիտեխնիկ» տպ.}, abstract={Traditional sign language recognition (SLR) systems primarily focus on hand gestures, while facial expressions and body posture also play a crucial role in solving these problems. This paper presents a multimodal transformer architecture (MM-Transformer) that integrates three main aspects of sign language: hand gestures, facial expressions, and body posture. The proposed system has a hierarchical fusion mechanism that combines specialized encoders: 3D-CNN for hand gesture recognition, a deep residual network for facial expression analysis, and a keypoint tracking system for body posture estimation. Testing results show that this system achieves 93.2% accuracy. The proposed model results in higher inference time and memory consumption compared to models that process only hand gestures. However, it achieves higher inference accuracy while maintaining real-time Նշանների լեզվի ճանաչման ավանդական համակարգերը հիմնականում կենտրոնանում են ձեռքի ժեստերի ուսումնասիրության վրա: Այնուամենայնիվ, դեմքի արտահայտությունը և մարմնի դիրքը նույնպես շատ կարևոր են այս տիպի խնդիրները լուծելու համար: Ներկայացվում է բազմամոդալ տրանսֆորմերի ճարտարապետությունը, որը միավորում է նշանների լեզվի երեք հիմնական ասպեկտները՝ ձեռքի ժեստերը, դեմքի արտահայտությունը և մարմնի դիրքը: Առաջարկվող համակարգն ունի հիերարխիկական միաձուլման մեխանիզմ, որը համատեղում է կոդավորիչներ՝ 3D-CNN ձեռքի ժեստերի ճանաչման համար, խոր մնացորդային ցանց՝ դիմախաղի վերլուծության համար, և տարածաժամանակային հիմնակետերի հետևման համակարգ՝ մարմնի դիրքի գնահատման համար: Ստանդարտ թեստավորման արդյունքները ցույց են տալիս, որ այս համակարգը հասնում է 93.2% ճշգրտության: Առաջարկվող մոդելը հանգեցնում է եզրակացությանը՝ ավելի մեծ ժամանակի և հիշողության սպառման, համեմատած այն մոդելների հետ, որոնք մշակում են միայն ձեռքի ժեստերը: Այնուամենայնիվ, այն հասնում է ավելի բարձր ճշգրտությամբ եզրակացության։ Традиционные системы распознавания языка жестов в основном фокусируются на изучении жестов рук. Однако мимика и поза тела также очень важны для решения такого рода задач. В данной статье представлена мультимодальная архитектура трансформера, которая объединяет три основных аспекта языка жестов: жесты рук, мимику и позу тела. Предлагаемая система имеет иерархический механизм слияния, который объединяет специализированные кодировщики: 3D-CNN для распознавания жестов рук, глубокую остаточную сеть для анализа мимики и пространственно-временную систему отслеживания ключевых точек для оценки позы тела. Тестирование на стандартных эталонных тестах показывает, что эта система достигает точности 93,2%. Предлагаемая модель приводит к более высокому времени вывода и потреблению памяти по сравнению с моделями, которые обрабатывают только жесты рук. Однако она достигает более высокой точности вывода, сохраняя производительность в реальном времени.}, title={Hierarchical Multimodal Transformer For Sign Language Recognition}, type={Հոդված}, keywords={Computer science and informatics}, }