Հրապարակման մանրամասներ:
Լույս է տեսնում 1948 թվականից՝ տարին 4 անգամ։
Ամսագրի կամ հրապարակման վերնագիր:
Հրապարակման ամսաթիվ:
Հատոր:
Համար:
ISSN:
Պաշտոնական URL:
Լրացուցիչ տեղեկություն:
Վերնագիր:
Hierarchical Multimodal Transformer For Sign Language Recognition
Այլ վերնագիր:
Иерархический мультимодальный трансформер для распознавания языка жестов ; Հիերարխիկ բազմամոդալ տրանսֆորմատոր՝ նշանների լեզվի ճանաչման համար
Ստեղծողը:
Աջակից(ներ):
Պատ․ խմբ․՝ Ա․ Գ․ Նազարով (1957-1964) ; Մ․ Վ․ Կասյան (1964-1988) ; Ռ․ Մ․ Մարտիրոսյան (1989-2017 ) ; Գլխավոր խմբ․՝ Վ․ Շ․ Մելիքյան (2018-)
Խորագիր:
Computer science and informatics
Չվերահսկվող բանալի բառեր:
deep learning ; transformers ; sign language ; multimodal ; CNN
Ծածկույթ:
Ամփոփում:
Traditional sign language recognition (SLR) systems primarily focus on hand gestures, while facial expressions and body posture also play a crucial role in solving these problems. This paper presents a multimodal transformer architecture (MM-Transformer) that integrates three main aspects of sign language: hand gestures, facial expressions, and body posture. The proposed system has a hierarchical fusion mechanism that combines specialized encoders: 3D-CNN for hand gesture recognition, a deep residual network for facial expression analysis, and a keypoint tracking system for body posture estimation. Testing results show that this system achieves 93.2% accuracy. The proposed model results in higher inference time and memory consumption compared to models that process only hand gestures. However, it achieves higher inference accuracy while maintaining real-time
Նշանների լեզվի ճանաչման ավանդական համակարգերը հիմնականում կենտրոնանում են ձեռքի ժեստերի ուսումնասիրության վրա: Այնուամենայնիվ, դեմքի արտահայտությունը և մարմնի դիրքը նույնպես շատ կարևոր են այս տիպի խնդիրները լուծելու համար: Ներկայացվում է բազմամոդալ տրանսֆորմերի ճարտարապետությունը, որը միավորում է նշանների լեզվի երեք հիմնական ասպեկտները՝ ձեռքի ժեստերը, դեմքի արտահայտությունը և մարմնի դիրքը: Առաջարկվող համակարգն ունի հիերարխիկական միաձուլման մեխանիզմ, որը համատեղում է կոդավորիչներ՝ 3D-CNN ձեռքի ժեստերի ճանաչման համար, խոր մնացորդային ցանց՝ դիմախաղի վերլուծության համար, և տարածաժամանակային հիմնակետերի հետևման համակարգ՝ մարմնի դիրքի գնահատման համար: Ստանդարտ թեստավորման արդյունքները ցույց են տալիս, որ այս համակարգը հասնում է 93.2% ճշգրտության: Առաջարկվող մոդելը հանգեցնում է եզրակացությանը՝ ավելի մեծ ժամանակի և հիշողության սպառման, համեմատած այն մոդելների հետ, որոնք մշակում են միայն ձեռքի ժեստերը: Այնուամենայնիվ, այն հասնում է ավելի բարձր ճշգրտությամբ եզրակացության։
Традиционные системы распознавания языка жестов в основном фокусируются на изучении жестов рук. Однако мимика и поза тела также очень важны для решения такого рода задач. В данной статье представлена мультимодальная архитектура трансформера, которая объединяет три основных аспекта языка жестов: жесты рук, мимику и позу тела. Предлагаемая система имеет иерархический механизм слияния, который объединяет специализированные кодировщики: 3D-CNN для распознавания жестов рук, глубокую остаточную сеть для анализа мимики и пространственно-временную систему отслеживания ключевых точек для оценки позы тела. Тестирование на стандартных эталонных тестах показывает, что эта система достигает точности 93,2%. Предлагаемая модель приводит к более высокому времени вывода и потреблению памяти по сравнению с моделями, которые обрабатывают только жесты рук. Однако она достигает более высокой точности вывода, сохраняя производительность в реальном времени.
Հրատարակության վայրը:
Երևան
Հրատարակիչ:
Տեսակ:
Ձևաչափ:
Դասիչ:
Թվայնացում:
ՀՀ ԳԱԱ Հիմնարար գիտական գրադարան