Object structure

Journal or Publication Title:

Математические вопросы кибернетики и вычислительной техники=Կիբեռնետիկայի և հաշվողական տեխնիկայի մաթեմատիկական հարցեր=Mathematical problems of computer science

Date of publication:

2023

Number:

59

ISSN:

2579-2784 ; e-2538-2788

Additional Information:

Լալայան Արթուր Դ., Лалаян Артур Г.

Title:

Data Compression-Aware Performance Analysis of Dask and Spark for Earth Observation Data Processing

Other title:

Dask-ի և Spark-ի կատարողականի վերլուծություն՝ հաշվի առնելով տվյալների սեղմումը Երկրի դիտարկման տվյալների մշակման համար ; Анализ производительности Dask и Spark для обработки данных наблюдения Земли с учетом сжатия данных

Creator:

Lalayan, Arthur G.

Corporate Creators:

Institute for Informatics and Automation Problems of NAS RA

Subject:

Mathematical cybernetics ; Computer science

Uncontrolled Keywords:

Earth observation ; HPC ; Spark ; Dask ; Distributed computing

Coverage:

35-44

Abstract:

High-performance computing is a good choice for handling Big Earth Observationdata, allowing the processing of the data in a distributed and performance-efficient wayusing inmemory computing frameworks. The data compression technique reduces theamount of storage and network transfer time and improves processing performance.The article aims to investigate the effectiveness of widely used distributed data processing frameworks in conjunction with lossless data compression techniques, to findthe optimal compression method and processing framework for specific earth observation workflows. Normalized Difference Vegetation Index has been evaluated for theterritory of Armenia, obtaining data from the Sentinel satellite and considering thesupported compression methods to compare the performance of in-memory Dask andSpark frameworks. Experiments show that the Zstandard compression method andthe Dask framework are the best choices for such workflows.
Բարձր կատարողական հաշվարկը լավ ընտրություն է երկրի դիտարկման մեծ տվյալների մշակման համար, ինչը թույլ է տալիս տվյալների մշակումը բաշխված և բարձր արդյունավետությամբ՝ օգտագործելով հիշողության մեջ հաշվողական հարթակներ: Տվյալների սեղմման տեխնոլոգիան նվազեցնում է պահանջվող պահեստավորման ծավալը և ցանցի փոխանցման ժամանակը, ինչպես նաև բարելավում է տվյալների մշակման ժամանակը: Հոդվածի նպատակն է ուսումնասիրել լայնորեն օգտագործվող տվյալների մշակման շրջանակների արդյունավետությունը՝ տվյալների անկորուստ սեղմման տեխնիկայի հետ համատեղ, Երկրի դիտարկման հատուկ աշխատանքային հոսքերի համար սեղմման օպտիմալ մեթոդ և մշակման շրջանակ գտնելու համար: Բուսականության նորմալացված տարբերության ինդեքսը գնահատվել է Հայաստանի տարածքի համար` օգտագործելով Sentinel արբանյակի տվյալները և հաշվի առնելով սեղմման աջակցվող մեթոդները հիշողության մեջ Dask և Spark շրջանակների աշխատանքի համեմատման համար: Փորձերը ցույց են տալիս, որ Zstandard սեղմման մեթոդը և Dask միջավայրը լավագույն ընտրությունն են նման աշխատանքային հոսքերի համար:
Высокопроизводительные вычисления являются хорошим выбором для обработки больших данных наблюдения Земли, позволяя обрабатывать данные распределенным и высокопроизводительным способом с использованием вычислительных платформ в памяти. Технология сжатия данных сокращает объем хранилища и время передачи по сети и повышает производительность обработки. Целью статьи является исследование эффективности широко используемых систем распределенной обработки данных в сочетании с методами сжатия данных без потерь, чтобы найти оптимальный метод сжатия и структуру обработки для конкретных рабочих процессов наблюдения Земли. Нормализованный разностный индекс растительности был оценен для территории Армении с использованием данных со спутника Sentinel и с учетом поддерживаемых методов сжатия для сравнения производительности фреймворков Dask и Spark в памяти. Эксперименты показывают, что метод сжатия Zstandard и фреймворк Dask являются наилучшим выбором для таких рабочих процессов.

Publisher:

Изд-во НАН РА

Type:

Հոդված

Format:

pdf

Location of original object:

ՀՀ ԳԱԱ Հիմնարար գիտական գրադարան