Օբյեկտ

Վերնագիր: Data Compression-Aware Performance Analysis of Dask and Spark for Earth Observation Data Processing

Ստեղծողը:

Lalayan, Arthur G.

Տեսակ:

Հոդված

Ամսագրի կամ հրապարակման վերնագիր:

Математические вопросы кибернетики и вычислительной техники=Կիբեռնետիկայի և հաշվողական տեխնիկայի մաթեմատիկական հարցեր=Mathematical problems of computer science

Հրապարակման ամսաթիվ:

2023

Համար:

59

ISSN:

2579-2784 ; e-2538-2788

Լրացուցիչ տեղեկություն:

Լալայան Արթուր Դ., Лалаян Артур Г.

Այլ վերնագիր:

Dask-ի և Spark-ի կատարողականի վերլուծություն՝ հաշվի առնելով տվյալների սեղմումը Երկրի դիտարկման տվյալների մշակման համար ; Анализ производительности Dask и Spark для обработки данных наблюдения Земли с учетом сжатия данных

Համատեղ հեղինակները:

Institute for Informatics and Automation Problems of NAS RA

Ծածկույթ:

35-44

Ամփոփում:

High-performance computing is a good choice for handling Big Earth Observationdata, allowing the processing of the data in a distributed and performance-efficient wayusing inmemory computing frameworks. The data compression technique reduces theamount of storage and network transfer time and improves processing performance.The article aims to investigate the effectiveness of widely used distributed data processing frameworks in conjunction with lossless data compression techniques, to findthe optimal compression method and processing framework for specific earth observation workflows. Normalized Difference Vegetation Index has been evaluated for theterritory of Armenia, obtaining data from the Sentinel satellite and considering thesupported compression methods to compare the performance of in-memory Dask andSpark frameworks. Experiments show that the Zstandard compression method andthe Dask framework are the best choices for such workflows.
Բարձր կատարողական հաշվարկը լավ ընտրություն է երկրի դիտարկման մեծ տվյալների մշակման համար, ինչը թույլ է տալիս տվյալների մշակումը բաշխված և բարձր արդյունավետությամբ՝ օգտագործելով հիշողության մեջ հաշվողական հարթակներ: Տվյալների սեղմման տեխնոլոգիան նվազեցնում է պահանջվող պահեստավորման ծավալը և ցանցի փոխանցման ժամանակը, ինչպես նաև բարելավում է տվյալների մշակման ժամանակը: Հոդվածի նպատակն է ուսումնասիրել լայնորեն օգտագործվող տվյալների մշակման շրջանակների արդյունավետությունը՝ տվյալների անկորուստ սեղմման տեխնիկայի հետ համատեղ, Երկրի դիտարկման հատուկ աշխատանքային հոսքերի համար սեղմման օպտիմալ մեթոդ և մշակման շրջանակ գտնելու համար: Բուսականության նորմալացված տարբերության ինդեքսը գնահատվել է Հայաստանի տարածքի համար` օգտագործելով Sentinel արբանյակի տվյալները և հաշվի առնելով սեղմման աջակցվող մեթոդները հիշողության մեջ Dask և Spark շրջանակների աշխատանքի համեմատման համար: Փորձերը ցույց են տալիս, որ Zstandard սեղմման մեթոդը և Dask միջավայրը լավագույն ընտրությունն են նման աշխատանքային հոսքերի համար:
Высокопроизводительные вычисления являются хорошим выбором для обработки больших данных наблюдения Земли, позволяя обрабатывать данные распределенным и высокопроизводительным способом с использованием вычислительных платформ в памяти. Технология сжатия данных сокращает объем хранилища и время передачи по сети и повышает производительность обработки. Целью статьи является исследование эффективности широко используемых систем распределенной обработки данных в сочетании с методами сжатия данных без потерь, чтобы найти оптимальный метод сжатия и структуру обработки для конкретных рабочих процессов наблюдения Земли. Нормализованный разностный индекс растительности был оценен для территории Армении с использованием данных со спутника Sentinel и с учетом поддерживаемых методов сжатия для сравнения производительности фреймворков Dask и Spark в памяти. Эксперименты показывают, что метод сжатия Zstandard и фреймворк Dask являются наилучшим выбором для таких рабочих процессов.

Հրատարակիչ:

Изд-во НАН РА

Ձևաչափ:

pdf

Նույնացուցիչ:

oai:arar.sci.am:366985

Բնօրինակի գտնվելու վայրը:

ՀՀ ԳԱԱ Հիմնարար գիտական գրադարան

Օբյեկտի հավաքածուներ:

Վերջին անգամ ձևափոխված:

Sep 19, 2024

Մեր գրադարանում է սկսած:

Dec 8, 2023

Օբյեկտի բովանդակության հարվածների քանակ:

9

Օբյեկտի բոլոր հասանելի տարբերակները:

https://arar.sci.am/publication/396600

Ցույց տուր նկարագրությունը RDF ձևաչափով:

RDF

Ցույց տուր նկարագրությունը OAI-PMH ձևաչափով։

OAI-PMH

Այս էջը օգտագործում է 'cookie-ներ'։ Ավելի տեղեկատվություն