What is Apache Spark?

Преглед: Apache spark је општи мотор високих перформанси користи за обраду велике количине података размера. It is an open source framework used for cluster computing. Aim of this framework is to make the data analytic faster – како у погледу развоја и извршења. In this document, Ја ћу говорити о Апацхе Спарк и дискутују о различитим аспектима овог оквира.

Увод: Апацхе искра је опен соурце фрамеворк за кластера рачунарства. Направљен је на врху Hadoop Distributed File System (HDFS). Не користи две фазе карту смањити парадигме. Али у исто време обећава до 100 пута брже перформансе за одређене апликације. Спарк такође пружа почетне контакте за кластера рачунарства у меморији. Ово омогућава апликације за учитавање података у меморију кластера, тако да се може више пута упит. This ин-мемори рачунање чини Спарк један од најважнијих компоненти у великом подаци обрачуна свету.

Features: Сада ћемо расправљати карактеристике укратко. Апацхе Спарк долази са следећим карактеристикама:

АПИ заснован на Јави, Сцала и Питхон.
Скалабилност у распону од 80 to 100 чворови.
Способност да се кеш података у меморији за интерактивну скупу података. E.g. екстракт радну сет, цацхе га и упита га у више наврата.
Ефикасно библиотека за стреам процесора.
Ефикасно библиотека за machine learning и обрада графикон.

Током разговора о Спарк у контексту науке података примећује се да искра има способност да одржава податке боравишне у меморији. Овај приступ побољшава перформансе у односу на карту смањи. Гледајући из врха, варница садржи програм драјвер који покреће главни начин клијента и извршава разне операције у паралелном режиму на кластер окружењу.

спарк пружа еластичан дистрибуиран скуп података (ЕЕТ) који је скуп елемената који се дистрибуирају преко различитих чворова кластера, тако да они могу бити погубљени паралелно. Искра има способност да складишти се РДД у меморији, омогућавајући да буде ефикасно поново користити широм паралелно извршавање. РДДс такође може аутоматски опоравити у случају неуспеха чвора.

Спарк такође обезбеђује дељене променљиве које се користе у паралелним операцијама. Када искра ради паралелно као низ задатака на различитим чворовима, она преноси копију сваке варијабле за сваки задатак. Ове променљиве се такође деле на различитим задацима. Искре имамо две врсте заједничких променљивих -

емитован променљиве – се користи за кеширање вредност у меморији
акумулатори – се користи у случају шалтерима и суме.

конфигурисање Спарк:

Спарк има три главне области за конфигурацију:

Спарк својства – Ова контрола највише апликације и може поставити или користећи СпаркЦонф објецт или уз помоћ Јава системских параметара.
promenljive окружења – Они се могу користити за подешавање поставку на машине нпр. ИП адреса уз помоћ Цонф / спарк-енв.сх скрипта на сваком чвору.
сеча дрвета – Ово се може подесити помоћу стандардних лог4ј својства.

Спарк Некретнине: Спарк особине контролишу већину апликација и треба да се конфигурише посебно за одвојене апликације. Ове особине се могу подесити користећи објекат СпаркЦонф и преноси се на СпаркЦонтект. СпаркЦонф нам омогућава да подесите већину уобичајених особина да се покрене. Коришћење сет () метод СпаркЦонф класе можемо поставити кључне вредности парове. Узорак код употребе сет () Поступак је приказан испод -

Listing 1: Узорак показује начин Сет

Избор конф = ново СпаркЦонф ()

. сетМастер( “АВС” )

. сетАппНаме( “Мој Узорак Спарк апликација” )

. комплет( “спарк.екецутор.мемори” , “1г” )

Избор СЦ = ново СпаркЦонтект (conf)

Неки од заједничких особина су –
• спарк.екецутор.мемори – То указује на количину меморије која ће се користити за вршиоца. •
• спарк.сериализер – Класа се користи за сериализе објеката који ће бити послате преко мреже. Будући да је подразумевани Јава серијализација је прилично спор, препоручује се коришћење орг.апацхе.спарк.сериализер.ЈаваСериализер класу боље перформансе.
• спарк.крио.регистратор – Класа се користи да се региструју прилагођене наставе да користимо КИРО серијализацију
• спарк.лоцал.дир – локација које искра користи као огреботине простора за складиштење мапа излазне датотеке.
• спарк.цорес.мак – Користи се у самосталном моду да одреди максималну количину ЦПУ језгара да тражи.

promenljive окружења: Неки од подешавања искра може да се конфигурише помоћу променљиве окружења који су дефинисани у цонф / спарк-енв.сх скрипт датотеке. Ово су поставке машини нпр. библиотека претрага пут, Јава пут итд. Неки од најчешће коришћених енвиронмент варијабли су –

JAVA_HOME – Локација на којој се Јава инсталиран на вашем систему.
ПИСПАРК_ПИТХОН – Питон библиотека се користи за ПИСПАРК.
СПАРК_ЛОЦАЛ_ИП – ИП адреса машина која ће бити везана.
СПАРК_ЦЛАССПАТХ – Користи се додати библиотеке које се користе у рунтиме да изврши.
СПАРК_ЈАВА_ОПТС – Користи се за додавање опције ЈВМ

сеча дрвета: Спарк користи стандардни лог4ј АПИ за сјечу која може бити конфигурисана помоћу лог4ј. својства фајл.

инитиализинг Спарк:

Да се почне са спарк програм, Прва ствар је да се створи ЈаваСпаркЦонтект објекат, који говори спарк за приступ кластер. Да бисте направили варнице контекст прво створити искра цонф објекат као што је приказано у наставку:

Listing 2: Покретање објекат искра контекст

СпаркЦонфцонфиг = невСпаркЦонф().сетАппНаме(апплицатионНаме).сетМастер(master);

ЈаваСпаркЦонтектцонект = невЈаваСпаркЦонтект(config);

Параметар апплицатионНаме је име наше апликације која је приказана на кластера УИ. Мајстор параметар је УРЛ кластер или локални низ користи за покретање у локалној режиму.

Еластичне Дистрибутед Скупови података (РДДс):

Спарк је базиран на концепту еластичног дистрибуиране података или РДД. РДД је отпоран на грешке колекција елемената који може да се користи паралелно. РДД може бити креирана користећи неки од следећих два начина:

Би Параллелизинг постојећу колекцију – Параллелизед колекције су створили позивом метода параллелизе на ЈаваСпаркЦонтект класе у програму возача. Елементи колекције се копирају из постојеће колекције која може да функционише паралелно.
Би Референцинг скуп података на неки екстерни систем за складиштење – Искра има способност да створи дистрибуираних скупови података из било ког Хадооп подржава магацинског простора нпр. HDFS, Цассендра, ХБасе итд.

ЕЕТ операције:

РДД подржава две врсте пословања –

трансформације – Користи за стварање нове скупове података из постојећег.
Акције – Ово враћа вредност програму возача након извршења код на скуп.

У РДД су трансформације лењи. Трансформације не израчунати своје резултате одмах. Него су само сетим трансформације које се примењују у базу скупова података.

Summary: Дакле, у претходној дискусији сам објаснио различите аспекте Апацхе СПАРК оквира и његовој имплементацији. Перформансе СПАРК преко нормалног МапРедуце посао је такође један од најважнијих аспеката би требало да јасно разумети.

Let us conclude our discussion in the following bullets:

Спарк је оквир представљен од стране Апацхе који пружа високе перформансе претраживача који се користи за обраду великог обима података.
Развијен на врху ХДФС, али не користим карту смањи парадигму.
Спарк обећања 100 пута брже перформансе од Хадооп.
Спарк најбоље наступа на кластера.
Искра може повећати до низа 80 to 100 чворови.
Спарк има способност да кеш скупови података
Искра може да се конфигурише уз помоћ својства датотеке и неких варијабли окружења.
Спарк је базиран на еластичних дистрибуиране пакете података (ЕЕТ) што је колекција грешке толерантни објеката.

Share on Facebook

Save

Таггед на: Apache Spark

ТецхАлпине – All About Technology

www.techalpine.com