Apache txim yog dab tsi?

Txheej txheem cej luam: Apache txim yog muaj kev kawm siab cav xwb siv ntaub ntawv cov ntaub ntawv teev ntau. Nws yog ib tug moj khaum qhib tau qhov twg los siv rau pawg xam. Aim ntawm lub moj khaum no yog yuav tau ua cov ntaub ntawv analytic ceev – ob yam ntawd tej kev loj hlob thiab tiav. Nyob rau hauv daim ntawv no, Kuv yuav tham txog Apache txim thiab sib tham txog qhov sib nrauj ntau no lub moj khaum.

Taw qhia: Apache txim yog moj khaum los qhib rau xam pawg. Nws ua yog qaum rau Hadoop muab theej thiab faib cov ntaub ntawv kaw lus (HDFS). Nws tsis siv rau cov theem ob daim ntawv qhia kom paradigm. Tab sis tib lub sij hawm nws promises txog li 100 lub sij hawm tus me nyuam qhov kev xav rau tej yam kev siv. Txim tau thiab muab cov pib ua xam tsis pub dhau lub cim xeeb sawv. Cov kev pab cuam tshiab los ntsaws cov ntaub ntawv rau hauv lub cim xeeb los ntawm ib pawg kom nws yuav tsum queried pheej enables qhov no. Qhov no nyob-nco le caag ua rau txim yog ib txoj kev tivthaiv uas tseem ceeb tshaj nyob hauv cov ntaub ntawv loj le caag ntiaj teb.

Nta: Tam sim no peb sib tham txog cov yam ntxwv ua brief. Apache txim los nrog cov yam ntxwv li nram no:

  • APIs le Java, Scala thiab nab hab sej.
  • Scalability ntawm 80 mus 100 o.
  • Muaj peev xwm cache dataset nyob rau hauv tus cim xeeb rau cov ntaub ntawv sib tham sib teeb. E.g. extract txheej ua hauj lwm, nws cache thiab query nws pheej hais dua.
  • Cov tsev qiv ntawv npaum rau ua kwj.
  • Cov tsev qiv ntawv npaum rau cov kev kawm tshuab thiab teeb ua.

Thaum sib tham txog cov txim hauv kev kawm ntaub ntawv lub ntsiab lus teb nws yog pom cov txim uas muaj peev xwm tswj tau cov ntaub ntawv nyob hauv lub cim xeeb. Kauj tej ntawv as compared to daim ntawv qhia kom tsis txhob. Nrhiav lub toj, txim muaj ib pab tsav tsheb uas sau rau txoj kev tseem ceeb ntawm tus neeg thiab executes ntau yam haujlwm rau thaum uas tig mus hom ntawm ib cheeb tsam clustered.

Muaj txim resilient distributed dataset (RDD) Nws yog ib phau ntawm hais uas yog faib nyob rau lub txawv o ntawm pawg, kom lawv yuav tsum tau sau nyob mus tib seem. Txim muaj peev xwm muab ib tus RDD hauv lub cim xeeb, li no tas reused nraaj nyob rau thaum uas tig mus tso. RDDs yeej tseem yuav zoo thaum cov tsis ua hauj lwm ntawm.

Txim no yuav muaj kev sib zog uas yog siv tau rau thaum uas tig mus haujlwm. Thaum twg txim sau hauv mus tib seem li txheej paub tab rau lub txawv o, nws transfers kuj sib txawv thiab ib daim ntawv mus ua hauj lwm txhua. Cov nqi no kuj koom nyob txawv cov paub tab. Nyob txim peb muaj ob hom sib zog –

  • tsiaj ntawv tshaj tawm hauv xov – siv cache muaj nqis nyob hauv lub cim xeeb
  • accumulators – siv thaum tej txee thiab qhaub.

Configuring txim:

Txim muab peb tej chaw tseem ceeb rau cov configuration:

  • Txim zog – Qhov no tiv thaiv feem ntau ntawm cov ntaub ntawv thiab yuav muab teev cia yog siv lub SparkConf nruas los nrog kev pab los ntawm lawv lub zog Java.
  • Txhawb zog – Cov no yuav siv tau los configure tshuab raws li tsev koom e.g. qhov chaw nyob tus IP uas muaj kev pab los ntawm conf/txim-env.sh tsab ntawv rau txhua tus ntawm xwb.
  • Txiav – Qhov no yuav tsum configured siv tus txheem log4j zog.

Txim zog: Txim muaj zog tiv thaiv feem ntau ntawm cov tshiab nqis thiab yuav tsum muab configured nyias rau nyias daim ntaub ntawv. Cov khoom no yuav muab teev cia siv cov twj paj nruas SparkConf thiab yuav kis tau mus rau lub SparkContext. SparkConf pub peb configure feem ntau ntawm cov khoom uas yuav initialize. Siv lub teeb () hom hoob kawm SparkConf peb yuav yuav muab lub tseem ceeb nqi officers. Siv lub teeb chaws ib cov qauv () txoj kev no yog muaj li nram qab no-

Qhia 1: Qauv uas qhia cov txujci Set

val conf = SparkConf tshiab ()

. setMaster( “aws” )

. setAppName( “Kuv daim ntawv thov SPARK qauv” )

. teem caij( “spark.executor.memory” , “1g” )

val sc = SparkContext tshiab (conf)

Ib cov khoom uas yog –
• spark.executor.memory – Qhov ntawd hais nco siv ib executor npaum. •
• spark.serializer – Kawm siv serialize tej yam khoom uas yuav muab xa mus nyob lub network. Vim yog lub neej ntawd java serialization qeeb heev, Nws pom zoo kom siv cov hoob kawm org.apache.spark.serializer.JavaSerializer tau txais ib qhov kev kawm ntawv zoo dua.
• spark.kryo.registrator – Chav kawm ntawv uas siv los mus sau npe tus kawm kev cai yog tias peb siv lub Kyro serialization
• spark.local.dir – lwm qhov chaw twg ua txim siv li khawb qhov chaw cia rau hauv daim ntawv qhia rau cov zis ntaub ntawv.
• spark.cores.max – Siv hauv standalone cov hom los qhia tus nqi siab tshaj plaws CPU cores thov kom.

Txhawb zog: Tej kev rau txim tej chaw yuav tsum configured siv zog ib puag ncig uas sau tseg rau hauv tsab ntawv conf/txim-env.sh. Cov no yog ib lub cav txog tej chaw e.g. tsev qiv ntawv tshawb fawb txog kev, java kab thiab lwm yam. Ib qhov chaw siv feem ntau zog yog –

  • JAVA_HOME – Qhov chaw nyob uas cov JAVA yog ntsia ntawm koj.
  • PYSPARK_PYTHON – Cov ntawv siv rau PYSPARK sej.
  • SPARK_LOCAL_IP – Tus IP chaw nyob ntawm lub tshuab uas yog yuav tau ua txhua yam.
  • SPARK_CLASSPATH – Siv ntxiv qiv uas yog siv hauv runtime rau txim tuag.
  • SPARK_JAVA_OPTS – Siv los ntxiv cov kev xaiv uas JVM

Txiav: Txim siv tus txheem Log4j API rau cov uas yuav raug configured siv lub log4j logging. cov ntaub ntawv zog.

Initializing txim:

Yuav pib nrog ib qhov kev pab uas tsis yog txim, thawj qhov no los ua ib yam twj paj nruas JavaSparkContext, uas qhia rau txim rau cov pawg. Los ua ib lub ntsiab lus teb txim peb xub tsim txim conf kwv li nram qab no:

Qhia 2: Initializing tus tsav haus dejcawv txim ntsiab lus teb

SparkConfconfig = newSparkConf().setAppName(applicationName).setMaster(tswv);

JavaSparkContextconext = newJavaSparkContext(config);

Tus parameter applicationName yog ib lub npe ntawm peb daim ntawv thov uas yog qhia rau cov pawg povhwm poob haujlwm. Tus parameter tswv yog tus sawv URL los ib txoj hlua hauv zos siv los khiav hauv lub hom.

Resilient faib Datasets (RDDs):

Txim raws li lub tswvyim resilient distributed dataset los yog RDD. RDD yog ib phau txhaum-tiv thaiv kev hais uas yuav tsum ua hauv mus tib seem. RDD yuav tau tsim siv tog twg los lub qab ob tug cwj pwm zoo:

  • Yog Parallelizing tus noog uas twb muaj lawm – Parallelized collections nws zoo hu rau parallelize nug cov hoob kawm JavaSparkContext pab tsav. Hais txog qhov sau los ua tau theej los ntawm ib tug noog uas twb muaj lawm uas yuav ua rau kev mus tib seem.
  • Los ntawm Referencing lub dataset ntawm ib lwm cia – Txim muaj peev xwm tsim distributed datasets ntawm kev Hadoop txaus siab cia chaw e.g. HDFS, Cassendra, Hbase thiab lwm yam.

RDD Operations:

RDD txhawb ob hom haujlwm –

  • Transformations – Siv los ua kom muaj datasets tshiab los ntawm tus uas twb muaj lawm ib.
  • Tej yam ua tau – Qhov no rov muaj nqis rau cov kev pab cuam tsav tsheb tom qab executing qhov chaws rau cov dataset.

Nyob rau hauv RDD lub transformations yog tub nkees. Transformations tsis laij cov ntsiab tam. Theej lawv tsuas nco cov transformations uas muaj ntaub ntawv rau lub txoos datasets.

Txoj kev: Ces nyob hauv qhov kev sib sab laj saum toj no kuv tau piav ntau yaam Apache SPARK moj khaum thiab yuav siv nws cov. Ntawv uas txim li MapReduce txoj hauj lwm yeej tseem yog ib yaam tseem ceeb uas peb yuav tsum tau taub kom meej meej.

Peb cia xaus peb sib tham nyob rau lub cia nyias qhov nram qab no:

  • Txim yog ib qhov hau los ntawm cov uas yuav muaj kev kawm nrhiav cav siv rau cov ntaub ntawv teev loj ntawm cov ntaub ntawv muab kev pab Apache.
  • Tsim nyob saum HDFS, tab sis nws tsis siv hauv daim ntawv qhia kom paradigm.
  • Txim cog 100 lub sij hawm sai dua Hadoop kev kawm.
  • Txim zoo co nyob tej pawg ua ke.
  • Txim tau scale mus ib chav 80 mus 100 o.
  • Txim muaj peev xwm cache lub datasets
  • Txim yuav tsum configured nrog kev pab los ntawm ib zog cov ntaub ntawv thiab tej chaw zog.
  • Txim raws distributed resilient datasets (RDD) Nws yog ib phau ntawm qhov txhaum khoom tiv thaiv.
Tagged:
============================================= ============================================== Yuav zoo TechAlpine phau ntawv rau Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Txaus siab rau qhov blog? Tshaj tawm lus thov :)

Follow by Email
LinkedIn
LinkedIn
Share