Why Apache Spark is the future platform for big data?

Apache Spark and Big Data

Apache Spark dhe Big Data,,en,bëhet një nga asetet më të rëndësishme që një ndërmarrje mund të posedojë,,en,kompanitë kanë nevojë për kornizë të përshtatshme,,en,teknologjive dhe mjeteve,,en,Pritjet e pjerrëta nga të dhënat e mëdha do të përcaktojnë marrëdhëniet midis ndërmarrjeve dhe të dhënave,,en,Apache Spark siguron kuadrin për të kryer veprime shumëdimensionale siç është përpunimi,,en,querying dhe gjenerimin e analytics me shpejtësi të lartë dhe duke kërkuar në të ardhmen,,en,duket se Apache Spark do të jetë platforma më popullore për të dhënat e mëdha,,en,Një faktor i rëndësishëm në këtë kontekst është Apache Spark është një kornizë me burim të hapur që rrit apelin e saj në një treg të teknologjisë pronësore të shndërruar ndryshe,,en,Apache Spark shihet si një konkurrent ose pasues,,en,Ka disa ekspertë që ende e konsiderojnë,,en

Përmbledhje:

As big data becomes one of the most important assets an enterprise can possess, enterprises are demanding more out of the data. Enterprises expect data to provide complex and multidimensional insights at high speeds. To provide such insights, companies need appropriate framework, technologies and tools. Steep expectations from big data are going to define the relationship between enterprises and data. Apache Spark provides the framework to perform multidimensional actions such as processing, querying and generating analytics at high speeds and looking at the future, it seems likely that Apache Spark is going to be the most popular platform for big data. An important factor in this context is Apache Spark is an open source framework which increases its appeal in an otherwise expensive proprietary technology market. Apache Spark is seen as a competitor or successor to MapReduce. There are some experts who still consider Spark një kornizë në fazat e saj të lindjes dhe tani mund të mbështesë vetëm disa analiza operacionale,,en,Konteksti për Apache Spark,,en,Apache Spark ka dalë në një kohë kur ndërmarrjet presin që të dhënat që ata kanë për të ofruar më shumë, por janë të kufizuara nga disa faktorë,,en,Ndërmarrjet po përballen me probleme në disa fronte si korniza e pamjaftueshme dhe teknologjia,,en,teknologji të shtrenjtë dhe mungesë të personelit të kualifikuar,,en,Le t'i shqyrtojmë këto probleme pak më shumë nga afër,,en,Kuadri joadekuat,,en,Kornizat në dispozicion nuk janë në gjendje të përpunojnë të dhënat me një shkallë të lartë të efikasitetit,,en,pajtueshmëria ndër-platformë dhe querying janë të gjitha,,en,në shkallë të ndryshme,,en,çështjet me kornizat aktuale të softuerit,,en,Me kohë,,en,pritjet nga të dhënat po bëhen gjithnjë e më të ndryshme,,en,komplekse dhe shumëdimensionale,,en.








Context for Apache Spark

Apache Spark has emerged at a time when the enterprises expect the data they have to offer more but are constrained by several factors. Enterprises are facing problems on several fronts such as inadequate framework and technology, expensive technology and lack of skilled personnel. Let us examine these problems a little bit more closely.

Inadequate framework

The frameworks available are unable to process data with a high degree of efficiency. Speed, cross-platform compatibility and querying are all, in varying degrees, issues with current software frameworks. With time, the expectations from data are becoming more varied, complex and multidimensional. Kjo po krijon një hendek midis pritjeve dhe aftësive,,en,Kosto e larte e softuerit,,en,Kostot e softuerit ose kuadrit të pronarit janë të ndaluara dhe po krijojnë një klub ekskluziv, sepse mesatare për kompanitë e vogla nuk janë në gjendje të blejnë dhe rinovojnë licencat,,en,Vetëm kompanitë e mëdha me xhepa të thellë mund të përballojnë shpenzime të tilla që do të thotë që kompanitë më të vogla mbeten të privuara nga aftësitë më të larta të përpunimit të të dhënave,,en,papajtueshmëri,,en,Kornizat në dispozicion kanë probleme të pajtueshmërisë me mjete të tjera,,en,MapReduce funksionon vetëm në,,en,Shkëndija nuk ka probleme të tilla të përputhshmërisë,,en,Ajo mund të kandidojë në ndonjë menaxher të burimeve të tilla si,,en,muaj,,ca,Arsyet Apache Spark është platforma e ardhshme për të dhëna të mëdha,,en,Kur doni arsyet Apache Spark është platforma e ardhshme për të dhëna të mëdha,,en

High cost of software

Costs of proprietary software or framework are prohibitive and that is creating an exclusive club because mid-sized to small companies are unable to purchase and renew the licenses. Only big companies with deep pockets can afford such expenses which means that smaller companies remain deprived of the higher data processing capabilities.


Incompatibility

The available frameworks have compatibility issues with other tools. For example, MapReduce runs only on Hadoop. Spark does not have such compatibility issues. It can run on any resource manager such as fije or Mesos.

Reasons Apache Spark is the future platform for big data

When you want reasons Apache Spark is the future platform for big data, është lloj i pashmangshëm për të krahasuar Spark me Hadoop,,en,Hadoop është ende më i preferuari,,en,korniza e përpunimit dhe ka pasur më mirë të ketë arsye të mira Spark zëvendëson Hadoop,,en,Pra, këtu janë disa arsye që Spark konsiderohet e ardhmja,,en,Trajtim efikas i algoritmeve iterative,,en,Shkëndija është e shkëlqyer në trajtimin e modeleve të programimit që përfshijnë përsëritje,,en,interaktive që përfshin streaming dhe shumë më tepër,,en,MapReduce tregon disa mangësi në trajtimin e algoritmeve iterative,,en,Kjo është një arsye e madhe që Apache Spark konsiderohet si një zëvendësim kryesor për MapReduce,,en,Shkëndija ofron fletë pune të analytics,,en,Kur vjen puna te platformat analitike,,en,Spark siguron një pasuri burimesh,,en,Ka,,en,bibliotekë për mësimin e makinës,,en,Ndërfaqet e Programimit të Aplikimit,,en,për analytics grafik,,en,i njohur edhe si GraphX,,en,mbështetje për SQL-based querying,,en,streaming dhe aplikacionet,,en. Hadoop is still the most favorite big data processing framework and there had better be good reasons Spark replaces Hadoop. So here are a few reasons Spark is considered the future.

Efficient handling of iterative algorithms

Spark is great at handling programming models involving iterations, interactivity that includes streaming and much more. On the other hand, MapReduce displays several inefficiencies in handling iterative algorithms. That is a big reason Apache Spark is considered a prime replacement for MapReduce.

Spark provides analytics workflows

When it comes to analytics platforms, Spark provides a wealth of resources. It has, për shembull, library for machine learning (MLlib), Application Programming Interfaces (TV) for graph analytics, also known as GraphX, support for SQL-based querying, streaming and applications. Të gjitha këto përbëjnë një platformë analitike gjithëpërfshirëse,,en,Sipas Ian Lumb nga Bright Computing,,en,"Flukset e punës mund të ekzekutohen në një mënyrë grumbull ose në kohë reale duke përdorur mbështetjen interaktive të integruar të skemës në dispozicion në Scala dhe,,en,Për shkak të paketës statistikore të dukshme,,en,është tashmë një nga projektet plotësuese,,en,Stack analytics Spark është mjaft gjithëpërfshirës,,en,Shkëndija mund të hyjë në çdo burim të dhënash Hadoop - nga,,en,dhe sisteme të tjera të skedarëve,,en,në bazat e të dhënave si Apache,,en,dhe Apache,,en,Kështu që të dhënat me origjinë nga Hadoop mund të inkorporohen në aplikimet dhe rrjedhat e punës së Spark. ",,en,Menaxhim më i mirë i kujtesës,,en,Në një studim të fundit të benchmarking mbi ruajtjen në kujtesë të të dhënave binare,,en,u zbulua se Spark outperformed Hadoop me faktor 20x,,en,Kjo është për shkak se Spark ofron,,en,Shton Alan Lumb nga Bright Computing,,en. According to Ian Lumb of Bright Computing, “Workflows can be executed in a batch mode or in real time using the built-in interactive shell support available in Scala and piton. Because the notable stats package R is already one of the supplemental projects, Spark’s analytics stack is quite comprehensive. Spark can access any Hadoop data source – from HDFS (and other file systems) to databases like Apache HBase and Apache Cassandra. Thus data originating from Hadoop can be incorporated into Spark applications and workflows.”








Better memory management

In a recent benchmarking study on in-memory storage of binary data, it was discovered that Spark outperformed Hadoop by 20x factor. This is because Spark offers the Resilient Distributed Datasets (RDDs). Alan Lumb of Bright Computing adds, "RDD-të janë tolerante ndaj defektit,,en,struktura paralele të të dhënave të përshtatshme në mënyrë ideale për informatikë grumbulluese në memorie,,en,Në përputhje me paradigmën Hadoop,,en,RDD-të mund të vazhdojnë dhe të ndahen nëpër një infrastrukturë të të Dhënave të Mëdha që sigurojnë që të dhënat të vendosen në mënyrë optimale,,en,RDD-të mund të manipulohen duke përdorur një grup të pasur operatorësh. "Pra, me shfrytëzim më të mirë të kujtesës,,en,ndërmarrjet mund të presin një menaxhim më të mirë të burimeve dhe kursime të konsiderueshme të kostos,,en,Rezultate më të mira,,en,Në një skenar më të mirë për Hadoop,,en,Shkëndija mundi Hadoop me një faktor 20 herë,,en,Shihni imazhin më poshtë,,en,tregon se Spark mundi Hadoop edhe kur memoria nuk është e disponueshme dhe duhet të përdorë disqet e veta,,en,Spark dhe Hadoop krahasim,,en,Sipas faqes së internetit Spark Apache,,en,Shkëndija mund "Të ekzekutojë programe deri në 100 herë më shpejt se Hadoop MapReduce në kujtesë,,en, parallel data structures ideally suited to in-memory cluster computing. Consistent with the Hadoop paradigm, RDDs can persist and be partitioned across a Big Data infrastructure ensuring that data is optimally placed. And, of course, RDDs can be manipulated using a rich set of operators.” So with better memory utilization, enterprises can look forward to better resource management and significant cost savings.

Better results

In a best-case scenario for Hadoop, Spark beat Hadoop by a 20x factor. See the image below, it shows that Spark beat Hadoop even when memory is unavailable and it has to use its disks.

Spark and Hadoop comparison

Spark and Hadoop comparison

According to the Spark Apache website, Spark can “Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk. Spark ka një motor të avancuar të ekzekutimit të DAG që mbështet rrjedhën ciklike të të dhënave dhe informatikë në memorie. ",,en,shumica,,en,Shkëndija mund të kombinojë transmetimin,,en,SQL,,en,dhe analiza komplekse,,en,Mund të fuqizojë një grumbull bibliotekash që përfshijnë SQL,,en,GraphX,,en,MLlib për të mësuarit e makinës dhe DataFrames,,en,dhe Spark Streaming,,en,Ju mund të kombinoni të gjitha këto biblioteka në mënyrë të përsosur brenda së njëjtës aplikim,,en,Shkëndija mund të funksionojë kudo,,en,Shkëndija mund të kandidojë në Mesos,,en,pavarur,,en,ose në re,,en,Mund të hyjë në burime të ndryshme të të dhënave, lista e së cilës përfshin Cassandra,,en,dhe S3,,en,Përvetësim i rëndësishëm,,en,Shkëndija mund të përdorë burime të disponueshme,,en,Informatikë e ndritshme,,en,i cili ofron zgjidhje softuerike për vendosjen dhe menaxhimin e grupeve të mëdha të të dhënave dhe HPC dhe OpenStack në qendrën e të dhënave dhe në re,,en,vëren,,en,"Spark,,en,u lirua në mes të dhjetorit,,en,janë kryer nga,,en

Generality

Spark can combine streaming, SQL, and complex analytics. It can power a stack of libraries that include SQL, GraphX, MLlib for machine learning and DataFrames, and Spark Streaming. You can combine all these libraries seamlessly within the same application.

Spark can run everywhere

Spark can run on Mesos, standalone, Hadoop, or in the cloud. It can also access diverse data sources the list of which includes Cassandra, HDFS, HBase, and S3.

Significant uptake

Spark can put available resources to better use. Bright computing, which provides software solutions for deploying and managing big data clusters and HPC and OpenStack in the data center and in the cloud, observes, “Spark 1.2.0 was released in mid-December 2014. Over 1,000 commits were made by the 172 developers contributing to this release – that’s more than 3x the number of developers that contributed to the previous release, Spark 1.1.1.” Spark’s achievements lie in the fact that it can involve the whole community of software developers into contributing.








Summary

While there are a lot of positive vibes about Spark, it still needs to be deployed across enterprises and the use cases need to be tested. Theoretically, the features and capabilities are impressive and it promises to deliver a lot.

============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share