Why Apache Spark is the future platform for big data?

Apache Spark and Big Data

Apache Spark и Big Data,,en,се превръща в едно от най-важните активи, които предприятието може да притежава,,en,компаниите се нуждаят от подходяща рамка,,en,технологии и инструменти,,en,Огромните очаквания от големите данни ще определят връзката между предприятията и данните,,en,Apache Spark предоставя рамката за извършване на многомерни действия като обработка,,en,търсене и генериране на анализи на високи скорости и търсене на бъдещето,,en,Изглежда вероятно Apache Spark да бъде най-популярната платформа за големи данни,,en

Преглед:

Като big data becomes one of the most important assets an enterprise can possess, enterprises are demanding more out of the data. Enterprises expect data to provide complex and multidimensional insights at high speeds. To provide such insights, companies need appropriate framework, technologies and tools. Steep expectations from big data are going to define the relationship between enterprises and data. Apache Spark provides the framework to perform multidimensional actions such as processing, querying and generating analytics at high speeds and looking at the future, it seems likely that Apache Spark is going to be the most popular platform for big data. Важен фактор в този контекст е Apache Spark, който е рамка с отворен код, която увеличава привлекателността му в иначе скъп патентован технологичен пазар,,en,Apache Spark се разглежда като конкурент или наследник на,,en,Има някои експерти, които все още обмислят,,en,рамка в началните етапи и в момента може да подкрепи само няколко оперативни анализи,,en,Контекст за Apache Spark,,en,Apache Spark се появи в момент, когато предприятията очакват данните, които трябва да предложат повече, но са ограничени от няколко фактора,,en,Предприятията са изправени пред проблеми на няколко фронта, като например неадекватни рамки и технологии,,en,скъпи технологии и липса на квалифициран персонал,,en,Нека разгледаме тези проблеми малко по-отблизо,,en,Недостатъчна рамка,,en. Apache Spark is seen as a competitor or successor to MapReduce. There are some experts who still consider Spark a framework at its nascent stages and it can right now support only a couple of operational analytics.








Context for Apache Spark

Apache Spark has emerged at a time when the enterprises expect the data they have to offer more but are constrained by several factors. Enterprises are facing problems on several fronts such as inadequate framework and technology, expensive technology and lack of skilled personnel. Let us examine these problems a little bit more closely.

Inadequate framework

The frameworks available are unable to process data with a high degree of efficiency. Speed, cross-platform compatibility and querying are all, in varying degrees, issues with current software frameworks. With time, the expectations from data are becoming more varied, complex and multidimensional. This is creating a gap between the expectations and the capabilities

High cost of software

Costs of proprietary software or framework are prohibitive and that is creating an exclusive club because mid-sized to small companies are unable to purchase and renew the licenses. Only big companies with deep pockets can afford such expenses which means that smaller companies remain deprived of the higher data processing capabilities.


Incompatibility

The available frameworks have compatibility issues with other tools. For example, MapReduce runs only on Hadoop. Spark няма такива проблеми със съвместимостта,,en,Тя може да се изпълнява от всеки мениджър на ресурси, като например,,en,месеца,,ca,Причини Apache Spark е бъдещата платформа за големи данни,,en,Когато искате причини, Apache Spark е бъдещата платформа за големи данни,,en,това е вид неизбежно да се сравни Spark с Hadoop,,en,Hadoop все още е най-любимият,,en,преработващата рамка и има по-добри основателни причини, че Spark замени Hadoop,,en,Ето няколко причини, поради които Спарк се счита за бъдещето,,en,Ефективна работа с итеративни алгоритми,,en,Spark е чудесен в обработката на програмни модели, включващи повторения,,en,интерактивност, която включва стрийминг и много други,,en,MapReduce показва няколко неефективности при работа с итеративни алгоритми,,en,Това е голяма причина Apache Spark да се смята за основен заместител на MapReduce,,en,Spark осигурява аналитични работни потоци,,en. It can run on any resource manager such as прежди or Mesos.

Reasons Apache Spark is the future platform for big data

When you want reasons Apache Spark is the future platform for big data, it is kind of inevitable to compare Spark with Hadoop. Hadoop is still the most favorite big data processing framework and there had better be good reasons Spark replaces Hadoop. So here are a few reasons Spark is considered the future.

Efficient handling of iterative algorithms

Spark is great at handling programming models involving iterations, interactivity that includes streaming and much more. On the other hand, MapReduce displays several inefficiencies in handling iterative algorithms. That is a big reason Apache Spark is considered a prime replacement for MapReduce.

Spark provides analytics workflows

Когато става въпрос за платформи за анализ,,en,Spark осигурява богатство от ресурси,,en,То има,,en,библиотека за машинно обучение,,en,Интерфейси за приложно програмиране,,en,за графични анализи,,en,известен също като GraphX,,en,поддръжка за SQL базирани заявки,,en,стрийминг и приложения,,en,Всички те представляват цялостна платформа за анализ,,en,Според Ian Lumb от Bright Computing,,en,„Работните потоци могат да се изпълняват в групов режим или в реално време с помощта на вградената интерактивна помощна обвивка, налична в Scala,,en,Защото забележителният статистически пакет,,en,вече е един от допълнителните проекти,,en,Анализът на Spark е доста изчерпателен,,en,Spark има достъп до всеки Hadoop източник на данни - от,,en,и други файлови системи,,en,към бази данни като Apache,,en,и Apache,,en,Така данните, произхождащи от Hadoop, могат да бъдат включени в приложенията и работните процеси на Spark. ",,en, Spark provides a wealth of resources. It has, например, library for machine learning (MLlib), Application Programming Interfaces (APIs) for graph analytics, also known as GraphX, support for SQL-based querying, streaming and applications. All these constitute a comprehensive analytics platform. According to Ian Lumb of Bright Computing, “Workflows can be executed in a batch mode or in real time using the built-in interactive shell support available in Scala and Питон. Because the notable stats package R is already one of the supplemental projects, Spark’s analytics stack is quite comprehensive. Spark can access any Hadoop data source – from HDFS (and other file systems) to databases like Apache HBase and Apache Cassandra. Thus data originating from Hadoop can be incorporated into Spark applications and workflows.”








По-добро управление на паметта,,en,В неотдавнашно проучване за бенчмаркинг за съхранение на двоични данни в паметта,,en,открито е, че Спарк надминава Hadoop с 20x фактор,,en,Това е така, защото Спарк предлага,,en,Алън Лъм от Bright Computing добавя,,en,„RDDs са устойчиви на грешки,,en,паралелни структури от данни, идеално пригодени за изчисления в клъстер в паметта,,en,В съответствие с парадигмата на Hadoop,,en,RDDs могат да продължават да съществуват и да бъдат разделени в една голяма инфраструктура за данни, като се гарантира, че данните са поставени оптимално,,en,RDD могат да бъдат манипулирани с помощта на богат набор от оператори. ”Така с по-добро използване на паметта,,en,предприятията могат да очакват по-добро управление на ресурсите и значително намаляване на разходите,,en,По-добри резултати,,en,В най-добрия случай за Hadoop,,en,Spark победи Hadoop с 20x фактор,,en,Вижте изображението по-долу,,en

In a recent benchmarking study on in-memory storage of binary data, it was discovered that Spark outperformed Hadoop by 20x factor. This is because Spark offers the Resilient Distributed Datasets (RDDs). Alan Lumb of Bright Computing adds, “RDDs are fault-tolerant, parallel data structures ideally suited to in-memory cluster computing. Consistent with the Hadoop paradigm, RDDs can persist and be partitioned across a Big Data infrastructure ensuring that data is optimally placed. And, of course, RDDs can be manipulated using a rich set of operators.” So with better memory utilization, enterprises can look forward to better resource management and significant cost savings.

Better results

In a best-case scenario for Hadoop, Spark beat Hadoop by a 20x factor. See the image below, показва, че Spark бие Hadoop дори когато паметта е недостъпна и трябва да използва своите дискове,,en,Според уебсайта на Spark Apache,,en,Spark може да “изпълнява програми до 100 пъти по-бързо от Hadoop MapReduce в паметта,,en,Spark разполага с усъвършенстван механизъм за изпълнение на DAG, който поддържа цикличен поток от данни и изчисления в памет.,,en,всеобщност,,en,Spark може да комбинира стрийминг,,en,SQL,,en,и сложни анализи,,en,Той може да захранва стек от библиотеки, които включват SQL,,en,GraphX,,en,MLlib за машинно обучение и DataFrames,,en,и Spark Streaming,,en,Можете да комбинирате всички тези библиотеки безпроблемно в едно и също приложение,,en,Спарк може да работи навсякъде,,en,Спарк може да се движи по Месос,,en,Автономният,,en,или в облака,,en,Тя може също така да има достъп до различни източници на данни, списъкът на които включва Касандра,,en,и S3,,en,Значително усвояване,,en.

Spark and Hadoop comparison

Spark and Hadoop comparison

According to the Spark Apache website, Spark can “Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk. Spark has an advanced DAG execution engine that supports cyclic data flow and in-memory computing.”

Generality

Spark can combine streaming, SQL, and complex analytics. It can power a stack of libraries that include SQL, GraphX, MLlib for machine learning and DataFrames, and Spark Streaming. You can combine all these libraries seamlessly within the same application.

Spark can run everywhere

Spark can run on Mesos, standalone, Hadoop, or in the cloud. It can also access diverse data sources the list of which includes Cassandra, HDFS, HBase, and S3.

Significant uptake

Spark can put available resources to better use. Bright computing, which provides software solutions for deploying and managing big data clusters and HPC and OpenStack in the data center and in the cloud, observes, “Spark 1.2.0 was released in mid-December 2014. Over 1,000 commits were made by the 172 developers contributing to this release – that’s more than 3x the number of developers that contributed to the previous release, Spark 1.1.1.” Spark’s achievements lie in the fact that it can involve the whole community of software developers into contributing.








Summary

While there are a lot of positive vibes about Spark, it still needs to be deployed across enterprises and the use cases need to be tested. Theoretically, the features and capabilities are impressive and it promises to deliver a lot.

============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share