SQL on Hadoop – How does it work?

SQL on Hadoop – How does it work?

Преглед:

SQL on Hadoop is a group of analytical application tools that combine the SQL-style querying and processing of data with the most recent Hadoop data framework elements. Појава СКЛ-а на Хадооп-у важан је развој за обраду великих података јер омогућава ширим групама људи да успешно раде са Хадооп-овим оквиром за обраду података извођењем СКЛ упита на огромним количинама великих података који,,en,раније није био толико доступан људима, посебно у погледу његових могућности испитивања,,en,На основу развоја,,en,неколико алата се појављује и то обећава побољшање продуктивности предузећа када је реч о обради и анализи великих података квалитетно и брзо,,en,није потребно много улагати у учење алата као традиционалног знања о,,en,треба да уради,,en,Дефиниција СКЛ-а на Хадооп-у,,en,Као што је раније написано,,en Хадооп processes. Obviously, the Hadoop framework was previously not as accessible to people especially in terms of its querying capabilities. Based on the development, several tools have been coming up and that promises to improve the productivity of enterprises when it comes to processing and analyzing big data with quality and speed. Also, there is no need to invest a lot in learning the tool as traditional knowledge of SQL should do.

Definition of SQL on Hadoop

As written earlier, СКЛ на Хадооп-у је група апликација која вам омогућава покретање упита у стилу СКЛ-а на великим подацима хостованим у оквиру за обраду података Хадооп,,en,испитивање података,,en,проналажење и анализа постали су лакши додавањем СКЛ-а на Хадооп-у,,en,Будући да је СКЛ првобитно дизајниран за релациону базу података,,en,морао је бити модификован према Хадоопу,,en,модел који садржи Мап-Редуце и Хадооп дистрибуирани систем датотека,,en,и Хадооп,,en,модел који нема Мап-Редуце и Хадооп дистрибуирани систем датотека,,en,Један од најранијих покушаја комбиновања СКЛ-а са Хадооп-ом резултирао је стварањем складишта података Хиве које је имало,,en,ХивеКЛ,,en,софтвер који може превести упите у стилу СКЛ у,,en,развијено је неколико апликација које би могле да раде сличне послове,,en,Међу каснијим алатима истичу се сврдло,,en. Obviously, data querying, retrieving and analysis have become easier with the addition of SQL on Hadoop. Since SQL was originally designed for relational database, it had to be modified according to the Hadoop 1 model that comprises the Map-Reduce and the Hadoop Distributed File System (HDFS) and the Hadoop 2 model that does not have the Map-Reduce and the Hadoop Distributed File System (HDFS).

One of the earliest efforts to combine SQL with Hadoop had resulted in the creation of the Hive Data warehouse that had the HiveQL software which could translate SQL-style queries into МапРедуце jobs. After that, several applications were developed which could do similar jobs. Prominent among the later tools are Drill, БигСКЛ,,en,Хавк,,ku,Импала,,en,Хадапт,,hi,Стингер,,en,Х-СКЛ,,en,Спојна машина,,en,Престо,,en,Полибасе,,en,ЈетхроДата,,en,Ајкула,,en,Кошница на Варници,,en,и Тез,,en,Кошница на Тезу,,en,Како функционише СКЛ на Хадооп-у,,en,СКЛ на Хадоопу функционише са Хадооп-ом углавном на следеће начине,,en,Конектори у окружењу Хадооп преводе СКЛ упит у формат МапРедуце тако да Хадооп разуме упит,,en,Пусх-довн системи извршавају СКЛ упите унутар Хадооп кластера,,en,Системи деле огромну количину СКЛ упита између МапРедуце-ХДФС кластера у зависности од радног оптерећења кластера,,en,Изгледа да СКЛ упит не мења његову природу,,en,Хадооп је тај који прилагођава упит у формату који разуме,,en,Главне предности СКЛ-а на Хадооп-у,,en,СКЛ на,,en,је важан развој у контексту омогућавања анализе великих података доступном већем броју људи и омогућавања лакше и брже анализе података,,en, Hawq, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, Polybase, Spark, JethroData, Shark (Hive on Spark), and Tez (Hive on Tez).

How does SQL on Hadoop work?

SQL on Hadoop works with Hadoop in the following ways mainly:

Connectors in the Hadoop environment translate SQL query into a MapReduce format so that Hadoop understands the query.
Push-down systems execute SQL query within the Hadoop clusters.
Systems divide the huge volume of SQL queries between MapReduce-HDFS clusters depending on the workloads of the clusters.

It seems that SQL query does not change its nature; it is the Hadoop that adapts the query in a format it understands.

Top benefits of SQL on Hadoop

As already stated, SQL on Хадооп is an important development in the context of making big data analysis accessible to more people and making data analysis easier and faster. Нема сумње да је Хадооп оквир података био одличан алат за анализу великих података, али је ипак дозволио да му приступа ограничена група људи, не само зато што су били потребни огромни напори да би се научила његова јединствена архитектура, већ је имао и проблема са компатибилношћу са осталим технологијама,,en,СКЛ на Хадооп-у обећава да ће се позабавити овим проблемима,,en,Више људи сада може приступити Хадооп-у,,en,Чини се да је СКЛ на Хадоопу учинио Хадооп егалитарнијим у смислу да шире групе људи сада могу да користе Хадооп за обраду и анализу података,,en,како би се користио Хадооп,,en,требало је да имате знање о Хадооп архитектури -,,en,можете прикључити готово било који аналитички алат или алат за извештавање и приступити подацима и анализирати их,,en,Захваљујући СКЛ-у на Хадооп-у,,en. SQL on Hadoop promises to address these issues.

More people can access Hadoop now

It seems that SQL on Hadoop has made Hadoop more egalitarian in the sense that wider groups of people can now use Hadoop to process and analyze data. Earlier, in order to use Hadoop, you needed to have knowledge of the Hadoop architecture — МапРедуце, Hadoop Distributed File System, or HBase. Now, you can plug in almost any analytical or reporting tool and access and analyze the data. Thanks to SQL on Hadoop, један број СКЛ-а на Хадооп моторима као што је Цлоудера Импала,,en,Истовремени језички,,en,ЦитусДБ,,en,ИнфиниДБ,,en,МаммотхДБ,,en,МемСКЛ,,en,Кључни ХавК,,en,СцлераДБ,,en,Прогресс ДатаДирецт,,en,Симба и машина за спајање су сада комерцијално доступне за употребу са великим подацима,,en,ово је отворило Хадооп широј публици која сада може очекивати да ће повећати свој повраћај улагања у велике податке,,en,Анализа великих података помоћу Хадооп-а сада је једноставнија,,en,само требате покренути добри стари СКЛ упит на великим подацима да бисте преузели и анализирали податке,,en,СКЛ се развио од само релационог алата базе података до алата за анализу великих података што је заиста значајна промена,,en,Не требате бринути како Хадооп обрађује упите - он има свој начин тумачења СКЛ упита и давања резултата,,en, Concurrent Lingual, Hadapt, CitusDB, InfiniDB, MammothDB, MemSQL, Pivotal HawQ, Apache Drill, ScleraDB, Progress DataDirect, Simba and Splice Machine are now commercially available for use with big data. Obviously, this has opened Hadoop to a wider audience which can now expect to increase their returns on investment in big data.

Analyzing big data with Hadoop is simpler now

Now, you just need to run the good old SQL query on the big data to retrieve and analyze data. SQL has evolved itself from just being a relational database tool to a big data analysis tool which is indeed a significant change. You do not need to worry how Hadoop is processing the queries — it has its own way of interpreting the SQL queries and giving you the results. Стручњаци верују да иако дистрибутивни систем датотека Хадооп,,en,има паралелну обраду робних кластера за велике податке,,en,може побољшати своје могућности обраде ако ради са интерактивним упитима у стилу СКЛ-а,,en,Пре,,en,у комбинацији са СКЛ-ом,,en,требало би дуго времена за обраду података са ХДФС-ом, а задатак је захтевао специјализоване научнике за податке,,en,А упити нису били интерактивни,,en,Са оквиром Апацхе Тез који се састоји од аналитичког мотора Спарк и интерактивног акцелератора упита Стингер за складиште података Хиве,,en,ови проблеми су решени,,en,Према Ану Џаин,,hi,менаџер групе за стратегију и архитектуру у малопродајној компанији Таргет Цорпоратион,,en,„Веома је важно за нас да осигурамо да корисницима дајемо интерактивни приступ упитима,,en (HDFS) does have parallel processing commodity clusters for big data, it can improve its processing capabilities if it works with SQL-style interactive querying. Before the HDFS combined with SQL, it would take a long time to process data with the HDFS and the task required specialized data scientists. And the queries were not interactive. With the Apache Tez framework which comprises the Spark analytical engine and the Stinger interactive query accelerator for the Hive data warehouse, these problems have been addressed. According to Anu Jain, the group manager of strategy and architecture at retailer Target Corporation, “It is very important for us to ensure we are giving users interactive query access. Са Тезом смо у могућности да пружимо ту способност пословању. “,,en,Популарност интерактивне аналитике расте међу корисницима Хадооп-а,,en,како је открила Гартнерова анкета,,en,Према анкети,,en,испитаника користи независне интерфејсе за ХДФС или Хбасе,,en,користите самостално креиране упите преко Хиве-а док,,en,користите алате за дистрибуцију Хадооп-а као што су,,en,Импала и кључни ХАВК,,en,Друга перспектива СКЛ-а на Хадооп-у,,en,Иако се чини да ће СКЛ на Хадоопу решити мноштво проблема које имамо са Хадооп-ом,,en,постоји још један став који открива да СКЛ може имати пуно проблема, посебно у комбинацији са,,en,Према овом становишту,,en,СКЛ можда ипак није толико ефикасан као аналитички алат када су у питању велики подаци,,en,Према корисничком панелисти Хадооп Суммита, Јохн Виллиамс-у,,en

The popularity of interactive analytics has been growing among Hadoop users, as a Gartner survey revealed. According to the survey, 32% of the respondents use third-party interfaces to the HDFS or Hbase, 27% use self-created queries through Hive while 23% use Hadoop distribution specific tools such as Cloudera Impala and Pivotal HAWQ.

Another perspective on SQL on Hadoop

While it seems that SQL on Hadoop are going to solve a lot of issues we have with Hadoop, there is another view that finds that SQL may have a lot of problems especially when combined with Хадооп. According to this view, SQL may not after all be that efficient as an analytical tool when it comes to big data. According to Hadoop Summit user panelist John Williams, СКЛ можда није најбољи аналитички алат за рад са великим подацима,,en,Према Вилијамсу,,en,који је виши потпредседник за операције платформи,,en,ТруеЦар,,en,која корисницима нуди платформу за куповину аутомобила на мрежи,,en,„Време извршавања СКЛ-а на великом скупу података је споро,,en,Хадооп-он-СКЛ постаје бржи са стварима попут Пређе и Теза.,,en,И то није једино питање СКЛ-а,,en,Много је режијских задатака попут проучавања података,,en,схватање шеме,,en,креирање и нормализација индекса и упита о којима морате водити рачуна када комбинујете СКЛ са Хадооп-ом и можда трошите много времена и труда,,en,После свих тих напора,,en,не постоји гаранција да сте радили стално,,en,Ако се нешто с апликацијом промени,,en,од вас ће се можда захтевати да поновите оно што сте већ урадили,,en,Уместо СКЛ,,en. According to Williams, who is the senior vice president for platform operations, TrueCar, which offers users a car-buying platform online, “SQL execution time on a large data set is slow. Meanwhile, Hadoop-on-SQL is getting faster with things like Yarn and Tez.” And that is not the only issue with SQL. There are a lot of overhead tasks such as data studying, schema conceiving, index and query creation and normalization that you need to take care of when you are combining SQL with Hadoop and you may be spending a lot of time and effort. After all that effort, there is no guarantee that you have done a permanent work. If anything with the application changes, you may be required to redo what you already did. Instead of SQL, big data-усредсређени развој треба урадити на основу Јаве и Питхона, јер су ови језици погоднији за неструктурирану обраду података,,en,Жири се распитује да ли је СКЛ на Хадоопу одговор на проблеме са којима се људи суочавају користећи Хадооп,,en,Али јасно,,en,индустрији је потребна боља алтернатива Хадооповим могућностима испитивања података и та алтернатива мора бити интерактивна,,en,СКЛ на Хадооп алатима пружа интерактивну аналитику која је корисна,,en,Предузећа не желе губити време на покушаје да из сложеног смисле,,en,временска аналитика,,en,Засада,,en,предузећима је СКЛ на Хадооп алатима користан,,en,како је утврдила Гартнерова анкета,,en,тецхалпине.цом/скл-он-хадооп-хов-доес-ит-ворк,,en.

Summary

Jury is out on whether SQL on Hadoop is the answer to the problems people faced with using Hadoop. But clearly, the industry needs a better alternative to Hadoop’s own data querying capabilities and that alternative has to be interactive. SQL on Hadoop tools provide interactive analytics which is useful. Enterprises do not want to waste time on trying to make sense out of complicated, time-taking analytics. For the time being, enterprises find SQL on Hadoop tools useful, as the Gartner survey found.

Share on Facebook

Save

Таггед на: Апацхе Хадооп, Хадооп усвајање, Хадооп Архитектура, Хадооп стреаминг, HDFS, HIVE, HiveQL, SQL

ТецхАлпине – All About Technology

www.techalpine.com

SQL on Hadoop – How does it work?

Enjoy this blog? Please spread the word :)