SQL on Hadoop – How does it work?

SQL on Hadoop – How does it work?

Visão global:

SQL on Hadoop is a group of analytical application tools that combine the SQL-style querying and processing of data with the most recent Hadoop data framework elements. O surgimento de SQL no Hadoop é um desenvolvimento importante para o processamento de big data porque permite que grupos mais amplos de pessoas trabalhem com sucesso com a estrutura de processamento de dados do Hadoop executando consultas SQL nos enormes volumes de big data que,,en,anteriormente não era tão acessível para as pessoas, especialmente em termos de seus recursos de consulta,,en,Com base no desenvolvimento,,en,várias ferramentas têm surgido e que prometem melhorar a produtividade das empresas no que diz respeito ao processamento e análise de big data com qualidade e rapidez,,en,não há necessidade de investir muito no aprendizado da ferramenta como conhecimento tradicional de,,en,deveria fazer,,en,Definição de SQL no Hadoop,,en,Como escrito anteriormente,,en,BigSQL,,en,Hawq,,ku,Impala,,en,Hadapt,,hi,Stinger,,en,H-SQL,,en,Máquina de emenda,,en,Presto,,en,Polibase,,en,JethroData,,en,Tubarão,,en,Hive on Spark,,en,e Tez,,en,Hive on Tez,,en Hadoop processes. Obviously, the Hadoop framework was previously not as accessible to people especially in terms of its querying capabilities. Based on the development, several tools have been coming up and that promises to improve the productivity of enterprises when it comes to processing and analyzing big data with quality and speed. Also, there is no need to invest a lot in learning the tool as traditional knowledge of SQL should do.

Definition of SQL on Hadoop

As written earlier, SQL on Hadoop is a group of applications that allows you to run SQL-style queries on big data hosted by the Hadoop data processing framework. Obviously, data querying, retrieving and analysis have become easier with the addition of SQL on Hadoop. Since SQL was originally designed for relational database, it had to be modified according to the Hadoop 1 model that comprises the Map-Reduce and the Hadoop Distributed File System (HDFS) and the Hadoop 2 model that does not have the Map-Reduce and the Hadoop Distributed File System (HDFS).

One of the earliest efforts to combine SQL with Hadoop had resulted in the creation of the Hive Data warehouse that had the HiveQL software which could translate SQL-style queries into MapReduce jobs. Depois disso, several applications were developed which could do similar jobs. Prominent among the later tools are Drill, BigSQL, Hawq, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, Polybase, Spark, JethroData, Shark (Hive on Spark), and Tez (Hive on Tez).

Como funciona o SQL no Hadoop,,en,O SQL no Hadoop funciona com o Hadoop principalmente das seguintes maneiras,,en,Os conectores no ambiente Hadoop traduzem a consulta SQL em um formato MapReduce para que o Hadoop entenda a consulta,,en,Os sistemas push-down executam a consulta SQL nos clusters Hadoop,,en,Os sistemas dividem o grande volume de consultas SQL entre clusters MapReduce-HDFS, dependendo das cargas de trabalho dos clusters,,en,Parece que a consulta SQL não muda sua natureza,,en,é o Hadoop que adapta a consulta em um formato que ele entende,,en,Principais benefícios do SQL no Hadoop,,en,SQL ligado,,en,é um desenvolvimento importante no contexto de tornar a análise de big data acessível a mais pessoas e tornar a análise de dados mais fácil e rápida,,en?

SQL on Hadoop works with Hadoop in the following ways mainly:

Connectors in the Hadoop environment translate SQL query into a MapReduce format so that Hadoop understands the query.
Push-down systems execute SQL query within the Hadoop clusters.
Systems divide the huge volume of SQL queries between MapReduce-HDFS clusters depending on the workloads of the clusters.

It seems that SQL query does not change its nature; it is the Hadoop that adapts the query in a format it understands.

Top benefits of SQL on Hadoop

As already stated, SQL on Hadoop is an important development in the context of making big data analysis accessible to more people and making data analysis easier and faster. Não há dúvida de que a estrutura de dados do Hadoop tem sido uma ótima ferramenta para análise de big data, mas ainda assim se permitiu ser acessada por um grupo limitado de pessoas, não apenas porque grandes esforços foram necessários para aprender sua arquitetura única, mas também porque tinha problemas de compatibilidade com outras tecnologias,,en,SQL no Hadoop promete resolver esses problemas,,en,Mais pessoas podem acessar o Hadoop agora,,en,Parece que o SQL no Hadoop tornou o Hadoop mais igualitário, no sentido de que grupos mais amplos de pessoas agora podem usar o Hadoop para processar e analisar dados,,en,para usar o Hadoop,,en,você precisava ter conhecimento da arquitetura Hadoop -,,en,você pode conectar quase qualquer ferramenta analítica ou de relatórios e acessar e analisar os dados,,en,Graças ao SQL no Hadoop,,en. SQL on Hadoop promises to address these issues.

More people can access Hadoop now

It seems that SQL on Hadoop has made Hadoop more egalitarian in the sense that wider groups of people can now use Hadoop to process and analyze data. Earlier, in order to use Hadoop, you needed to have knowledge of the Hadoop architecture — MapReduce, Hadoop Distributed File System, or HBase. Now, you can plug in almost any analytical or reporting tool and access and analyze the data. Thanks to SQL on Hadoop, uma série de SQL em motores Hadoop, como Cloudera Impala,,en,Lingual Simultâneo,,en,CitusDB,,en,InfiniDB,,en,MammothDB,,en,MemSQL,,en,Pivotal HawQ,,en,ScleraDB,,en,Progress DataDirect,,en,Simba e Splice Machine agora estão disponíveis comercialmente para uso com Big Data,,en,isso abriu o Hadoop para um público mais amplo, que agora pode esperar aumentar seus retornos sobre o investimento em big data,,en,Analisar big data com Hadoop é mais simples agora,,en,você só precisa executar a boa e velha consulta SQL no big data para recuperar e analisar dados,,en,SQL evoluiu de apenas uma ferramenta de banco de dados relacional para uma ferramenta de análise de big data, o que é de fato uma mudança significativa,,en,Você não precisa se preocupar como o Hadoop está processando as consultas - ele tem sua própria maneira de interpretar as consultas SQL e fornecer os resultados,,en, Concurrent Lingual, Hadapt, CitusDB, InfiniDB, MammothDB, MemSQL, Pivotal HawQ, Apache Drill, ScleraDB, Progress DataDirect, Simba and Splice Machine are now commercially available for use with big data. Obviously, this has opened Hadoop to a wider audience which can now expect to increase their returns on investment in big data.

Analyzing big data with Hadoop is simpler now

Now, you just need to run the good old SQL query on the big data to retrieve and analyze data. SQL has evolved itself from just being a relational database tool to a big data analysis tool which is indeed a significant change. You do not need to worry how Hadoop is processing the queries — it has its own way of interpreting the SQL queries and giving you the results. Os especialistas acreditam que, embora o Hadoop Distributed File System,en (HDFS) does have parallel processing commodity clusters for big data, it can improve its processing capabilities if it works with SQL-style interactive querying. Before the HDFS combined with SQL, it would take a long time to process data with the HDFS and the task required specialized data scientists. And the queries were not interactive. With the Apache Tez framework which comprises the Spark analytical engine and the Stinger interactive query accelerator for the Hive data warehouse, these problems have been addressed. According to Anu Jain, the group manager of strategy and architecture at retailer Target Corporation, “It is very important for us to ensure we are giving users interactive query access. Com o Tez, somos capazes de fornecer essa capacidade para a empresa ”.,,en,A popularidade da análise interativa tem crescido entre os usuários do Hadoop,,en,como uma pesquisa do Gartner revelou,,en,De acordo com o questionário,,en,dos entrevistados usam interfaces de terceiros para o HDFS ou Hbase,,en,usar consultas criadas por você mesmo através do Hive enquanto,,en,usar ferramentas específicas de distribuição do Hadoop, como,,en,Impala e Pivotal HAWQ,,en,Outra perspectiva do SQL no Hadoop,,en,Embora pareça que o SQL no Hadoop vai resolver muitos dos problemas que temos com o Hadoop,,en,há outra visão que descobre que o SQL pode ter muitos problemas, especialmente quando combinado com,,en,De acordo com esta visão,,en,Afinal, o SQL pode não ser tão eficiente como ferramenta analítica quando se trata de big data,,en,De acordo com John Williams, membro do painel de usuários do Hadoop Summit,,en

The popularity of interactive analytics has been growing among Hadoop users, as a Gartner survey revealed. According to the survey, 32% of the respondents use third-party interfaces to the HDFS or Hbase, 27% use self-created queries through Hive while 23% use Hadoop distribution specific tools such as Cloudera Impala and Pivotal HAWQ.

Another perspective on SQL on Hadoop

While it seems that SQL on Hadoop are going to solve a lot of issues we have with Hadoop, there is another view that finds that SQL may have a lot of problems especially when combined with Hadoop. According to this view, SQL may not after all be that efficient as an analytical tool when it comes to big data. According to Hadoop Summit user panelist John Williams, SQL pode não ser a melhor ferramenta analítica para trabalhar com big data,,en,De acordo com Williams,,en,quem é o vice-presidente sênior de operações de plataforma,,en,TrueCar,,en,que oferece aos usuários uma plataforma de compra de carros online,,en,“O tempo de execução de SQL em um grande conjunto de dados é lento,,en,O Hadoop-on-SQL está ficando mais rápido com coisas como Yarn e Tez.,,en,E esse não é o único problema com o SQL,,en,Existem muitas tarefas de sobrecarga, como estudo de dados,,en,concepção de esquema,,en,criação e normalização de índice e consulta que você precisa cuidar ao combinar SQL com Hadoop e pode estar gastando muito tempo e esforço,,en,Depois de todo esse esforço,,en,não há garantia de que você fez um trabalho permanente,,en,Se alguma coisa com o aplicativo mudar,,en,pode ser necessário refazer o que já fez,,en,Em vez de SQL,,en. According to Williams, who is the senior vice president for platform operations, TrueCar, which offers users a car-buying platform online, “SQL execution time on a large data set is slow. Meanwhile, Hadoop-on-SQL is getting faster with things like Yarn and Tez.” And that is not the only issue with SQL. There are a lot of overhead tasks such as data studying, schema conceiving, index and query creation and normalization that you need to take care of when you are combining SQL with Hadoop and you may be spending a lot of time and effort. After all that effort, there is no guarantee that you have done a permanent work. If anything with the application changes, you may be required to redo what you already did. Instead of SQL, big data-o desenvolvimento focado deve ser feito com base em Java e Python, uma vez que essas linguagens são mais adequadas para processamento de dados não estruturados,,en,O júri está decidido se o SQL no Hadoop é a resposta para os problemas que as pessoas enfrentam ao usar o Hadoop,,en,Mas claramente,,en,a indústria precisa de uma alternativa melhor para os próprios recursos de consulta de dados do Hadoop e essa alternativa deve ser interativa,,en,As ferramentas SQL no Hadoop fornecem análises interativas que são úteis,,en,As empresas não querem perder tempo tentando entender o que é complicado,,en,análises demoradas,,en,Por enquanto,,en,as empresas consideram as ferramentas SQL no Hadoop úteis,,en,como a pesquisa Gartner descobriu,,en,techalpine.com/sql-on-hadoop-how-does-it-work,,en.

Summary

Jury is out on whether SQL on Hadoop is the answer to the problems people faced with using Hadoop. But clearly, the industry needs a better alternative to Hadoop’s own data querying capabilities and that alternative has to be interactive. SQL on Hadoop tools provide interactive analytics which is useful. Enterprises do not want to waste time on trying to make sense out of complicated, time-taking analytics. For the time being, enterprises find SQL on Hadoop tools useful, as the Gartner survey found.

Share on Facebook

Save

Tagged on: Apache Hadoop, Hadoop adoption, Hadoop Arquitetura, Hadoop Streaming, HDFS, HIVE, HiveQL, SQL

TechAlpine – All About Technology

www.techalpine.com

SQL on Hadoop – How does it work?

Enjoy this blog? Please spread the word :)