¿Que é Apache Sqoop e como usalo para descargar / exportar datos do Hadoop Distributed File System?

Apache Sqoop é unha ferramenta utilizada para a transferencia de datos de / para o Hadoop sistema de arquivo distribuído. Hadoop arquitectura pode procesar datos grandes e almacena-lo en HDFS. Pero, se quere usar estes datos, entón temos que usar algunha ferramenta para importar / exportar de forma eficiente. Apache Sqoop permite a fácil importación e exportación de datos de tendas estruturadas de datos, tales como bancos de datos relacionais, almacéns de datos corporativos, e sistemas NoSQL.

Apache Sqoop é moi importante cando pensamos sobre o uso do Hadoop para a análise e datos processamento.O dous aspectos principais que son o enderezo Sqoop

un) Carga a granel(produción) datos no Hadoop.
b) Acceder datos en masa a partir do mapa / reducir aplicacións en execución en grandes aglomerados.

Anteriormente, usado para escribir / usar scripts para descargar / exportar datos entre systems.But diferente este proceso é ineficiente e non garante a consistencia dos datos, precisión e outros puntos críticos.

Sqoop usa o mecanismo para a fronte para descargar conxunto de datos data.The está dividido en anacos e cada porción é un job.Now mapa só cada traballo mapa só é responsable da transferencia dunha porción do conxunto de datos.

Como xa discutir, Sqoop se pode usar para importar datos dun RDBMS en HDFS.The de entrada para o proceso de importación é unha táboa de base de datos e Sqoop le liña da táboa por liña en HDFS.The proceso de entrada realízase en paralelo para que a saída será a saída files.These múltiple os arquivos poden ser ficheiros de texto ou outro tipo de arquivos que conteñen datos serializados.

Hai un sub-produto da importación process.It Sqoop é unha clase Java que poden encapsulado unha liña de importación table.This clase Java é usada polo propio Sqoop durng importación de código fonte process.The deste subproduto clase Java .

Tras o procesamento dos datos importados, pode ser exportada a calquera base de datos relacional utilizando Sqoop. Sqoop vai ler un conxunto de arquivos de texto delimitados a partir HDFS (en paralelo) e inserir-los como novas liñas á
table.Now obxectivo destes datos está dispoñible para consumtion polas aplicacións externas.

Sqoop tamén ofrece algúns utilidades de consola para obter información sobre os databaes en que está a lista de esquemas de bases de datos working.The, mesas tamén poden ser vistos usando Sqoop commands.Sqoop tamén ofrece primitiva execución de SQL consola.

Operacións de importación como Sqoop,exportar,etc xeración de código pode ser de importación customized.For, pistas de liñas / columnas pode ser delimitadores specified.The, caracteres de escape para o arquivo representación baseada tamén pode ser cambios por paquete requirement.The / nome da clase do código xerado pode ser personalizado para atender a demanda de aplicación.

Conectores Sqoop son outra parte importante dos tool.Connectors son compoñentes do complemento construídas en conectores Sqoop de framework.These de extensión pode ser engadida a calquera instalación Sqoop e despois os datos poden ser transferidos entre o Hadoop e almacenamento externo.

Sqoop ven con conectores estándar para varios bancos de datos populares, tales como MySQL, PostgreSQL, Oráculo, SQL Server e DB2.Sqoop tamén inclúe un conector JDBC xenérico que pode ser usado para conectar a calquera base de datos accesible vía JDBC.

Para finalizar esta discusión, podemos dicir que Sqoop pode ser usado para transferir grandes conxuntos de datos entre o Hadoop e almacenamentos de datos externo efficiently.Beyond esta, Sqoop tamén ofrece moitos recursos avanzados como diferentes formatos de datos,compresión,personalización,traballando con etc consultas.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share