NoSQL integra con Hadoop

Apache Hadoop is an open source big data processing platform. It has its own eco-system products to support various needs. Different big data products/platforms can integrate Hadoop and NoSQL into one platform so it provides better performance and a single source of truth. Let us have a look at how NoSQL and Hadoop can work together for big data challenges.

Sometime people often get confused that Hadoop is a database as it has a storage system associated. But let us clearly understand that Apache Hadoop is not at all a database.

Apache Hadoop is an open source big data platform consists of the following main components.

HDFS: A file system known as Hadoop Distributed File System (HDFS)
MapReduce: A distributed programming framework known as MapReduce
Hadoop Common: It contains the libraries and utilities to support associated Hadoop modules.
Hadoop YARN: This is called ‘Yet Another Resource Negotiator’. It is basically the resource management platform for managing computing resources and scheduling tasks.

Hadoop also has other host of software packages to support the eco-system components. The framework supports the processing of data intensive distributed applications. It enables applications to work in a distributed environment consists of thousands of nodes and petabytes of data. The nodes are independent computers, also known as low cost commodity hardware. Hadoop cluster means a group of computational units (basically machines) running in a general environment with Hadoop distributed file system (HDFS) to support scaling.

The fundamental design goal of Hadoop was to overcome the hardware failure. Because hardware failures are very common and the framework should be able to overcome it automatically. O eco-sistema Hadoop alcanza este obxectivo por todos os módulos.

As principais características da plataforma Hadoop son un almacenamento distribuído e unha estrutura de procesamento distribuído. O almacenamento distribuído (HDFS) divide arquivos grandes en pequenos bloques (estándar é 64MB) e distribuí-lo entre os nós de cluster. O cadro procesamento distribuído tamén coñecido como 'MapReduce’ Soporta procesamento paralelo moi eficiente. A principal característica do MapReduce é que, ven o código (que pode facer o procesamento) para o no onde residen os datos. Isto tamén se chama 'localidade de datos', onde os datos permanecen no seu lugar orixinal eo código vén a el para facer o procesamento. Esta é de feito unha revolución no ámbito do procesamento paralelo.

Os principais compoñentes do Hadoop (HDFS e MapReduce) son derivados do sistema de ficheiros de Google (GFS) e MapReduce de Google. Ademais dos compoñentes anteriormente mencionados, Hadoop consiste nunha serie de proxectos relacionados, como Apache Hive, HBase, e Apache porco etc.

On the other hand, NoSQL (interpretado como 'Non só SQL') é un sistema de xestión de base de datos non-relacional. É identificado pola non-adhesión ao modelo de base de datos relacional. bases de datos NoSQL non se basean principalmente en táboas.

tecnoloxía de base NoSQL ofrece mecanismo eficiente para almacenamento e recuperación de datos, pero non é semellante ao modelo relacional. Os principais obxectivos do proxecto de base de datos NoSQL son deseño simple, escala horizontal e mellor dispoñibilidade. O nome interpreta como 'Non só SQL', polo que soporta algúns SQL como linguaxes de consulta como HQL etc. bases de datos NoSQL son utilizados principalmente en grandes datos e aplicacións analíticas.

So, En suma, podemos definir Hadoop e NoSQL como segue

Hadoop: estrutura de computación distribuída.
NoSQL: base de datos non-relacional.

Como Hadoop e NoSQL poden traballar xuntos?

A partir da discusión anterior, Está claro que Hadoop e NoSQL non é o mesmo, pero eles están ambos relacionados con datos de cálculo intensivo. Framework Hadoop é usado principalmente para procesar unha cantidade enorme de datos (tamén coñecido como gran datos) e NoSQL está concibida para almacenamento eficiente e recuperación de gran volume de datos. Así, sempre hai a posibilidade de ter NoSQL como parte da posta en marcha do Hadoop. Na maioría dos casos, os datos procesados desde sistema Hadoop é almacenada nunha base de datos NoSQL. Pero sempre pode ter casos de uso independentes que non pode ter un apoio de ambas plataformas. For example, se necesitamos só o procesamento paralelo de datos grandes e almacena-lo HDFS, then may be Hadoop alone is sufficient. Similarly, only for storing and retrieval of unstructured data, any NoSQL database and its associated query language can meet the requirement.

So the integration of NoSQL with Hadoop is always a preferred environment for large scale parallel processing and real time data access. Different Hadoop based products provide the integration of Hadoop and NoSQL in one platform. And this ‘in-Hadoop’ NoSQL database provides real time, operational analytics capabilities. Hadoop products including Apache Hadoop is the best fit for business critical production deployments. These products do not require any additional administrative tasks for the NoSQL data. The integrated platform (NoSQL and Apache Hadoop) supports high performance, extreme scalability, high availability, snapshots, disaster recovery, seguridade integrada e moito máis, axeitado para calquera análise operativo, preparado produción.

Así, podemos concluír que o Apache Hadoop e NoSQL non son a mesma plataforma de tecnoloxía, pero son sempre recomendados como un ambiente integrado axeitado para solucións de datos grandes.

Share on Facebook

Save

TechAlpine – All About Technology

www.techalpine.com

How NoSQL integrates with Hadoop eco-system?

Enjoy this blog? Please spread the word :)