Apache Hadoop – Komparo inter malsamaj eroj

Apache Hadoop estas malferma-fonta softvaro kadro skribita en Java. Ĝi estas unuavice uzita por la tenado kaj pretiganta de grandaj aroj de datumo, Kiu estas ankaŭ pli bona sciita kiel granda datumo. Nun, Apache Hadoop konsistas de certaj specifaj eroj kiu permesas la tenadon kaj pretiganta de grandaj datumaj volumoj en clustered medio. Tamen, La du ĉefaj eroj estis ke de Hadoop Distribuita Dosieran Sistemon kaj MapReduce programaro.

En ĉi tiu artikolo, Ni unue prenos rigardi la diversajn erojn kiu faras supre Apache Hadoop kaj tiam kelkaj de la integraj sistemoj kaj datumaroj.

Eroj de Apache Hadoop

Hadoop, Ĝenerale, Konsistas de la sekvantaj partoj.

Hadoop Distribuita Dosieran Sistemon – Mallongigita kiel HDFS, Ĝi estas unuavice dosiera sistemo simila al multaj de la jam ekzistanta ones. Tamen, Ĝi estas ankaŭ virtuala dosiera sistemo.

Estas unu rimarkinda diferenco kun aliaj popularaj dosieraj sistemoj, Kiu estas, Kiam ni movas dosieron en HDFS, Ĝi estas aŭtomate fendita en pli malgrandaj dosieroj. Ĉi tiuj pli malgrandaj dosieroj estas tiam reproduktita sur minimumo de tri malsamaj serviloj, Por ke ili povas esti uzita alternativan al neantaŭviditaj cirkonstancoj. Ankaŭ, Ĉi tiu reproduktada kalkulo ne estas nepre difinita, Kaj povas esti decidita kiel por postuloj.

Hadoop MapReduce – MapReduce estas plejparte la programara flanko de Hadoop kiu permesas pretiganta de tiaj grandaj volumoj de datumo.

Estas ankaŭ kondiĉo kiu rompas malsupren petojn en pli malgrandaj petoj, Kiu estas tiam sendita al multoblaj serviloj. Tio ĉi permesas utiligon de la scalable potenco de la CPU.

HBASE – HBASE okazas esti tavolo kiu sidas atop la HDFS kaj estis evoluigita per la Java programara lingvo. HBASE unuavice havas la sekvantajn flankojn –

  • Ne interrilata
  • Tre scalable
  • Misfara toleremo

Ĉiu ununura disputo kiu ekzistas en HBASE estas identigita per ŝlosilo. La nombro de kolumnoj estas ankaŭ ne difinita, Sed prefere grupigita en kolumnaj familioj.

Zookeeper – Tio ĉi estas resume centralizita sistemo kiu daŭrigas –

  • Konfiguracia informo
  • Nomanta informon
  • Samtempiga informo

Cetere ĉi tiuj, Zookeeper estas ankaŭ priresponda por grupaj servoj kaj estas utiligita de HBASE. Ĝi ankaŭ venas uzi por MapReduce programoj.

Solr/Lucene – Tio ĉi estas nenio sed serĉa motoro. Ĝiaj bibliotekoj estas evoluigita de Apache kaj postulita super 10 Jaroj esti evoluigita en ĝia nuna fortika formo.

Programaraj Lingvoj – Estas resume du programaraj lingvoj kiu estas identigita kiel originala Hadoop programaraj lingvoj. Ĉi tiuj estas –

  • Hive
  • PORKO

Cetere ĉi tiuj, Estas kelkaj aliaj programaraj lingvoj kiu povas esti uzita por skribanta programojn, Nome C, JAQL kaj Java. Ni ankaŭ povas fari rektan uzadon de SQL por interrilatado kun la datumaro, Kvankam kiu postulas la uzon de norma JDBC aŭ ODBCaj ŝoforoj.

Sistemoj por integra Hadoop operacioj

Plejpartoj de entreprenaj vendistoj havas ilian tre propran Hadoop produktoj kiu ankaŭ konsisti de ilia datumaro, Tiel kiel analizaj proponoj. Ĉi tiuj proponoj ankaŭ ne postulas vin al fonto Hadoop de aliloke, Sed prefere provizi ĝin kiel kerna flanko de iliaj solvoj.

Kelkaj de ĉi tiuj estas –

EMC Greenplum

Greenplum okazas esti sufiĉe nova partoprenanto en la entreprena komerco kaj havas reputacion por estanta forta provizanto de analytics. Ĝi venas kiel Unueca Analytics Platformo, Kiu konsistas de –

  • Greenplum datumaro signifita por uzo sur strukturita datumon
  • Ĝia Hadoop disdonado, Sciita kiel la Greenplum HD
  • Produktiva tavolo por Datuma Scienco teamoj vokita Kantistaron.

IBM

la entreprena disdonado de IBM por Hadoop estas konata kiel Infosphere BigInsights. Ĝi efektivigas aron de ĉefaĵoj por Hadoop, Kiel –

  • Iloj por administrado
  • Iloj por administro
  • Ĝi ankaŭ konsistas de tekstaj datumaj analizaj iloj ke helpo en la rezolucio de entoj, Kiel identiganta homojn, Telefonaj nombroj, Adresoj kaj pli.

De faranta uzon de la JAQLa demanda lingvo, Unu povas integrigi la Hadoop kun diversaj IBMaj produktoj kiel DB2, Aŭ para Netezza. BigSheets, spreadsheet kiel apliko laboranta sur granda datumo estas ankaŭ proponita. Nuntempe, BigInsights nur povas esti uzita super nubo per Amazono, Rackspace, Rightscale, Ktp.

Microsoft

Hadoop formas la kernan parton de granda datuma propono de Microsoft. Plutraktanta integran alproksimiĝon, Ĝi planas fari haveblan grandan datumon super ĝia ila aro por analytics.

Microsoft Grandaj Datumaj Solvoj estis alportita en la Fenestra Servila platformo kaj ankaŭ al la Fenestroj Azure platformo, Kiu estas nubo-bazita. Integrigita kun Fenestraj Sistemoj Centro kaj Aktiva Adresaro, La firmao havas ĝian propran disdonadan formaton de Hadoop. Cetere, Ĝi integrigas Hadoop kun ĝia SQLa Servilo, Vida Studio, Kaj .RETO.

Oracle

Oracle enirita en la mondo de granda datumo kun aparato bazita alproksimiĝon en la formo de Granda Datuma Aparato. Tio ĉi certigas facile Hadoop integrigo, Kaj venas kune kun la nova NoSQL datumaro, Kiu permesas por analytics kaj ankaŭ havas konektojn al Oracle datumaroj kaj la Exadata staplada kandidataro. NoSQL estas ankaŭ sciita kiel scalable kerna valoro-bazita datumara propono.

Oracle ankaŭ okazas havi la R analiza platformo integrigita kun Hadoop, Kaj ke faras ĝin facile ekspedi. R de Oracle Entreprena produkto estas ankaŭ unu kiu permesas facilan datumaran integrigon, Kaj ankaŭ kun Hadoop.

Datumaroj por analytics kun Hadoop konektebleco

Datumaroj kiu subtenas Grandege Paralelan Pretigon (MPP) Estas plejparte signifita pretigi strukturita grandan datumon, Diferenca ke de la fako de Hadoop sur unstructured datumo. Greenplum, Kaj la multe da pli malnova Aster Datumo kaj Vertica, Estas plej bonaj ekzemploj de fruaj pioniroj en ĉi tiu konsidero.

Ĉi tiuj MPPaj datumaroj estas konata pritrakti specialigita workloads en terminoj de analytics, Kaj ankaŭ integrigo de datumo. Ĉi tiuj provizas konektilojn al Hadoop kaj aliaj datumaj stapladaj platformoj.

De malfrue ĉi tiuj datumaraj solvoj estis akirita de kelkaj aliaj ludistoj en la industrio, Kiel –

  • Aster Datumo estis akirita de Teradata
  • HP akiris Vertica
  • Greenplum estas nun sub EMC

Hadoop-centrita firmaojn

Por renkonti la ellaboranton veturita idealon de la granda datuma mondo, Disdonadoj de Hadoop estas tre ofte proponita en la formo de komunumaj eldonoj. Tiaj tipoj de eldonoj ne havas entreprenan administradan alproksimiĝon, Sed prefere ĉiuj de la funkcioj kiu povas esti postulita por evoluado kaj takso.

Cloudera

Cloudera okazas esti la plej malnova establo kiu provizas Hadoop disdonadoj. Ĝi estas konata proponi entreprenajn solvojn, Kune kun trejnado, servoj kaj subtenaj elektoj. Ankaŭ, Cloudera faris multenombrajn kontribuaĵojn al la Hadoop per malfermaj fontaj kontribuaĵoj.

Hortonworks

Hortonworks havas longan historion asociita kun Hadoop. Ĝi estas plejparte produkto de Yahoo, Kaj kiel estiginto de Hadoop, Ĝi celas antaŭenigi kernan Hadoop teknologio. Ĝi havas ankaŭ partnered Microsoft al pli bona ilia Hadoop integrigo.

Konkludo

La supra artikolo klare klarigas la diversajn kapsulojn kiu faras supre Hadoop, Kune kun la multenombra entrepreno kaj komunumaj bazitaj eldonoj kiu estas havebla por nuna uzo. Kun Hadoop akiranta pli da eminenteco, Ĝi estas nur afero de tempo antaŭ pli da partoprenantoj estas aldonita ĉi tiun kreskantan liston.

Etikedita sur:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share