Jare : Hadoop streaming is 'n kragtige program wat kom met Hadoop distribution.The basiese konsep van Hadoop raamwerk is om die werk te verdeel,verwerk dit in parallel en dan sluit dit weer aan die einde result.So is daar twee hoof komponente wat betrokke is in hierdie raamwerk te kry.
'n) Kaart aansoek
b) Verminder aansoek
Die Hadoop streaming nut kan jy Map te skryf / Verminder aansoeke in enige taal wat in staat is om van die werk met stdin en STDOUT.
Ek lees jou bekendstelling artikel oor hadoop streaming. Ek het gevind dat dit werklik nuttig. Maar ek het meer vrae oor hoe om dit te gebruik.
Een van die belangrikste vraag wat ek wil vra is of my perl script meer as een argument moet, hoe kan ek slaag hulle om die command line?
For example, Ek gebruik die volgende opdrag, waar ek gebruik verskeie insette verskeie argumente te hanteer. Maar in werklikheid, die data insette is net die eerste een. Al die ander is net 'n paar hulpbronne die Perl script moet in lees te help verwerk die eerste data insette.
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -D mapred.reduce.tasks = 0 -D mapred.map.tasks.speculative.execution = valse -D mapred.task.timeout = 12000000 -input nlp_research /edt_nlp_data/3000001.txt -input shift.txt -input lyste -input Dict -input nlp_research / deid-1.1 / deid.config -inputformat org.apache.hadoop.mapred.lib.NLineInputFormat -output perl_output -mapper deid_mapper.pl - lêer deid_mapper.pl
As jy my kan gee 'n paar riglyne, dit sal wonderlik wees!