Години : Hadoop streaming is a powerful utility which comes with Hadoop distribution.The basic concept of Hadoop framework is to split the job,process it in parallel and then join it back to get the end result.So there are two main components involved in this framework.
на) Map application
б) Reduce application
The Hadoop streaming utility allows you to write Map/Reduce applications in any language that is capable of working with STDIN and STDOUT.
Јас го прочитав вашиот вовед статија за Hadoop стриминг. Го најдов тоа навистина од голема помош. Но, јас имам повеќе прашања за тоа како да го користам.
Една од главните прашање Сакам да прашам е дали мојот Perl скрипта треба повеќе од еден аргумент, како можам да ги помине на командната линија?
For example, Јас се користи следнава команда, каде што се користи повеќе влезови да се справи со повеќе аргументи. Но, всушност,, внесување на податоци е само првиот. Сите други се само некои од ресурсите на Perl скрипта треба да ја прочитате за да помогнат во процесот на првиот внес на податоци.
Hadoop тегла /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -D mapred.reduce.tasks = 0 -D mapred.map.tasks.speculative.execution = лажни -D mapred.task.timeout = 12.000.000 -input nlp_research /edt_nlp_data/3000001.txt -input shift.txt -input листи -input речник -input nlp_research / deid-1.1 / deid.config -inputformat org.apache.hadoop.mapred.lib.NLineInputFormat -output perl_output -mapper deid_mapper.pl - датотека deid_mapper.pl
Ако може да ми даде некои насоки, кој ќе биде голема!