Taon : Hadoop streaming ay isang malakas na utility na kung saan ay may Hadoop konsepto distribution.The basic ng Hadoop balangkas ay upang hatiin ang trabaho,maproseso ito sa parallel at pagkatapos ay sumali ito pabalik upang makuha ang dulo result.So mayroong dalawang pangunahing mga bahagi na kasangkot sa balangkas na ito.
isang) Map application
b) Bawasan ang application
Ang utility Hadoop streaming nagpapahintulot sa iyo na magsulat ng Mapa / Bawasan ang mga application sa anumang wika na may kakayahang magtrabaho sa STDIN at STDOUT.
Nabasa ko ang iyong pagpapakilala artikulo tungkol hadoop streaming. May nakita akong ito talagang kapaki-pakinabang. Ngunit mayroon akong higit pang mga tanong tungkol sa kung paano gamitin ito.
Isang pangunahing tanong na gusto kong tanungin ay kung ang aking perl script ay nangangailangan ng higit sa isang argument, paano ko ipasa ang mga ito sa command line?
For example, Ginamit ko ang sumusunod na command, kung saan ginamit ko ang maramihang mga inputs upang pangasiwaan ang maramihang mga argumento. Ngunit sa katunayan, ang data input ay lamang ang unang isa. Ang lahat ng iba ay lamang ang ilan resources kailangan ng perl script na basahin sa upang makatulong sa proseso ang unang data input.
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -D mapred.reduce.tasks = 0 -D mapred.map.tasks.speculative.execution = false -D mapred.task.timeout = 12,000,000 -Input nlp_research /edt_nlp_data/3000001.txt -Input shift.txt -Input listahan -Input dict -Input nlp_research / deid-1.1 / deid.config -inputformat org.apache.hadoop.mapred.lib.NLineInputFormat-output perl_output -mapper deid_mapper.pl - file deid_mapper.pl
Kung maaari mong bigyan ako ng ilang mga patnubay, maganda yan!