Vjet : Hadoop streaming is a powerful utility which comes with Hadoop distribution.The basic concept of Hadoop framework is to split the job,përpunojë atë në paralele dhe pastaj të bashkohen atë për të marrë në fund result.So ka dy komponente kryesore të përfshira në këtë kuadër.
një) aplikimi Map
b) Ulja e aplikimit
Streaming shërbimeve Hadoop ju lejon të shkruani Harta / Ulja aplikacionet në çdo gjuhë që është i aftë për të punuar me STDIN dhe syswrite.
Kam lexuar artikullin tuaj hyrje për streaming Hadoop. Kam gjetur me të vërtetë të dobishme. Por unë kam më shumë pyetje rreth asaj se si të përdorin atë.
Një pyetje kryesore që unë dua të pyes është nëse script im perl ka nevojë për më shumë se një argument, si mund të kalojë ato me vija e komandës?
For example, I përdorur komandën e mëposhtme, ku kam përdorur inputeve të shumta për të trajtuar argumente të shumta. Por në fakt, të dhëna të dhënave është vetëm e para. Të gjithë të tjerët janë vetëm disa burime script perl ka nevojë për të lexuar në për të ndihmuar procesin e dhëna e parë e të dhënave.
jar Hadoop /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -D mapred.reduce.tasks = 0 -D mapred.map.tasks.speculative.execution = false -D mapred.task.timeout = 12000000 -input nlp_research /edt_nlp_data/3000001.txt -input shift.txt -input listat -input dict -input nlp_research / deid-1.1 / deid.config -inputformat org.apache.hadoop.mapred.lib.NLineInputFormat -output perl_output -mapper deid_mapper.pl - fotografi deid_mapper.pl
Në qoftë se ju mund të më jepni disa udhëzime, që do të jetë i madh!