Apache Sqoop และวิธีการใช้มันเพื่อนำเข้า / ส่งออกข้อมูลจาก File System Hadoop Distributed คืออะไร?

Apache Sqoop เป็นเครื่องมือที่ใช้สำหรับการถ่ายโอนข้อมูลจาก / ไปยังระบบแฟ้ม Hadoop กระจาย. Hadoop สถาปัตยกรรมสามารถประมวลผลข้อมูลขนาดใหญ่และเก็บไว้ใน HDFS. แต่ถ้าเราต้องการที่จะใช้ข้อมูลนั้นเราจำเป็นต้องใช้เครื่องมือบางอย่างที่จะนำเข้า / ส่งออกได้อย่างมีประสิทธิภาพ. Apache Sqoop อนุญาตนำเข้าและส่งออกง่ายของข้อมูลจากร้านค้าข้อมูลที่มีโครงสร้างเช่นฐานข้อมูลเชิงสัมพันธ์, คลังข้อมูลองค์กร, และระบบ NoSQL.

Apache Sqoop เป็นสิ่งสำคัญมากเมื่อเราคิดเกี่ยวกับการใช้ Hadoop สำหรับการวิเคราะห์ข้อมูลและการประมวลผลสองด้านหลักซึ่งอยู่ Sqoop เป็น

a) โหลดจำนวนมาก(การผลิต) ข้อมูลลงใน Hadoop.
ข) การเข้าถึงข้อมูลจำนวนมากจากแผนที่ / ลดโปรแกรมที่ทำงานบนกลุ่มใหญ่.

ก่อนหน้านี้เราใช้ในการเขียน / การใช้สคริปต์เพื่อนำเข้า / ส่งออกข้อมูลระหว่าง systems.But ที่แตกต่างกันกระบวนการนี​​้จะไม่มีประสิทธิภาพและไม่ให้สอดคล้องข้อมูล, ความถูกต้องและจุดที่สำคัญอื่น ๆ.

Sqoop ใช้กลไกตรงไปข้างหน้าในการถ่ายโอน dataset ทั้งหมด data.The เป็น splitted เป็นชิ้นและแต่ละชิ้นเป็น job.Now แผนที่เท่านั้นแต่ละงานแผนที่อย่างเดียวจะเป็นผู้รับผิดชอบสำหรับการถ่ายโอนชิ้นหนึ่งของข้อมูลชุด.

ในขณะที่เราได้กล่าวถึง, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

มีผลพลอยได้จากการนำเข้า process.It Sqoop เป็น Java class ซึ่งสามารถ encapsulate หนึ่งแถวของที่นำเข้า table.This ชั้น Java จะถูกใช้โดยตัวของมันเอง Sqoop durng รหัสแหล่งนำเข้ากระบวนการนี​​้โดยผลิตภัณฑ์ชั้น Java .

หลังจากการประมวลผลข้อมูลที่นำเข้า, จะสามารถส่งออกไปยังฐานข้อมูลเชิงสัมพันธ์ใด ๆ โดยใช้ Sqoop. Sqoop จะอ่านชุดของแฟ้มข้อความที่คั่นจาก HDFS (ในแบบคู่ขนาน) และใส่พวกเขาเป็นแถวใหม่เพื่อ
เป้าหมาย table.Now ข้อมูลเหล่านี้สามารถใช้ได้สำหรับ consumtion โดยโปรแกรมประยุกต์ภายนอก.

Sqoop ยังให้บริการสาธารณูปโภคที่คำสั่งบางที่จะได้รับข้อมูลเกี่ยวกับการ databaes ที่มันเป็นรายการ working.The ของ schemas ฐานข้อมูล, ตารางนอกจากนี้ยังสามารถดูได้โดยใช้ Sqoop commands.Sqoop ยังให้ดำเนิน SQL ดั้งเดิมเปลือก.

การดำเนินงานที่ต้องการนำเข้า Sqoop,ส่งออก,ฯลฯ รุ่นรหัสสามารถนำเข้า customized.For, ช่วงแถว / คอลัมน์สามารถคั่น specified.The, หนีตัวอักษรสำหรับการแสดงตามไฟล์ที่ยังสามารถปรับเปลี่ยนได้ตามต่อแพคเกจ requirement.The / ชื่อชั้นของรหัสที่สร้างยังสามารถปรับแต่งเพื่อให้ตรงกับความต้องการของแอพลิเคชัน.

การเชื่อมต่อ Sqoop เป็นอีกส่วนหนึ่งที่สำคัญของ tool.Connectors เป็นส่วนประกอบปลั๊กอินที่สร้างขึ้นบนการเชื่อมต่อของ Sqoop framework.These ขยายที่สามารถเพิ่มการติดตั้ง Sqoop ใด ๆ แล้วสามารถถ่ายโอนข้อมูลระหว่าง Hadoop และเก็บภายนอก.

Sqoop มาพร้อมกับการเชื่อมต่อค่าเริ่มต้นสำหรับฐานข้อมูลที่นิยมต่างๆเช่น MySQL, PostgreSQL, คำทำนาย, SQL Server และยังรวมถึงการ DB2.Sqoop เชื่อมต่อ JDBC ทั่วไปที่สามารถนำมาใช้เพื่อเชื่อมต่อกับฐานข้อมูลที่สามารถเข้าถึงได้ผ่าน JDBC ใด ๆ.

เพื่อสรุปการอภิปรายนี้เราสามารถพูดได้ Sqoop ที่สามารถใช้ในการถ่ายโอนชุ​​ดข้อมูลขนาดใหญ่ระหว่าง Hadoop และภายนอก datastores efficiently.Beyond นี้, Sqoop ยังมีคุณสมบัติขั้นสูงมากเช่นรูปแบบข้อมูลที่แตกต่าง,การอัด,การปรับแต่ง,การทำงานร่วมกับคำสั่ง ฯลฯ.

Tagged on:
============================================= ============================================== ซื้อหนังสือ techalpine ที่ดีที่สุดใน Amazon,en,ช่างไฟฟ้า CT Chestnutelectric,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share