מה האפצ'י Sqoop ואיך להשתמש בו כדי לייבא / לייצא נתונים ממערכת קבצים מבוזרת Hadoop?

האפצ'י Sqoop הוא כלי המשמש להעברת נתונים מ / אל מערכת קבצים מבוזרת Hadoop. Hadoop הארכיטקטורה יכולה לעבד נתונים גדולים ולאחסן אותו בHDFS. אבל אם אנחנו רוצים להשתמש בנתונים ואז אנחנו צריכים להשתמש בכמה כולים לייבא / לייצא אותו ביעילות. האפצ'י Sqoop מאפשר יבוא קל ויצוא של נתונים ממאגרי נתונים מובנים כגון מסדי נתונים יחסיים, מחסני נתונים ארגוניים, וNoSQL מערכות.

האפצ'י Sqoop הוא מאוד חשוב כאשר אנו חושבים על שימוש Hadoop לניתוח נתונים וprocessing.The שני היבטים עיקריים שכתובת Sqoop הם

א) טוען בתפזורת(הפקה) נתונים לתוך Hadoop.
ב) הגישה לנתונים בכמות גדולות מהמפה / להפחית את היישומים הפועלים באשכולות גדולים.

מוקדם יותר היינו כותבים / משתמשים בסקריפטים לייבא / לייצא נתונים בין systems.But השונה תהליך זה אינו יעיל ואינו מבטיח עקביויות נתונים, דיוק ונקודות קריטיות אחרות.

Sqoop משתמש מנגנון ישר קדימה כדי להעביר את כל מערך נתוני data.The הוא splitted לפרוסות וכל פרוסה היא המפה בלבד job.Now כל עבודת המפה בלבד אחראית להעביר פרוסה אחת של הנתונים שנקבעו.

כפי שכבר דנו, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

יש תוצר לוואי של process.It יבוא Sqoop הוא כיתת ג 'אווה שיכולה לתמצת בשורה אחת של table.This מחלקת Java המיובאת משמשת Sqoop עצמו durng קוד מקור process.The יבוא זה תוצר מחלקת Java.

לאחר עיבוד הנתונים המיובאים, זה יכול להיות מיוצא לכל מסד נתונים יחסי באמצעות Sqoop. Sqoop ייקרא קבוצה של קבצי טקסט מופרד מHDFS (במקביל) ולהכניס אותם כשורות חדשות ל
היעד table.Now נתונים אלה זמינים עבור consumtion על ידי היישומים החיצוניים.

Sqoop מספק גם כמה כלי עזר לפיקוד לקבל מידע על databaes שבו הוא רשימת working.The של סכימות מסד נתונים, שולחנות גם ניתן לצפות באמצעות Sqoop commands.Sqoop מספק גם פרימיטיבי SQL ביצוע הפגז.

פעולות Sqoop כמו יבוא,יצוא,וכו 'דור קוד יכול להיות יבוא customized.For, טווחי שורות / עמודות יכולים להיות מפרידי specified.The, לברוח תווים לקובץ ייצוג מבוסס יכול להיות גם שינויים בהתאם לחבילת requirement.The / כיתת שמו של קוד שנוצר יכול גם להיות מותאם אישית כדי לענות על דרישת היישום.

מחברי Sqoop הם עוד חלק חשוב מtool.Connectors הם רכיבי תוסף שנבנו על מחברי framework.These המאריך של Sqoop ניתן להוסיף לכל התקנת Sqoop ולאחר מכן ניתן להעביר נתונים בין Hadoop וחנות החיצונית.

Sqoop מגיע עם מחברי ברירת מחדל עבור מסדי נתונים פופולריים שונים כגון MySQL, PostgreSQL, אורקל, SQL Server ו DB2.Sqoop כוללים גם מחבר JDBC גנרי אשר ניתן להשתמש כדי להתחבר לכל בסיס נתונים נגישים דרך JDBC.

לסיכום דיון זה אנו יכולים לומר כי Sqoop יכול לשמש להעברת נתונים גדולים בין Hadoop ומאגרי הנתונים חיצוניים efficiently.Beyond זה, Sqoop גם מציע תכונות מתקדמות רבות כמו תבניות נתונים שונות,דחיסה,התאמה אישית,עבודה עם שאילתות וכו '.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share