Apache Sqoop là gì và làm thế nào để sử dụng nó để nhập / xuất dữ liệu từ Hadoop Distributed File System?

Apache Sqoop là một công cụ được sử dụng để chuyển dữ liệu từ / đến Hadoop hệ thống tập tin phân phối. Hadoop kiến ​​trúc có thể xử lý dữ liệu BIG và lưu trữ nó trong HDFS. Nhưng nếu chúng ta muốn sử dụng dữ liệu sau đó chúng ta cần phải sử dụng một số công cụ để nhập khẩu / xuất khẩu nó có hiệu quả. Apache Sqoop cho phép dễ dàng nhập khẩu và xuất khẩu dữ liệu từ dữ liệu có cấu trúc các cửa hàng, chẳng hạn như cơ sở dữ liệu quan hệ, dữ liệu doanh nghiệp kho, và NoSQL hệ thống.

Apache Sqoop là rất quan trọng khi chúng ta nghĩ về việc sử dụng Hadoop cho phân tích và dữ liệu processing.The hai khía cạnh chính mà Sqoop địa chỉ

một) Tải số lượng lớn(sản xuất) dữ liệu vào Hadoop.
b) Truy cập dữ liệu số lượng lớn từ bản đồ / giảm các ứng dụng chạy trên các cụm lớn.

Trước đó chúng tôi được sử dụng để viết / sử dụng các kịch bản để nhập / xuất dữ liệu giữa systems.But khác nhau quá trình này là không hiệu quả và không đảm bảo tính nhất quán dữ liệu, độ chính xác và các điểm quan trọng khác.

Sqoop sử dụng cơ chế thẳng về phía trước để chuyển dữ liệu.Các toàn bộ số liệu được tách ra thành lát mỏng và mỗi miếng là một job.Now bản đồ chỉ từng công việc bản đồ chỉ là chịu trách nhiệm chuyển giao một phần của tập hợp dữ liệu.

Như chúng ta đã thảo luận, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

Có một sản phẩm phụ của process.It nhập khẩu Sqoop là một lớp Java mà có thể gói gọn một hàng của lớp Java table.This nhập khẩu được sử dụng bởi các Sqoop durng mã nguồn quá trình nhập khẩu của sản phẩm lớp Java .

Sau khi xử lý dữ liệu nhập khẩu, nó có thể được xuất khẩu sang Sqoop sử dụng bất kỳ cơ sở dữ liệu quan hệ. Sqoop sẽ đọc một tập hợp các tập tin văn bản được giới hạn từ HDFS (song song) và chèn chúng như là các hàng mới vào
mục tiêu table.Now dữ liệu này hiện có sẵn cho Tiêu hao bởi các ứng dụng bên ngoài.

Sqoop cũng cung cấp một số tiện ích lệnh để có được thông tin về databaes mà trên đó nó là working.The danh sách các lược đồ cơ sở dữ liệu, bảng cũng có thể được xem bằng cách sử dụng Sqoop commands.Sqoop cũng cung cấp nguyên thủy vỏ thực hiện SQL.

Sqoop hoạt động như nhập khẩu,xuất khẩu,mã thế hệ, vv có thể được customized.For nhập khẩu, phạm vi hàng / cột có thể là ký tự phân cách specified.The, thoát khỏi nhân vật cho tập tin đại diện dựa trên cũng có thể được thay đổi theo gói requirement.The / lớp tên của các mã được tạo ra cũng có thể được tùy chỉnh để đáp ứng yêu cầu ứng dụng.

Các Sqoop kết nối là một phần quan trọng của tool.Connectors thành phần plugin được xây dựng trên kết nối mở rộng Sqoop framework.These có thể được thêm vào bất kỳ cài đặt Sqoop và sau đó dữ liệu có thể được chuyển giao giữa Hadoop và cửa hàng bên ngoài.

Sqoop đi kèm với kết nối mặc định cho các cơ sở dữ liệu phổ biến khác nhau như MySQL, PostgreSQL, Oracle, SQL Server và DB2.Sqoop cũng bao gồm một kết nối JDBC chung chung mà có thể được sử dụng để kết nối với bất kỳ cơ sở dữ liệu có thể truy cập thông qua JDBC.

Để kết thúc cuộc thảo luận này, chúng ta có thể nói Sqoop có thể được sử dụng để chuyển dữ liệu lớn giữa Hadoop và bên ngoài kho dữ liệu efficiently.Beyond này, Sqoop cũng cung cấp nhiều tính năng tiên tiến như định dạng dữ liệu khác nhau,nén,tùy biến,làm việc với các truy vấn vv.

Tagged on:
============================================= ============================================== Mua sách Techalpine tốt nhất trên Amazon,en,Thợ điện CT Hạt dẻ,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Thưởng thức blog này,,en,làm ơn mở rộng vốn từ,,en,techalpine.com/apache-mahout-and-machine-learning,,en? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share