Apache Drill – Magic để làm cho Big Phân tích dữ liệu dễ dàng hơn cho mọi người?

Many people consider big data analysis as something that can be done only by the data scientists. According to these people, big data processing and analysis require special skills such as statistics, kiến thức kỹ thuật và kinh nghiệm trước khi được sở hữu bởi một nhóm người. Apache khoan có tiềm năng để thay đổi nhận thức. Apache khoan đơn giản và dễ sử dụng và hầu như ai cũng có thể xử lý và phân tích dữ liệu lớn với nó. Apache khoan có thể truy vấn nhiều bộ dữ liệu có cấu trúc và phi cấu trúc với sự giúp đỡ của ANSI SQL. Người dùng chỉ cần sử dụng SQL và bất kỳ Business Intelligence (BI) công cụ để chạy các truy vấn chạy trên dữ liệu từ nhiều nguồn. Apache khoan có thể được sử dụng trên máy tính xách tay và không có nhu cầu để xác định bất kỳ sơ đồ. Không có nghi ngờ rằng Apache khoan có trong nó để làm phân tích dữ liệu lớn dễ tiếp cận hơn với các nhóm lớn hơn của người dân.

Apache khoan là gì?

Apache khoan là một công cụ truy vấn nguồn mở cung cấp phân tích SQL tương tác và an toàn ở quy mô của petabytes. Máy khoan là lần đầu tiên của loại hình này trong việc cung cấp dữ liệu truy vấn và khám phá khả năng từ các nguồn khác nhau như cơ sở dữ liệu NoSQL hoặc nhiều định dạng tập tin. Kể từ khi Apache khoan theo tiêu chuẩn ANSI SQL, không có nỗ lực cần thiết trong học tập tươi. Tất cả bạn cần làm là để có kiến ​​thức về SQL và bạn có thể bắt đầu.

Những lợi ích chính của Apache là khoan:

  • Các doanh nghiệp không cần phải phụ thuộc vào một hồ bơi tài năng chọn để truy cập và phân tích dữ liệu. Các hồ bơi tài năng hiện có và các nguồn tài nguyên trên ANSI SQL có thể được sử dụng để có được kết quả nhanh chóng. Các nhà phân tích cho SQL và các chuyên gia kinh doanh thông minh có thể truy vấn và phân tích dữ liệu một cách nhanh chóng và các doanh nghiệp không cần phải phụ thuộc vào chuẩn bị dữ liệu của bộ phận CNTT trong một thời gian dài.
  • Các bộ phận CNTT có thể bỏ qua các công việc bảo dưỡng đồ không cần thiết và các chu trình ETL và vẫn còn có quản trị đơn giản và dễ hiểu với sự giúp đỡ của các cơ chế truy cập dạng hạt được dễ dàng để triển khai.

sử dụng trường hợp

Các trường hợp sử dụng dưới đây mô tả làm thế nào bạn có thể dễ dàng sử dụng khoan dữ liệu để nhanh chóng truy vấn và phân tích dữ liệu cho mục đích kinh doanh của bạn.

Hãy để chúng tôi giả định rằng có một người khổng lồ bán lẻ có tên là T bán lẻ trong đó có văn phòng và phòng trưng bày trên khắp các nước. Giống như tất cả các doanh nghiệp thương mại khác, T bán lẻ muốn không ngừng nâng cao doanh thu và lợi nhuận của nó và để làm điều đó, nó phụ thuộc rất nhiều vào phân tích dữ liệu vì giúp nó để hiểu rõ hơn về sở thích của khách hàng, thói quen mua sắm và hành vi vis-à-vis các sản phẩm và dịch vụ của mình. Now, T bán lẻ đang tung ra một chiến dịch lớn để quảng bá và bán các sản phẩm mới và hiện tại. phân tích dữ liệu sẽ là một phần quan trọng trong chiến lược bán hàng của mình. phân tích dữ liệu sẽ giúp T bán lẻ xác định như sau:

  • Thời gian của năm hoạt động quảng cáo có thể sẽ mang lại kết quả tối đa.
  • Các khu vực nhiều khả năng mua sản phẩm của mình.

Để tìm hiểu các thông tin trên, T bán lẻ cần phải tìm ra các dữ liệu sau đây đầu tiên:

  • Những tháng đầu dựa trên tổng doanh thu.
  • Các quốc gia hàng đầu hoặc vùng dựa trên tổng doanh thu.
  • Các sản phẩm hàng đầu dựa trên tổng doanh thu.

T bán lẻ sẽ sử dụng Apache khoan để thực hiện nhiệm vụ này và nhiều hơn nữa. Để tìm hiểu các thông tin trên, T bán lẻ sẽ sử dụng bảng sau.

bảng tên: Đơn đặt hàng

order_id tháng Cust_ID quận prod_id ORDER_TOTAL
11265 Jan 221 MA 33217 24
21432 Mar 321 KS 87651 21

 

Để kích hoạt tính năng phân tích dữ liệu với Apache khoan, T bán lẻ đã bán ra dữ liệu khách hàng của mình từ một hệ thống Oracle vào một bảng Hive mà nằm trên một cụm Hadoop.

As you can see, bảng trên có chứa các cột sau:

  • order_id: số nhận dạng duy nhất của một lệnh đặt.
  • tháng: Tháng thứ tự đã được đặt.
  • Cust_ID: số nhận dạng duy nhất của khách hàng đó đặt thứ tự.
  • quận: Nhà nước nơi để được ứng nghiệm.
  • prod_id: số nhận dạng duy nhất của mặt hàng bán.
  • ORDER_TOTAL: Tổng số đơn đặt hàng cho khách hàng này và mục.

Now, chúng ta hãy tìm hiểu cách sử dụng truy vấn bởi Apache khoan để tìm hiểu các thông tin sau:

Những tháng đầu dựa trên tổng doanh thu

CHỌN 'month`, SUM(ORDER_TOTAL) như bán hàng

TỪ hive.orders

GROUP BY `month`

ORDER BY desc bán hàng;

Các quốc gia hàng đầu hoặc vùng dựa trên tổng doanh thu

CHỌN 'month`, 'state`, SUM(ORDER_TOTAL) như bán hàng

TỪ hive.orders

ĐÂU 'month` =' June '

GROUP BY `month`, 'state`

ORDER BY desc bán hàng;

Đỉnh 20 các sản phẩm dựa trên tổng doanh thu

CHỌN 'prod_id`, SUM(ORDER_TOTAL) như bán hàng

TỪ hive.orders

GROUP BY `prod_id`

ĐẶT BỞI 2 hạn giảm dần 20;

So, các truy vấn trên sẽ cung cấp cho T bán lẻ các thông tin cần thiết mà nó có thể sử dụng trong các chiến dịch tiếp thị của mình. Nhưng điểm chính ở đây là nó là vô cùng dễ dàng để chạy truy vấn SQL trên một tập hợp các dữ liệu sử dụng Apache khoan.

Một cái nhìn nhanh bên trong Apache khoan

Đây là cách một cơ sở dữ liệu Apache khoan điển hình trông giống như.

Apache Drill DB

Apache khoan DB

Đây là cách một truy vấn điển hình với Apache khoan trông giống như

Apache Drill Query

Apache Query khoan

Bổ sung thứ mà bạn có thể làm

Có nhiều hơn để Apache khoan hơn là chỉ truy vấn thông tin từ một cơ sở dữ liệu. For example, T bán lẻ có thể phân tích sự lựa chọn của khách hàng tiềm năng và thói quen mua bằng cách phân tích các mô hình trang web ghé thăm. Chúng ta hãy xem làm thế nào T bán lẻ có thể làm điều này với sự giúp đỡ của Apache khoan.

  • T bán lẻ thu thập dữ liệu nhấp chuột trong đó cung cấp thông tin về các nhấp chuột của khách truy cập trang web để các trang khác nhau. Các mô hình của các nhấp chuột như mô hình điều hướng, loại trang truy cập có thể tiết lộ rất nhiều về sở thích của người tiêu dùng.
  • T bán lẻ sử dụng J SƠN hoặc JavaScript Object Notation để truyền tải dữ liệu nhấp chuột giữa một ứng dụng web và máy chủ.
  • Các dữ liệu nhấp chuột được thu thập dưới dạng văn bản bằng phẳng trong các tập tin đăng nhập. Các file log duy trì thông tin khác như địa chỉ IP, byte phục vụ, mã HTTP, các loại trình duyệt, và yêu cầu trang.

However, thách thức với nhiệm vụ trên là các dữ liệu được thu thập ở dạng bán cấu trúc hoặc không có cấu trúc. Đây là nơi mà Apache khoan nói đến trong. với khoan, bạn có thể dễ dàng truy vấn và phân tích dữ liệu có cấu trúc bán. Các ưu điểm chính của khoan là:

  • Máy khoan có thể xác định các lược đồ của bất kỳ dữ liệu nhanh chóng, Bất cứ lúc nào. Điều này cho phép các nhà phân tích dữ liệu để truy vấn dữ liệu từ bất cứ nguồn nào mà không cần phải tạo ra bất kỳ loại định nghĩa giản đồ.
  • phân tích dữ liệu có thể sử dụng Apache khoan để truy vấn các tập tin Parquet và JSON chỉ với sự giúp đỡ của các định dạng ANSI SQL bình thường, giống như trong trường hợp cơ sở dữ liệu có cấu trúc.
  • Apache khoan có một mô hình dữ liệu linh hoạt mà làm cho nó dễ dàng cho bất cứ ai để thao tác hoặc truy vấn dữ liệu từ hầu như bất kỳ loại nguồn.

Summary

Chính lợi ích hay lợi thế của Apache khoan là nó sẽ làm giảm đáng kể đầu tư đối với phân tích dữ liệu lớn. Now, doanh nghiệp không có một lý do tốt để đầu tư vào công nghệ phức tạp hoặc kỹ năng luôn đặt để truy cập và phân tích dữ liệu lớn. Với Apache khoan, phân tích dữ liệu lớn đã trở thành tiếp cận với nhiều người hơn. Dường như Apache khoan đánh dấu sự khởi đầu của một xu hướng khi nhiều công cụ và công nghệ này sẽ làm theo bằng cách phân tích dữ liệu lớn dễ dàng hơn nhiều. Điều đó thực sự sẽ là một thời điểm xác định trong lịch sử của dữ liệu lớn.

 

Tagged on:
============================================= ============================================== Mua sách Techalpine tốt nhất trên Amazon,en,Thợ điện CT Hạt dẻ,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Thưởng thức blog này,,en,làm ơn mở rộng vốn từ,,en,techalpine.com/apache-mahout-and-machine-learning,,en? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share