Apache Drill – Magic to make Big Data Analysis Easier for Everyone?

Багато людей вважають аналіз великих обсягів даних, як щось, що може бути зроблено тільки вченими даних. Відповідно до цими людьми, велика обробка і аналіз даних вимагає спеціальних навичок, таких як статистика, технічні знання і попередній досвід, які мають певної групи людей. Apache Дриль має потенціал, щоб змінити сприйняття. Apache Дриль проста і зрозуміла у використанні і практично будь-хто може обробляти і аналізувати великі дані з нього. Apache дриль може запросити кілька наборів структурованих і неструктурованих даних за допомогою ANSI SQL. Користувач просто необхідно використовувати SQL і будь-Business Intelligence (BI) засіб для виконання запитів працювати на даних з декількох джерел. Apache Дриль може використовуватися на ноутбуках і немає необхідності визначати будь-яку схему. Існує ніяких сумнівів, що Apache Дриль має в ньому зробити великі аналіз даних більш доступними для широких груп людей.

Що Apache дриль?

Apache дриль є відкритим вихідним кодом система обробки запитів, який забезпечує інтерактивні і надійні аналітичні SQL в масштабі петабайт. Дриль є першим у своєму роді в наданні запиту даних і вивчення можливості з різних джерел, таких як бази даних NoSQL або декількох форматах. Оскільки Apache дриль слід стандартам ANSI SQL, нанівець зусилля, необхідні в свіжому навчання. Все, що потрібно зробити, це є знання SQL, і ви можете почати.

Основні переваги Apache Drill є:

  • Компанії не потрібно залежати від обраної талантів отримувати і аналізувати дані. Існуючий пул талантів і ресурсів на ANSI SQL можуть бути використані для отримання результатів швидко. Аналітики SQL і фахівці Business Intelligence може запросити і швидко аналізувати дані і підприємства не повинні залежати від підготовки даних ІТ-відділом протягом тривалого часу.
  • ІТ-відділ може обійти непотрібні завдання з обслуговування схеми і цикли ETL і досі простий і прямий управління за допомогою гранульованих механізмів доступу, які прості в розгортанні.

приклад використання

Прецедент нижче описує, як ви можете легко використовувати свердло даних швидко запитувати і аналізувати дані для ділових цілей.

Припустимо, що існує роздрібний гігант по імені T Роздрібна який має свої представництва та салони в різних країнах. Як і всі інші комерційні підприємства, Т Роздрібна хоче, щоб постійно покращувати свої доходи і прибутки і зробити це, вона спирається багато в чому від аналізу даних, тому що допомагає йому краще зрозуміти переваги клієнтів, купівельні звички і поведінку по відношенню відношенню її продуктах і послугах. Now, Т Роздрібна запускає широку кампанію рекламувати і продавати свої нові та існуючі продукти. аналізу даних буде значна частина його стратегії продажів. аналіз даних допоможе Т Роздрібна визначити наступне:

  • Пора року рекламні заходи, ймовірно, з отриманням максимальних результатів.
  • Області частіше купують свою продукцію.

Щоб дізнатися вищевказану інформацію, Т Роздрібна потрібно з'ясувати такі дані першого:

  • Верхні місяців, виходячи валового продажу.
  • Верхні країни або регіони, засновані на валового продажу.
  • Верхні продукти, засновані на валового продажу.

Т Роздрібна буде використовувати Apache Drill виконати це завдання і більше. Щоб дізнатися вищевказану інформацію, Т Роздрібна будемо використовувати наступну таблицю.

ім'я таблиці: замовлення

order_id місяць cust_id графство prod_id order_total
11265 Jan 221 Массачусетс 33217 24
21432 березня 321 Канзас 87651 21

 

Щоб включити аналіз даних за допомогою Apache Drill, Т Рітейл вивантажені свої дані клієнта з системи Oracle в таблицю вулик, який знаходиться в кластері Hadoop.

Як ви можете бачити, У наведеній вище таблиці містить такі стовпці:

  • order_id: Унікальний ідентифікаційний номер замовлення розміщені.
  • місяць: Місяць замовлення було розміщено.
  • cust_id: Унікальний ідентифікаційний номер клієнта, який розмістив замовлення.
  • графство: Держава, в якому було виконано близько.
  • prod_id: Унікальний ідентифікаційний номер пункту продається.
  • order_total: Загальна кількість замовлень для цього клієнта і пункту.

Now, З'ясуємо, як використовувати запит, Apache Drill з'ясувати наступну інформацію:

Верхні місяців, виходячи валового продажу

ВИБІР `month`, SUM(order_total) як продажу

ВІД hive.orders

GROUP BY `month`

ORDER BY продажів алфавітом;

Верхні країни або регіони, засновані на валового продажу

ВИБІР `month`, `state`, SUM(order_total) як продажу

ВІД hive.orders

Де `month` = 'червня'

GROUP BY `month`, `state`

ORDER BY продажів алфавітом;

Вершина 20 продукти, засновані на валового продажу

ВИБІР `prod_id`, SUM(order_total) як продажу

ВІД hive.orders

GROUP BY `prod_id`

СОРТУВАТИ ЗА 2 межа по спадаючій 20;

So, вищевказані запити дасть T роздрібних необхідну інформацію, що він може використовувати в своїх маркетингових кампаній. Але головне тут в тому, що це дуже легко запустити SQL запит на безлічі даних з використанням Apache Drill.

Швидкий погляд всередину Apache Drill

Це, як типовий база дриль Apache виглядає.

Apache Drill DB

Apache Дриль DB

Це, як типовий запит з Apache Drill виглядає

Apache Drill Query

Apache дриль Запит

Додаткова речі ви можете зробити

Існує більше, щоб Apache Drill, ніж просто запитуючи інформацію з бази даних. For example, Т Роздрібна може проаналізувати потенційні варіанти клієнтів і купівельна аналізуючи зразки сайт відвідування. Давайте подивимося, як T Роздрібна можете зробити це за допомогою свердлильного Apache.

  • Т Роздрібна збирає дані клацання, який дає інформацію про кліки відвідувачів веб-сайту для різних сторінок. Моделі клацань, такі як навігаційного малюнком, типи відвіданих сторінок може виявити багато про переваги споживача.
  • Т Роздрібна використовує J син або формат JavaScript Object Notation передавати дані про кліки між веб-додатком і сервером.
  • Дані натисніть збирають у вигляді плоского тексту в файлах журналів. Файл журналу містить різну інформацію, такі як IP-адрес, байти подаються, HTTP-код, типи браузерів, і запити сторінок.

However, виклик за допомогою даної призначення є те, що дані збираються в Полуструктурірованние або неструктурованою форматі. Це де Apache Дриль поставляється в. З Drill, Ви можете легко запитувати і аналізувати слабоструктуровані дані. Основними перевагами є Drill:

  • Дриль може визначити схему будь-яких даних на льоту, в будь-який час. Це дозволяє з аналізу даних для запиту даних з будь-якого джерела, без необхідності створення будь-якого типу визначення схеми.
  • Аналітики даних можуть використовувати Apache Drill запитувати файли паркет і JSON просто за допомогою звичайної форматі ANSI SQL, точно так само як у випадку структурованої бази даних.
  • Apache Дриль має гнучку модель даних, що робить його легким для будь-якого маніпулювати або запиту даних практично з будь-якого типу джерела.

Summary

Основна перевага або перевага Apache Drill, що він збирається значно скоротити інвестиції на великому аналізу даних. Now, enterprises do not have a good reason to invest in complex technology or skill sets always to access and analyse big data. With Apache Drill, big data analysis has become accessible to more people. It seems that Apache Drill marks the beginning of a trend when more tools and technologies are going to follow suit by making big data analysis much easier. That will indeed be a defining moment in the history of big data.

 

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share