Как да използвате IBM Анотация Query Language (AQL) да направим анализи на текст?

Преглед: Текст Analytics е мощен механизъм, използван за извличане на структурирани данни от неструктурирани или полу структуриран текст. Това се прави чрез създаване на правила. Тези правила се използват от програмите за екстракция за извличане на информация.

В тази статия ще говорим за Annotation Query лanguage or AQL който се използва за анализи на текст.

Въвеждане: IBM InfoSphere е платформа, използвана за анализ на бизнес прозрения в рамките на огромен обем от данни, която е на разнообразна гама. Обикновено тези видове данни се игнорират, защото това става почти невъзможно да се обработи такъв обем от данни, използвайки традиционните СУБД или RDBMS инструменти. Анотация език за заявки или AQL е език заявка използва в IBM InfoSphere като компонент за изграждане екстрактори, които могат да извличат структурирана информация от неструктурирани или полу структурирано съдържание.

Компоненти на текстови Analytics:

формати за събиране на вход - събиране Input е или документ или набор от документи, който се използва като въвеждане на текст, от където ние се очаква да извлече информацията. Обикновено една колекция вход трябва да бъде един от следните формати -
- UTF-8 кодиран текстов файл с някое от следните разширения -
  - .текст
  - .HTM или .html или .xhtml
  - .xml
- А директория съдържаща UTF-8 кодирани текстови файлове.
- Архивен файл със следните разширения, които съдържа UTF-8 кодирани текстови файлове -
  - .катран
  - .цип
  - .GZ
- UTF-8 кодиран, разделени със запетая файл.
- А обикновен JSON файл.
регулярен израз – Регулярни изрази най-често се използват за механизъм за търсене на текст. Ние можем да използваме регулярните изрази строители, които се използват за изграждане на регулярни изрази и подгрупи изрази.
Многоезична поддръжка - Текст Анализ компоненти има поддръжка за най-често срещаните езици, които се използват за писмени съобщения. Анализи на текст се базира на две основни техники - токанизация и части на речта.
Модели - откритие модел игрални групи входни контексти, които са подобни или да имат общ модел.
Анотация Query Language или AQL - AQL е основният език, използван за анализи на текст. Това се използва за изграждане на екстрактори, които след това се използват за извличане на информация от неструктурирани компоненти текстови. Това е по-скоро като SQL език.

Аспекти на текстови Analytics:

Декларативен език - Декларативен език се използва за идентифициране и извличане на текстова информация от съществуващото съдържание на текст. Анотация Query Language или AQL ни позволява да имаме нашите собствени колекции от записи or гледания което отговаря на зададена правило. Тези възгледи са основната продукция на всеки абсорбатор AQL. Прегледи се използват за показване на доклад за IBM Bigsheets. IBM Bigsheet е вграден отчитане и таблото компонент от платформата IBM InfoSphere Biginsight.
дефинирани потребителски речници - Речник има способността да идентифицира определен текст от въвеждане на текст, за да извлечете бизнес прозрения. В AQL можем да имаме нашия потребителски речник, който ще бъде от полза, за да получите желания резултат по ефективен начин.
дефинирани потребителски правила - С помощта на модели и регулярни изрази можем да определите правила или механизъм с помощта на които можем да се отделят данните от голям набор от данни.

Нека разгледаме следния пример - можем да говорим за определени ключови думи, които могат или не могат да се появят в рамките на даден диапазон от един на друг. E.g. разгледа трите думи - "Apple", "Mac" и "Стив". Ако всички тези думи се появяват в рамките на определен обхват става ясно, че ние говорим за Apple компютрите която е основана от Стив Джобс и Mac се използва като операционната система тук. Но ако думата "Уо" се появява веднага след думата "Стив", а другите две ключови думи - "Apple" и "Мак" не са налице, след това става ясно, че става дума за известния австралийски играч на крикет - Стив Уо.

проследяване - Процесът на анализ на текст е един повтарящ се процес. Това става необходимо да се променят правилата и други потребителски речници въз основа на резултатите, което ние се измъкнем от съществуващите правила.

Текст Process Analytics:

Процесът на текстови анализи се извършват в следните четири стъпки -

Step 1 - Събиране и подготовка на примерни данни - Всяко заявление на базата на анализи на текст е разработен с помощта на някои данни проба. Тези данни проба е създадена от като подмножество на по-голяма данните, които сме събрали. В зависимост от формата на нашата въвеждане на данни трябва да се подготви един или множество формати на данни, които се поддържат от BigInsights. В примера, споменато по-горе, ние търсим входните ключови думи - "Apple", "Mac" и "Стив". Тези входни параметри помагат на заявлението за събиране на данни от интернет страниците, които имат тези ключови думи, споменати.
Step 2 - Разработване екстрактор текст и тест на същото – BigInsights Plugins са на разположение за най-често използваните Java IDE - Eclipse. Използването на Eclipse базирани магьосниците ние можем лесно да се развие на текстови екстрактори и ги тества. BigInsights Информационният център разполага с цялата информация за предпоставка софтуер, който е необходим, за да се развие на текстови екстрактори. На широк ниво, следните стъпки трябва да бъдат извършени, за да се създаде текст абсорбатор на затъмнение, веднъж на BigInsights плъгин е инсталиран успешно -
- Създаване на нов проект BigInsights.
- Данни за внос на пробата, която се изисква за тестване. Данните на пробата в нашия пример е обикновено във формат масив JSON. За нашите тестове цел нека използваме съоръжението износ Bigsheets да изнасят някои записи (около 10000) на данни във файл CSV. Тогава ние стартирате Jaql сценария. Този скрипт превръща CSV файл в подходящ разграничена файлов формат, който е разпознаваем от BigInsights. След това този нов файл се използва като входен файл към затъмнение аналитичен инструмент.
- Създаване на артефакти, които се изискват от прилагането например. модули, скриптове, дефинирани от потребителя речници и т.н..
- Сега тестват кода си срещу образците на документи, основаващи се на събирането вход е предвидено. Вграденият в функции, като анотация изследовател и прозореца на дневника се използват за проверка на резултатите. Този тест трябва да се извършва итеративно.
Step 3 - Публикуване и разположи - Заявлението е готов да се разгърнат и публикува, когато ние сме доволни от резултатите, които се произвеждат от екстрактор текст. Обикновено тя се публикува в каталога на прилагане на клъстер. С цел да се разположи на публикувани прилагането ние използваме BigInsights уеб конзола. Ние трябва да се използва за идентификация на вход, който има административни привилегии.
Step 4 - Стартирай екстрактор текст - След внедряването на успешно екстрактор текст, сега е време да го изпълни. Както знаем BigInsights има способността да се позове на текстови екстрактори с помощта на Java API, с помощта на Jaql и Bigsheets. Предимството на използването на Bigsheets е, че няма допълнително кодиране или скриптове изисква тук. Всеки Бизнес анализатор може да отнеме до тази задача.

Прегледи:

Няма нищо по-специално около възгледи AQL. Те са подобни на стандартните възгледи в релационна база данни. Всеки AQL изглед има име, и се състои от редове и колони. в AQL, възгледи винаги са материализирани. Всички изявления AQL работят на изгледи. Тук имаме един специален изглед наречен Документ. Тази гледна точка е свързан с един вход документ в момента от колекцията си по време на изпълнение. Това мнение е много полезно за извличане на подгрупата от голям набор от данни.

Summary: Анализи на текст е в основата на всяко приложение за анализ. Така че това е много важно, за да се научат на инструмент и рамки, необходими за разработване на приложения анализи на текст. IBM InfoSphere Biginsight е един от най-добрите инструменти на разположение за анализи на текст. Нека обобщим нашата дискусия под формата на следната куршуми -

Текст Analytics е мощен механизъм, използван за извличане на информация от неструктурирани набор от данни.
Основните компоненти на текстови анализи са -
- формат Collection Input
- Редовен израз
- Многоезичен подкрепа
- Анотация Query Language или AQL
Основни аспекти на текстови анализи са -
- декларативен език
- дефинирани потребителски речници
- дефинирани потребителски правила
- проследяване

Share on Facebook

Save

Tagged on: Анализ, Big Data, Text Analytics

TechAlpine – All About Technology

www.techalpine.com