Як выкарыстоўваць IBM Анатацыя Query Language (ДУК) рабіць аналіз тэксту?

Агляд: Тэкст Analytics ўяўляе сабой магутны механізм, які выкарыстоўваецца для здабывання структураваных дадзеных з неструктураваных або паў структураванага тэксту. Гэта робіцца шляхам стварэння правілаў. Гэтыя правілы выкарыстоўваюцца праграмамі здабывання для здабывання адпаведнай інфармацыі.

У гэтым артыкуле мы будзем казаць аб Annotation Query Language or ДУК які выкарыстоўваецца для аналізу тэкстаў.

Увядзенне: IBM InfoSphere з'яўляецца платформай, якая выкарыстоўваецца для аналізу бізнес-ідэі ў рамках вялізнага аб'ёму дадзеных, які мае разнастайных дыяпазону. Як правіла, гэтыя тыпы дадзеных ігнаруюцца, паколькі яна становіцца практычна немагчыма апрацаваць такі аб'ём дадзеных, з выкарыстаннем традыцыйных СКБД або РСУБД інструменты. Анатацыя мова запытаў або ДУК гэта мова запытаў, які выкарыстоўваецца ў IBM InfoSphere ў якасці кампанента для стварэння экстрактара, які можа здабываць структураванай інфармацыю з неструктураваных або паў структураванага кантэнту.

Кампаненты Text Analytics:

фарматы для збору ўводу - Калекцыя ўводу альбо дакумент або набор дакументаў, які выкарыстоўваецца ў якасці ўваходнага тэксту, з якога мы павінны атрымаць інфармацыю. Звычайна калекцыі ўваход павінен быць адзін з наступных фарматаў -
- UTF-8 кадуюцца тэкставы файл, які мае якой-небудзь з наступных пашырэньні -
  - .TXT
  - .HTM або .html або .xhtml
  - .xml
- Каталог, які змяшчае UTF-8 закадаваныя тэкставых файлаў.
- Архіўны файл з наступнымі пашырэннямі, які ёсць такія знакі UTF-8 кадуюцца тэкставыя файлы -
  - .дзёгаць
  - .зашпілька-маланка
  - .GZ
- UTF-8 кадуюцца падзелены коскамі файл.
- Просты файл у фармаце JSON.
рэгулярны выраз – Рэгулярныя выразы часцей за ўсё выкарыстоўваюцца для тэкставага пошуку механізму. Мы можам выкарыстоўваць рэгулярныя выразы будаўнікоў, якія выкарыстоўваюцца для пабудовы рэгулярных выразаў і ўкладзеных выразаў.
Шматмоўная падтрымка - Кампаненты аналізу тэксту мае падтрымку найбольш распаўсюджаных моў, якія выкарыстоўваюцца для пісьмовых паведамленняў. Тэкст аналітыка грунтуецца на двух асноўных метадаў - лексічнага аналізу і часціны мовы.
Шаблоны - Гэта адкрыццё мадэлі функцыянальных груп ўваходных кантэксты, якія падобныя або маюць агульны шаблон.
Анатацыя Query Language або ДУК - ДУК з'яўляецца асноўным мовай, якая выкарыстоўваецца для аналізу тэкстаў. Гэта выкарыстоўваецца для пабудовы экстрактара, якія затым выкарыстоўваюцца для здабывання неабходнай інфармацыі з неструктураваных тэкставых кампанентаў. Гэта больш падобна на мове SQL.

Аспекты аналізу тэксту:

Дэкларатыўны мова - Дэкларатыўны мова выкарыстоўваецца для ідэнтыфікацыі і здабывання тэкставай інфармацыі з існуючага змесціва тэкставага. Анатацыя Query Language або ДУК дазваляе нам мець нашы ўласныя калекцыі дакументацыя or думкі які адпавядае паказаным правілу. Гэтыя ўяўленні з'яўляюцца асноўным вынікам любога ДУК экстрактар. Праглядаў выкарыстоўваюцца для адлюстравання справаздачы аб IBM Bigsheets. IBM Bigsheet гэта убудаваныя справаздачы і панэлі кампанент платформы IBM InfoSphere Biginsight.
Прыстасаваныя слоўнікі - Слоўнік мае магчымасць ідэнтыфікаваць пэўны тэкст з уваходнага тэксту для здабывання бізнес-ідэі. У ДУК мы можам мець наш карыстацкі слоўнік, які будзе карысным, каб атрымаць жаданы вынік у эфектыўнай манеры.
Прыстасаваныя правілы - З дапамогай шаблонаў і рэгулярных выразаў мы можам вызначыць правілы ці механізм з дапамогай якога мы можам аддзяліць дадзеныя з вялікага набору дадзеных.

Давайце разгледзім наступны прыклад - мы можам адзначыць пэўныя ключавыя словы, якія могуць або не могуць з'явіцца ў зададзеным дыяпазоне адзін ад аднаго. E.g. разгледзець тры словы - "Яблык", "Mac" і "Стыў". Калі ўсе гэтыя словы з'яўляюцца ў межах вызначанага дыяпазону становіцца відавочным, што гаворка ідзе пра кампутары кампаніі Apple, якая была заснавана Стывам Джобсам і Mac выкарыстоўваецца ў якасці аперацыйнай сістэмы тут. Але калі з'явіцца слова "Вог" адразу пасля слова "Стыў" і іншыя два ключавых словы - "Яблык" і "Mac" няма, то становіцца ясна, што гаворка ідзе пра знакамітага аўстралійскім гулец у крыкет - Стыў Waugh.

адсочванне - Працэс аналізу тэксту ўяўляе сабой итеративный працэс. Узнікае неабходнасць змяніць правілы і іншыя прыстасаваныя слоўнікі, заснаваныя на выніках, што мы атрымліваем з існуючых правілаў.

Тэкст Analytics Працэс:

Працэс аналізу тэкстаў ажыццяўляецца ў наступных чатырох крокаў -

Step 1 - Збор і падрыхтоўка ўзору дадзеных - Любое прыкладанне на аснове аналізу тэкстаў распрацоўваецца з дапамогай некаторых выбарачных дадзеных. Гэтая выбарка дадзеных ствараецца пры наяўнасці падмноства большага дадзеных, якія мы сабралі. У залежнасці ад фармату нашага ўводу дадзеных нам неабходна падрыхтаваць адзін або некалькі фарматаў дадзеных, якія падтрымліваюцца BigInsights. У прыведзеным вышэй прыкладзе мы шукаем ўводу ключавых слоў - "Яблык", "Mac" і "Стыў". Гэтыя ўваходныя параметры дапамагаюць прыкладання для збору дадзеных з вэб-сайтаў, якія маюць гэтыя ключавыя словы, згаданыя.
Step 2 - Распрацоўка тэксту экстрактар і праверыць тое ж самае – BigInsights Убудовы даступныя для найбольш часта выкарыстоўваюцца Java IDE - Eclipse,. З дапамогай майстра на аснове Eclipse, мы можам лёгка распрацоўваць тэкставыя экстрактара і пратэставаць іх. BigInsights інфармацыйны цэнтр мае ўсю інфармацыю аб папярэдне неабходнага праграмнага забеспячэння, якое патрабуецца для распрацоўкі тэксту экстрактары. На шырокім узроўні, наступныя крокі павінны быць праведзены, каб стварыць тэкставы экстрактар на зацьменне, як толькі BigInsights убудова усталяваны паспяхова -
- Стварыце новы праект BigInsights.
- Імпарт дадзеных ўзору, які патрабуецца для тэставання. Дадзеныя прыклады ў нашым прыкладзе, як правіла, у фармаце JSON масіва. Для нашага тэставання мэты дазваляюць нам выкарыстоўваць экспартны цэнтр Bigsheets экспартаваць некалькі запісаў (вакол 10000) дадзеных у файл CSV. Затым мы запускаем скрыпт Jaql. Гэты скрыпт пераўтворыць файл CSV ў адпаведны падзельнікамі фармат файла, які даступны для чытання BigInsights. Гэты новы файл затым выкарыстоўваецца ў якасці ўваходнага файла для зацьмення аналітычнага інструмента.
- Стварыць артэфакты, якія неабходныя дадаткам e.g. модулі, скрыпты, вызначаныя карыстальнікам слоўнікі і г.д..
- Цяпер праверце ваш код супраць дакументаў ўзору на аснове збору дадзеных, прадстаўленых. Убудаваныя функцыі, такія як анатацый даследчыка і панэлі часопіса выкарыстоўваюцца для праверкі вынікаў. Гэты тэст варта праводзіць итеративно.
Step 3 - Публікацыя і разгортванне - Прыкладанне гатова да разгортвання і апублікаваныя, калі мы задаволеныя вынікамі, якія атрымліваюць тэкстам экстрактар. Звычайна публікуецца ў каталогу прыкладанняў кластара. Для таго, каб разгарнуць апублікаванае прыкладанне мы выкарыстоўваем BigInsights вэб-кансолі. Мы павінны выкарыстоўваць код ўваходу, які мае адміністрацыйныя прывілеі.
Step 4 - Запусціце тэкставы экстрактар - Пасля разгортвання тэксту экстрактар паспяхова, настаў час, каб выканаць яго. Як мы ведаем BigInsights мае магчымасць запускаць тэкставыя экстрактары з дапамогай Java API з дапамогай Jaql і Bigsheets. Перавага выкарыстання Bigsheets з'яўляецца тое, што не існуе ніякага дадатковага кадавання або сцэнарыяў патрабуецца тут. Любы бізнэс-аналітык можа ўзяць на сябе гэтую задачу.

думкі:

Там няма нічога асаблівага праглядаў AQL. Яны падобныя на стандартныя прадстаўлення ў рэляцыйнай базе дадзеных. Кожны выгляд ДУК мае імя, і складаецца з радкоў і слупкоў. у ДУК, погляды заўсёды матэрыялізаваўся. Усе аператары AQL працуюць з выглядам. Тут мы маем адзін спецыяльны выгляд завецца Document. Гэты пункт гледжання адлюстроўваецца на адзін уваход дакумента на момант з вашай калекцыі падчас выканання. Гэты пункт гледжання вельмі карысна, каб атрымаць падмноства з вялікага набору дадзеных.

Summary: Тэкст аналітыка знаходзіцца ў цэнтры любога прыкладання аналітыка. Так што гэта вельмі важна, каб вывучыць інструменты і механізмы, неабходныя для распрацоўкі прыкладанняў аналізу тэксту. IBM InfoSphere Biginsight з'яўляецца адным з лепшых інструментаў, даступных для аналізу тэкстаў. Падагульнім наша абмеркаванне ў выглядзе наступных куль -

Тэкст аналітыка ўяўляе сабой магутны механізм, які выкарыстоўваецца для здабывання інфармацыі з неструктураваных набору дадзеных.
Асноўныя кампаненты тэкставага аналізу з'яўляюцца -
- Фармат Калекцыя ўводу
- рэгулярны выраз
- шматмоўная падтрымка
- Анатацыя Query Language або ДУК
Асноўныя аспекты аналізу тэкстаў з'яўляюцца -
- дэкларатыўны мова
- прыстасаваныя слоўнікі
- прыстасаваныя правілы
- адсочванне

Share on Facebook

Save

Tagged on: Аналітыка, Big Data, Text Analytics

TechAlpine – All About Technology

www.techalpine.com