Kuidas kasutada IBM annotatsioon Query Language (AQL) teha teksti Analytics?

Ülevaade: Tekst Analytics on võimas mehhanism, mida kasutatakse, et eraldada struktureeritud andmeid struktureerimata või pooleldi struktureeritud tekst. Seda tehakse luues eeskirjad. Need reeglid, mida kasutavad kaevandamisel programmid ekstrakti asjakohast teavet.

Selles artiklis me räägime Annotation Query language or AQL mida kasutatakse teksti Analytics.

Sissejuhatus: IBM Infosphere on platvorm, mida kasutatakse, et analüüsida äri teadmisi jooksul suur hulk andmeid, mis on mitmekesine valik. Tavaliselt seda tüüpi andmeid ignoreeritakse, sest see muutub peaaegu võimatu töödelda sellist andmete maht tavalisel DBMS või RDBMS tööriistad. Annotatsioon päringu keel või AQL on päringu keel kasutatakse IBM InfoSphere osana ehitada kaevandajad mis saab väljavõtte struktureeritud teavet struktureerimata või pooleldi struktureeritud sisu.

Komponendid Tekst Analytics:

Sisend kogumise formaate - Sisend kogumine on kas dokument või dokumentide kogum, mida kasutatakse sisendina teksti, kus me peaksime saada see teave. Tavaliselt sisendi kogumine peab olema üks järgmistest vormingutes -
- UTF-8 tekstifaili millel on mis tahes järgmised laiendid -
  - .txt
  - .htm või html või .xhtml
  - .xml
- Kataloog, mis sisaldab UTF-8 tekstifaile.
- Arhiivitoimiku järgmiste laienditega, mis sisaldab UTF-8 tekstifaile -
  - .tõrv
  - .tõmblukk
  - .gz
- UTF-8 komaga eraldatud faili.
- Tavaline JSON faili.
regulaaravaldiste – Regulaaravaldisi kõige sagedamini kasutatakse teksti otsing mehhanism. Me saame kasutada regulaaravaldise ehitajad, mida kasutatakse ehitada regulaaravaldiste ja sub väljendeid.
Mitmekeelne tugi - Tekst analüüsi komponendid on toetust kõige levinum keeled, mida kasutatakse kirjalikke teateid. Tekst analüüs põhineb kaks põhilist tehnikat - tokenization ja kõne osad.
patterns - Muster avastus funktsioon rühmad sisend kontekstis, mis on sarnased või on ühine muster.
Annotatsioon Query Language või AQL - AQL on esmane keeles kasutatakse teksti Analytics. Seda kasutatakse ehitada tõmbeventilaatoritele mida seejärel kasutatakse ekstrakti vajalikku teavet struktureerimata tekstiline komponendid. See on rohkem nagu SQL keeles.

Aspektid Tekst Analytics:

Deklaratiivne keel - Kuid deklaratiivsest keelt kasutatakse, et tuvastada ja eraldada tekstilist teavet olemasolevatest teksti sisu. Annotatsioon Query Language või AQL võimaldab meil oma kogud andmed or vaated mis sobib konkreetse reegel. Need seisukohad on peamine väljund mis tahes AQL eemaldi. Vaatamisi kuvamiseks kasutatakse aruande IBM Bigsheets. IBM Bigsheet on sisseehitatud aruandluse ja armatuurlaua osa IBM Infosphere Biginsight platvorm.
Vabalt sõnastikud - Sõnaraamat suudab tuvastada teatud teksti sisestada tekstikasti ekstrakti äri teadmisi. In AQL saame meie kohandatud sõnastikku, mis on abiks, et saada soovitud tulemus tõhusalt.
Kasutaja määratletud reeglid - Tänu mustrid ja regulaaravaldiste saame täpsustada eeskirju või mehhanismi abil, mida saame eraldada andmeid suure hulga andmete.

Vaatleme järgmine näide - võime mainida teatud märksõnad, mis võivad ilmuda või mitte teatavas vahemikus üksteisest. E.g. kaaluda kolm sõna - "Apple", "Mac" ja "Steve". Kui kõik need sõnad esinevad teatud kindla vahemiku selgub, et me räägime Apple arvutid, mis asutati Steve Jobs ja Mac kasutatakse operatsioonisüsteemi siin. Aga kui sõna "Waugh" ilmub peale sõna "Steve" ja teised kaks võtmesõna - "Apple" ja "Mac" ei ole olemas, siis selgub, et me räägime kuulus Austraalia kriketimängija - Steve Waugh.

Tracking - Protsessi teksti analüüs on pikem protsess. Osutub vajalikuks muuta reegleid ja muud kasutaja määratud sõnastikud tulemuste põhjal, mida me välja tulla kehtivaid eeskirju.

Tekst Analytics protsessi:

Teksti analüüsi protsess toimub neljas järgus -

Step 1 - Koguda ja valmistada proovi andmed - Iga taotlus põhineb teksti Analytics on välja töötatud abiga mõned proovi andmeid. Seda proovi andmed on loodud võttes alagrupis suurem andmeid, mis oleme kogunud. Sõltuvalt vormi meie sisendandmed me peame valmistuma ühe või mitme vormingu andmeid, mis toetavad BigInsights. Näites eespool vaatame sisend märksõnad - "Apple", "Mac" ja "Steve". Need sisendparameetritele aitab taotluse koguda andmeid veebilehti, mis on need märksõnad mainitud.
Step 2 - Arendamine teksti eemaldi ja testida sama – BigInsights pluginad on olemas kõige sagedamini kasutatav Java IDE - Eclipse. Kasutades Eclipse põhinev võlurid saame kergesti arendada teksti kaevandajad ja testida neid. BigInsights infokeskus on kõik andmed eeltingimus tarkvara, mis on vajalik välja töötada teksti väljatõmbajad. On väga üldine, järgmisi etappe tuleb läbi Tekstilingi eemaldi Eclipse, kui BigInsights plugin paigaldatud edukalt -
- Loo uus BigInsights projekti.
- Import valimi andmeid, mis on vajalik testimine. Proovi andmed meie näites on tavaliselt JSON massiivi formaadis. Meie testimise eesmärgil olgem kasutada Bigsheets ekspordi võimalus eksportida mõned kirjed (ümber 10000) andmete CSV faili. Siis võtame Jaql skript. See skript muudab CSV faili sobivasse piiritletud fail formaadis, mis on loetav BigInsights. See uus fail, siis kasutatakse sisendina faili Eclipse analüütiline vahend.
- Loo esemeid, mida nõuavad rakenduse näiteks. moodulid, skripte, kasutaja määratud sõnaraamatute ja nii edasi.
- Nüüd testida oma koodi vastu näidisdokumente sisendi põhjal laekumine. Sisseehitatud funktsioonid nagu annotatsioon maadeavastaja ja samamoodi pane kasutatakse kontrollida tulemusi. See katse tuleb läbi viia korduvalt.
Step 3 - Avaldada ja kasutada - Rakendus on valmis kasutusele võetava ja avaldatakse pärast oleme tulemustega rahul, mis on toodetud teksti eemaldi. Tavaliselt on avaldatud taotluse kataloogi klastri. Selleks, et kasutada avaldatud taotluse me kasutame BigInsights veebi konsooli. Me peaksime kasutama login mis on administraatori.
Step 4 - Käivita teksti eemaldi - Pärast rakendades teksti eemaldi edukalt, nüüd on aeg selle täitmise. Nagu me teame BigInsights on võime tugineda teksti kaevandajad kasutades Java API abiga Jaql ja Bigsheets. Ära kasutades Bigsheets on, et ei ole veel kodeerimine või skriptimine siin vajalik. Iga ärianalüütik võib kuluda kuni selle ülesande.

views:

Ei ole midagi erilist AQL vaated. Need on sarnane standard seisukohti relatsioonandmebaasis. Iga AQL arvates on nimi, ja koosneb ridade ja veergude. aastal AQL, seisukohad on alati teoks. Kõik AQL avaldused tegutseda vaated. Siin me oleme üks eriline vaade nimega Dokumendi. Seda seisukohta on kaardistatud üks sisend dokumendi ajal oma kogust käivitamisel. See vaade on väga kasulik, et eraldada alagrupis saadud suure hulga andmete.

Summary: Tekst analüüsi keskmes on mis tahes analüüsi rakendus. Seega on väga oluline teada, tööriistu ja raamistikud arendamiseks vajalik teksti analüüsi rakendused. IBM Infosphere Biginsight on üks parimaid vahendeid teksti Analytics. Olgem kokku meie arutelu vormis järgmised täppe -

Tekst Analytics on võimas mehhanism, mida kasutatakse, et saada teavet struktureerimata andmete kogum.
Peamised komponendid teksti Analytics on -
- Sisend kollektsiooni formaadis
- Regulaarvaldis
- mitmekeelne tugi
- Annotatsioon Query Language või AQL
Major aspekte teksti Analytics on -
- deklaratiivne keel
- Vabalt sõnastikud
- Kasutaja määratletud reeglid
- jälgimine

Share on Facebook

Save

Tagged on: Analytics, Big andmed, Text Analytics

TechAlpine – All About Technology

www.techalpine.com