Hoe om IBM Annotation Query Language gebruik (AQL) teks analise te doen?

Oorsig: Teks Analytics is 'n kragtige meganisme wat gebruik word om gestruktureerde data van ongestruktureerde of semi gestruktureerde teks uittreksel. Dit word gedoen deur die skep van reëls. Hierdie reëls word deur die onttrekking programme om die relevante inligting te onttrek.

In hierdie artikel sal ons praat oor die 'Nnnotation Query language or AQL wat gebruik word vir die teks analytics.

Inleiding: IBM Infosphere is 'n platform gebruik om die besigheid insigte binne 'n groot volume van data wat van gediversifiseerde reeks ontleed. Gewoonlik hierdie soort data is geïgnoreer omdat dit byna onmoontlik raak om so 'n volume van data met behulp van die tradisionele DBMS of RDBMS gereedskap te verwerk. Body navraag taal of AQL is 'n navraag taal wat gebruik word in IBM InfoSphere as 'n komponent om trekkers wat gestruktureerde inligting uit ongestruktureerde of semi gestruktureerde inhoud kan onttrek bou.

Komponente van die teks Analytics:

Insette versameling formate - Insette versameling is óf 'n dokument of 'n stel van dokumente wat gebruik word as 'n inset teks vanwaar ons veronderstel is om die inligting te onttrek. Gewoonlik 'n inset versameling moet een van die volgende formate wees -
- UTF-8 geïnkripteer teks lêer met enige van die volgende uitbreidings -
  - .txt
  - .htm of html of Xhtml
  - .xml
- 'N gids met UTF-8 geïnkripteer teks lêers.
- 'N argief-lêer met die volgende uitbreidings wat UTF-8 geïnkripteer teks lêers bevat -
  - .teer
  - .ritssluiter
  - .GZ
- UTF-8 geënkodeer deur kommas geskei lêer.
- 'N eenvoudige into lêer.
regular expression – Gereelde uitdrukkings word mees algemeen gebruik word vir die soektog teks meganisme. Ons kan gewone uitdrukking bouers wat gebruik word om gereelde uitdrukkings en sub uitdrukkings te bou gebruik.
Veeltalige Ondersteuning - Teks analytics komponente het ondersteuning vir die mees algemene tale wat gebruik word vir skriftelike kommunikasie. Teks analise is gebaseer op twee belangrike tegnieke - tokenization en dele van spraak.
patrone - Die patroon ontdekking funksie groepe insette kontekste wat soortgelyk is of 'n algemene patroon.
Body Query Language of AQL - AQL is die primêre taal wat gebruik word vir die teks analytics. Dit word gebruik om trekkers wat dan gebruik word om relevante inligting uit ongestruktureerde tekstuele komponente onttrek bou. Dit is meer soos SQL taal.

Aspekte van die teks Analytics:

Verklarende taal - A verklarende taal gebruik word om te identifiseer en tekstuele inligting uit bestaande teks inhoud te onttrek. Body Query Language of AQL stel ons in staat om ons eie versamelings het rekords or uitsig wat ooreenstem met 'n bepaalde reël. Hierdie standpunte is die belangrikste uitvoer van enige AQL extractor. Views gebruik word om verslag te sien IBM Bigsheets. IBM Bigsheet is die ingeboude rapportering en paneelbord komponent van IBM Infosphere Biginsight platform.
Gebruiker gedefinieerde woordeboeke - Woordeboek het die vermoë om sekere teks te identifiseer uit 'n inset teks om die besigheid insigte te onttrek. In AQL kan ons ons persoonlike woordeboek wat nuttig sal wees om die gewenste resultaat op 'n doeltreffende wyse te kry.
Gebruiker gedefinieerde reëls - Met die hulp van patrone en reëlmatige uitdrukkings kan ons reëls of meganisme met behulp waarvan ons die data kan skei van 'n groot versameling van data spesifiseer.

Kom ons kyk na die volgende voorbeeld - Ons kan sekere sleutelwoorde wat mag of nie mag binne 'n gegewe reeks mekaar nie verskyn noem. E.g. kyk na die drie woorde - "Apple", "Mac" en "Steve". As al hierdie woorde verskyn binne 'n gedefinieerde reeks word dit duidelik dat ons praat oor Apple rekenaars wat gestig is deur Steve Jobs en Mac word gebruik as die bedryfstelsel hier. Maar as die woord verskyn "Waugh" direk na die woord "Steve" en die ander twee kernwoorde - "Apple" en "Mac" is nie teenwoordig, dan word dit duidelik dat ons praat oor die beroemde Australiese krieketspeler - Steve Waugh.

dop - Die proses van teksanalise is 'n iteratiewe proses. Dit word wat nodig is om die reëls en ander gebruiker-gedefinieerde woordeboeke gebaseer op die resultate wat ons kry uit die bestaande reëls te verander.

Teks Analytics Proses:

Die teks analise proses word in die volgende vier stappe gedoen -

Step 1 - Die insameling en voorbereiding steekproefdata - Enige aansoek wat gebaseer is op die teks analise ontwikkel met die hulp van 'n paar voorbeelde data. Dit voorbeeld van die data is geskep deur 'n subset van die groter data wat ons versamel. Afhangende van die formaat van ons insette data wat ons nodig het om een of verskeie formate van data wat ondersteun word deur BigInsights berei. In die voorbeeld hierbo genoem ons kyk vir die insette sleutelwoorde - "Apple", "Mac" en "Steve". Hierdie insette parameters help om die aansoek om data van die webwerwe wat hierdie dokumente genoem het in te samel.
Step 2 - Die ontwikkeling van die teks extractor en dieselfde toets – BigInsights proppe is beskikbaar vir die mees gebruikte Java IDE - Eclipse. Die gebruik van die Eclipse gebaseer towenaars ons kan maklik die ontwikkeling van die teks trekkers en toets hulle. Die BigInsights inligtingsentrum het al die inligting op die voorvereiste sagteware wat nodig is om die teks trekkers te ontwikkel. Op 'n breë vlak, die volgende stappe moet uitgevoer word om 'n teks extractor op verduistering te skep, Sodra die BigInsights plugin is suksesvol geïnstalleer -
- Skep 'n nuwe BigInsights projek.
- Voer die voorbeeld van die data wat nodig is vir die toets. Die voorbeeld van die data in ons voorbeeld is tipies in 'n into verskeidenheid formaat. Vir ons toets doel laat ons die Bigsheets uitvoer fasiliteit gebruik om 'n paar rekords te voer (rondom 10000) van data in 'n CSV-lêer. Toe hardloop ons die Jaql script. Dit script vat die CSV in 'n toepaslike geskei lêer formaat wat leesbaar is deur BigInsights. Hierdie nuwe lêer word dan gebruik as insette lêer om die verduistering analitiese instrument.
- Skep die artefakte wat vereis word deur die toepassing Bv. modules, skrifte, gebruiker gedefinieerde woordeboeke en so aan.
- Toets nou jou kode teen die monster dokumente wat gebaseer is op die insette versameling voorsien. Die gebou in funksies soos body Explorer en die paneel log word gebruik om die resultate te inspekteer. Hierdie toets moet uit iteratief gedoen word.
Step 3 - Publiseer en ontplooi - Die aansoek is gereed om ontplooi en gepubliseer as ons is tevrede met die resultate wat geproduseer word deur die teks Extractor. Gewoonlik is dit gepubliseer word in die aansoek katalogus van 'n groep. Met die oog op die gepubliseerde aansoek ontplooi gebruik ons die BigInsights web konsole. Ons moet 'n inskrywing id wat die administratiewe voorregte het gebruik.
Step 4 - Begin die teks Extractor - Na die implementering van die teks extractor suksesvol, Dit is nou die tyd om dit uit te voer. Soos ons weet BigInsights het die vermoë om die teks trekkers te roep met behulp van Java API met die hulp van Jaql en Bigsheets. Die voordeel van die gebruik Bigsheets is dat daar geen addisionele kodering of script hier nodig. Enige Business Analyst kan tot hierdie taak.

views:

Daar is niks spesiaal aan standpunte AQL. Dit is soortgelyk aan die standaard sienings in 'n relasionele databasis. Elke AQL oog het 'n naam, en bestaan uit rye en kolomme. in AQL, menings is altyd bewaarheid. Al die AQL state bedryf op sienings. Hier het ons 'n spesiale vertoning genaamd Document. Hierdie siening word gekarteer om een insette dokument ten tyde van jou versameling tydens looptyd. Hierdie siening is baie nuttig om die subset uittreksel uit die groot versameling van data.

Summary: Teks analise is in die hart van 'n analise aansoek. Daarom is dit baie belangrik om die gereedskap en raamwerke wat nodig is om die teks analise programme te ontwikkel leer. IBM Infosphere Biginsight is een van die beste gereedskap wat beskikbaar is vir die teks analytics. Kom ons som ons bespreking in die vorm van volgende koeëls -

Teks analise is 'n kragtige meganisme wat gebruik word om inligting uit ongestruktureerde stel data te onttrek.
Groot dele van die teks analise is -
- Insette Versameling formaat
- Gereelde uitdrukking
- veeltalige ondersteuning
- Body Query Language of AQL
Die belangrikste aspekte van die teks analise is -
- verklarende taal
- Gebruiker gedefinieerde woordeboeke
- Gebruiker gedefinieerde reëls
- dop

Share on Facebook

Save

Tagged on: Analytics, Big Data, Text Analytics

TechAlpine – All About Technology

www.techalpine.com