Sådan bruger IBM Annotation Query Language (AQL) at gøre tekstanalyse?

Oversigt: Tekst Analytics er en stærk mekanisme bruges til at udtrække strukturerede data fra ustrukturerede eller semi struktureret tekst. Dette gøres ved at skabe regler. Disse regler anvendes af de ekstraktionsmidler programmer til at udtrække de relevante oplysninger.

I denne artikel vil vi tale om det Annotation Query language or AQL som anvendes til tekstanalyse.

Indledning: IBM InfoSphere er en platform, der anvendes til at analysere de forretningsmæssige indsigt inden for en enorm mængde data, som er af bred vifte. Normalt disse typer data ignoreres, fordi det bliver næsten umuligt at gennemføre en sådan mængde data ved hjælp af traditionelle DBMS eller RDBMS værktøjer. Annotation query sprog eller AQL er en forespørgsel sprog, der anvendes i IBM InfoSphere som en komponent til at bygge udsugningsanlæg, som kan udtrække struktureret information fra ustrukturerede eller semi struktureret indhold.

Komponenter i Tekst Analytics:

Input indsamling formater - Input samling er enten et dokument eller et sæt af dokumenter, der bruges som input tekst fra hvor vi skal udtrække oplysninger. Normalt et input samling skal være en af følgende formater -
- UTF-8-kodet tekstfil, der har en af følgende extensions -
  - .txt
  - .htm eller .html eller .xhtml
  - .xml
- En mappe, der indeholder UTF-8-kodede tekstfiler.
- En arkivfil med følgende udvidelser, der indeholder UTF-8-kodet tekstfiler -
  - .tjære
  - .zip
  - .gz
- UTF-8-kodet kommasepareret fil.
- En almindelig JSON fil.
Regulært udtryk – Regulære udtryk er mest brugt til tekst søgning mekanisme. Vi kan bruge regulære udtryk bygherrer, som anvendes til at konstruere regulære udtryk og sub udtryk.
Flersproget Support - Tekst analytics komponenter understøtter de mest almindelige sprog, som anvendes til skriftlig kommunikation. Tekst analytics er baseret på to store teknikker - tokenization og dele af tale.
Mønstre - Opdagelsen mønster har grupper input sammenhænge, der ligner eller har et fælles mønster.
Annotation Query Language eller AQL - AQL er det primære sprog, der anvendes til tekstanalyse. Dette bruges til at bygge udsugningsanlæg som derefter bruges til at udtrække relevante oplysninger fra ustrukturerede tekstuelle komponenter. Dette er mere som SQL sprog.

Aspekter af Tekst Analytics:

Deklarativ sprog - En deklarative sprog bruges til at identificere og udtrække tekstinformation fra eksisterende tekst indhold. Annotation Query Language eller AQL kan vi har vores egne samlinger af optegnelser or visninger der matcher en specificeret regel. Disse synspunkter er det vigtigste resultat af en AQL emhætte. Views bruges til at vise rapport om IBM Bigsheets. IBM Bigsheet er den indbyggede rapportering og instrumentbræt komponent i IBM InfoSphere Biginsight platform.
Brugerdefinerede ordbøger - Ordbog har evnen til at identificere bestemte tekst fra et input tekst til at udtrække de forretningsmæssige indsigt. I AQL kan vi have vores tilpassede ordbog, som vil være nyttigt at få det ønskede resultat på en effektiv måde.
Brugerdefinerede regler - Med hjælp af mønstre og regulære udtryk kan vi angive regler eller mekanisme, ved hjælp af hvilke vi kan adskille data fra et stort sæt af data.

Lad os overveje følgende eksempel - vi kan nævne nogle nøgleord, som måske eller måske ikke forekommer inden for et givet interval af hinanden. E.g. overveje de tre ord - "Apple", "Mac" og "Steve". Hvis alle disse ord forekommer inden for et defineret område bliver det tydeligt, at vi taler om Apple-computere, som blev grundlagt af Steve Jobs og Mac bruges som operativsystemet her. Men hvis ordet "Waugh" vises lige efter ordet "Steve" og de andre to nøgleord - "Apple" og "Mac" ikke er til stede, så bliver det klart, at vi taler om den berømte australske cricketspiller - Steve Waugh.

Tracking - Processen med tekst analyse er en iterativ proces. Det bliver nødvendigt at ændre de regler og andre brugerdefinerede ordbøger baseret på resultaterne, hvad vi får ud af de eksisterende regler.

Tekst Analytics Process:

Den tekstanalyse fremgangsmåden udføres i følgende fire trin -

Step 1 - Indsamling og klargøring sample data - Enhver ansøgning baseret på tekstanalyse er udviklet ved hjælp af nogle eksempler på data. Denne prøve er oprettet data ved at have en delmængde af den større data, som vi har samlet. Afhængig af formatet af vores input data, vi nødt til at forberede et eller flere formater af data, som er støttet af BigInsights. I eksemplet ovenfor nævnte vi ser for input søgeord - "Apple", "Mac" og "Steve". Disse input parametre hjælper programmet til at indsamle data fra de hjemmesider, som har disse søgeord nævnt.
Step 2 - Udvikling af teksten emhætte og teste samme – BigInsights plugins er tilgængelige for de mest almindeligt anvendte Java IDE - Eclipse. Brug af Eclipse baserede guider vi kan nemt udvikle teksten aftrækkere og teste dem. De BigInsights informationscenter har alle de oplysninger på forudsætning software, som er nødvendig for at udvikle teksten udsugningsanlæg. På et bredt niveau, følgende trin skal udføres for at skabe en tekst emhætte på solformørkelse, når BigInsights plugin er installeret med succes -
- Opret et nyt BigInsights projekt.
- Importer prøven data, der kræves til test. De eksempeldata i vores eksempel er typisk i en JSON-array format. For vores test formål Lad os bruge Bigsheets eksport facilitet til at eksportere nogle poster (omkring 10000) af data i en CSV-fil. Så kører vi Jaql script. Dette script konverterer CSV-filen i en passende afgrænset filformat, som kan læses af BigInsights. Denne nye fil anvendes derefter som input fil til formørkelsen analytisk redskab.
- Opret artefakter, der er nødvendige ved anvendelse f.eks. moduler, scripts, brugerdefinerede ordbøger og så videre.
- Nu teste din kode mod eksempeldokumenter de baseret på input samling forudsat. Den indbyggede funktioner som annotation opdagelsesrejsende og ruden log anvendes til at inspicere resultaterne. Denne test skal udføres iterativt.
Step 3 - Offentliggørelse og implementere - Ansøgningen er klar til at blive indsat, og offentliggøres, når vi er tilfredse med de resultater, som er produceret af teksten emhætte. Normalt er det offentliggjort i anvendelsen katalog over en klynge. For at implementere den offentliggjorte ansøgning bruger vi BigInsights webkonsol. Vi skal bruge et login-id, som har de administrative rettigheder.
Step 4 - Kør tekst emhætte - Efter implementering af teksten emhætte med succes, det er nu tid til at udføre det. Som vi ved BigInsights har evnen til at påberåbe sig teksten udsugningsanlæg ved hjælp af Java API med hjælp fra Jaql og Bigsheets. Fordelen ved at anvende Bigsheets er, at der er ingen yderligere kodning eller scripting kræves her. Enhver Business Analyst kan tage op denne opgave.

Views:

Der er ikke noget særligt om AQL visninger. Disse svarer til standard visninger i en relationsdatabase. Hver AQL view har et navn, og består af rækker og kolonner. i AQL, synspunkter er altid materialiseret. Alle AQL udsagn operere på udsigt. Her har vi en speciel udsigt kaldet Dokument. Dette synspunkt er kortlagt til en indgang dokument på det tidspunkt fra din samling ved runtime. Denne visning er meget nyttigt at ekstrahere delmængde fra den store datasæt.

Summary: Tekst analytics er kernen i enhver analytics ansøgning. Så det er meget vigtigt at lære de værktøjer og rammer, der er nødvendige for at udvikle tekst analytics applikationer. IBM InfoSphere Biginsight er en af de bedste værktøjer til rådighed for tekstanalyse. Lad os opsummere vores diskussion i form af følgende kugler -

Tekst analytics er en stærk mekanisme bruges til at udtrække information fra ustrukturerede datasæt.
Større dele af tekstanalyse er -
- Input Collection format
- Regulært udtryk
- flersproget support
- Annotation Query Language eller AQL
Større aspekter af tekstanalyse er -
- deklarativ sprog
- Brugerdefinerede ordbøger
- Brugerdefinerede regler
- Sporing

Share on Facebook

Save

Tagged on: Analytics, Big Data, Tekst Analytics

TechAlpine – All About Technology

www.techalpine.com