Hoe wordt IBM annotatie Query Language gebruiken (AQL) om tekst analytics doen?

Overzicht: Text Analytics is een krachtig mechanisme dat wordt gebruikt om gestructureerde gegevens uit ongestructureerde of semi gestructureerde tekst te extraheren. Dit wordt gedaan door het maken van regels. Deze regels worden door de extractie programma om de relevante informatie te extraheren.

In dit artikel zullen we praten over de Eennnotation Query laal or AQL die wordt gebruikt voor tekst analytics.

Introductie: IBM Infosphere is een platform gebruikt om de zakelijke inzichten binnen een enorme hoeveelheid gegevens die van gediversifieerd aanbod te analyseren. Meestal zijn deze soorten gegevens worden genegeerd omdat het bijna onmogelijk wordt om een dergelijke hoeveelheid gegevens volgens de traditionele DBMS of RDBMS gereedschappen verwerken. Annotatie query-taal of AQL is een query taal die wordt gebruikt in IBM InfoSphere als een component voor het uittrekken van die gestructureerde informatie uit ongestructureerde of semi-gestructureerde content kan halen bouwen.

Onderdelen van Text Analytics:

Input collectie formaten - Input collectie is ofwel een document of een set documenten die wordt gebruikt als input tekst van waar we geacht worden om de informatie te extraheren. Meestal een ingang collectie moet een van de volgende formaten zijn -
- UTF-8 gecodeerde tekst bestand met een van de volgende extensies -
  - .tekst
  - .htm of .html of .xhtml
  - .xml
- Een map met UTF-8 gecodeerde tekstbestanden.
- Een archiefbestand met de volgende extensies die UTF-8 gecodeerde tekstbestanden bevat -
  - .teer
  - .ritssluiting
  - .gz
- UTF-8 gecodeerd door komma's gescheiden bestand.
- Een eenvoudige JSON-bestand.
Regular Expression – Reguliere expressies worden meestal gebruikt voor text search mechanisme. We kunnen reguliere expressie bouwers die worden gebruikt om reguliere expressies en sub uitdrukkingen te construeren gebruiken.
Meertalige ondersteuning - Tekst analytics componenten heeft ondersteuning voor de meest voorkomende talen die worden gebruikt voor schriftelijke communicatie. Text Analytics is gebaseerd op twee belangrijke technieken - tokenization en woordsoorten.
patronen - Het patroon discovery functie groepen ingang contexten die vergelijkbaar zijn dan wel een gemeenschappelijke patroon.
Annotatie Query Language of AQL - AQL is de belangrijkste taal die wordt gebruikt voor tekst analytics. Dit wordt gebruikt om het uittrekken van die vervolgens worden gebruikt om relevante informatie uit ongestructureerde tekstuele componenten te extraheren bouwen. Dit is meer als SQL-taal.

Aspecten van Text Analytics:

Declaratieve taal - Een declaratieve taal wordt gebruikt voor het identificeren en tekstuele informatie van bestaande inhoud van de tekst te extraheren. Annotatie Query Language of AQL stelt ons in staat om onze eigen collecties van hebben archief or uitzichten die overeenkomt met een opgegeven regel. Deze opvattingen zijn de belangrijkste uitgang van een AQL afzuigkap. Bekeken worden gebruikt om verslag over te geven IBM Bigsheets. IBM Bigsheet is de ingebouwde rapportage en dashboard component van IBM Infosphere Biginsight platform.
Door de gebruiker gedefinieerde woordenboeken - Woordenboek heeft de mogelijkheid om bepaalde tekst te identificeren van een input tekst aan de zakelijke inzichten te extraheren. In AQL kunnen we onze aangepaste woordenlijst die nuttig zijn om het gewenste resultaat op efficiënte wijze te krijgen.
De gebruiker gedefinieerde regels - Met de hulp van patronen en reguliere expressies kunnen we regels of mechanisme met behulp waarvan we de gegevens kunnen scheiden van een grote set van gegevens opgeven.

Laten we eens kijken naar het volgende voorbeeld - we kunnen bepaalde sleutelwoorden die al dan binnen een bepaald bereik van elkaar niet vergeten. E.g. rekening houden met de drie woorden - "Apple", "Mac" en "Steve". Als al deze woorden verschijnen binnen een bepaald bereik wordt het duidelijk dat we het hebben over Apple computers, die werd opgericht door Steve Jobs en Mac wordt gebruikt als het besturingssysteem hier. Maar als het woord verschijnt "Waugh" direct na het woord "Steve" en de andere twee belangrijke woorden - "Apple" en "Mac" niet aanwezig zijn, dan wordt het duidelijk dat we het hebben over de beroemde Australische cricketer - Steve Waugh.

Tracking - Het proces van tekstanalyse is een iteratief proces. Het wordt noodzakelijk om de regels en andere door de gebruiker gedefinieerde woordenboeken op basis van de resultaten wat we krijgen uit de bestaande regels te wijzigen.

Text Analytics Process:

De tekst analytics proces wordt uitgevoerd in de volgende vier stappen worden uitgevoerd -

Step 1 - Het verzamelen en voorbereiden van sample data - Elke applicatie op basis van tekstanalyse is ontwikkeld met de hulp van enkele sample data. Deze voorbeeldgegevens wordt door een deel van de grotere data die we hebben verzameld. Afhankelijk van het formaat van onze invoergegevens moeten wij één of meerdere formaten van data die wordt ondersteund door BigInsights bereiden. In het voorbeeld hierboven genoemde we kijken naar de input trefwoorden - "Apple", "Mac" en "Steve". Deze ingang parameters helpen het verzoek om gegevens van de websites die deze zoekwoorden vermeld moeten verzamelen.
Step 2 - Het ontwikkelen van de tekst afzuigkap en dezelfde test – BigInsights Plugins zijn beschikbaar voor de meest gebruikte Java IDE - Eclipse. Met behulp van de Eclipse-gebaseerde wizards kunnen we gemakkelijk de ontwikkeling van de tekst afzuigers en testen. De BigInsights informatie centrum heeft alle informatie over de pre-vereiste software die nodig is om de tekst extractors ontwikkelen. Op een breed niveau, de volgende stappen moeten worden uitgevoerd om een tekst afzuigkap op eclipse creëren, zodra de BigInsights plugin is met succes geïnstalleerd -
- Maak een nieuw project BigInsights.
- Importeren de voorbeeldgegevens die nodig is voor het testen. Het monster gegevens in ons voorbeeld is typisch in een JSON-array format. Voor onze testdoeleinden laat ons Bigsheets export faciliteit te gebruiken om een aantal records te exporteren (rond 10000) van de gegevens in een CSV-bestand. Dan lopen we het Jaql script. Dit script zet het CSV-bestand in een geschikte gescheiden bestandsformaat dat leesbaar is door BigInsights. Dit nieuw bestand wordt dan gebruikt als invoerbestand de eclips analytisch instrument.
- Maak de artefacten die worden vereist door de toepassing bijv. modules, scripts, gebruiker gedefinieerde woordenboeken enzovoorts.
- Test nu uw code tegen het monster documenten op basis van de input collectie voorzien. De ingebouwde functies, zoals annotatie ontdekkingsreiziger en het paneel 'log worden gebruikt om de resultaten te inspecteren. Deze test moet uitgevoerd iteratief worden uitgevoerd.
Step 3 - Publiceren en implementeren - De applicatie is klaar om te worden ingezet en gepubliceerd als we zijn tevreden met de resultaten, die wordt geproduceerd door de tekst afzuigkap. Meestal is gepubliceerd in de toepassing catalogus van een cluster. Om de gepubliceerde toepassing implementeren gebruiken we BigInsights webconsole. We moeten een login-id die de beheerdersrechten heeft gebruikt.
Step 4 - Voer de tekst afzuigkap - Na de implementatie van de tekst afzuigkap succes, Het is nu tijd om het uit te voeren. Zoals we weten BigInsights heeft de mogelijkheid om de tekst afzuigers te roepen met behulp van Java API met de hulp van Jaql en Bigsheets. Het voordeel van Bigsheets is dat er geen extra codering of scripting Hier moet. Elke Business Analyst kan duren deze taak.

Bekeken:

Er is niets bijzonders aan uitzicht AQL. Deze zijn vergelijkbaar met de standaardweergaven in een relationele database. Elke AQL view heeft een naam, en bestaat uit rijen en kolommen. in AQL, uitzichten zijn altijd gematerialiseerd. Alle AQL verklaringen werken op keer bekeken. Hier hebben we een bijzonder uitzicht genaamd Document. Deze visie wordt toegewezen aan een ingang document op het moment van uw collectie op runtime. Deze weergave is zeer nuttig om de subset te extraheren uit de grote verzameling van data.

Summary: Tekst analytics is in het hart van elke analytics applicatie. Het is dus zeer belangrijk om de tools en frameworks die nodig zijn om tekst analytics applicaties te ontwikkelen leren. IBM Infosphere Biginsight is een van de beste tools beschikbaar voor text analytics. Laat ons samen te vatten onze discussie in de vorm van volgende kogels -

Text Analytics is een krachtig mechanisme gebruikt om informatie uit ongestructureerde verzameling van gegevens te extraheren.
Belangrijke onderdelen van de tekst analytics zijn -
- Input Collection formaat
- reguliere expressie
- meertalige ondersteuning
- Annotatie Query Language of AQL
Belangrijke aspecten van de tekst analytics zijn -
- declaratieve taal
- Door de gebruiker gedefinieerde woordenboeken
- De gebruiker gedefinieerde regels
- Tracking

Share on Facebook

Save

Tagged on: Analytics, Big Data, Text Analytics

TechAlpine – All About Technology

www.techalpine.com