How to use IBM Annotation Query Language (AQL) to do text analytics?

Übersicht: Text Analytics ist ein leistungsstarker Mechanismus verwendet, um strukturierte Daten aus unstrukturierten oder halb strukturierten Text extrahieren. Dies wird durch die Schaffung von Regeln getan. Diese Regeln werden durch die Extraktion Programme verwendet, um die relevanten Informationen zu extrahieren.

In diesem Artikel werden wir über die reden Annotation Query language or AQL die für die Textanalyse verwendet wird,.

Einführung: IBM Infosphere ist eine Plattform verwendet, um die Business Insights innerhalb eines großen Datenmengen zu analysieren, die von diversifizierten Bereich. Normalerweise werden diese Datentypen ignoriert werden, weil es fast unmöglich wird, eine solche Menge von Daten zu verarbeiten, die traditionellen DBMS oder RDBMS-Tools. Annotation-Abfragesprache oder AQL ist eine Abfragesprache in IBM InfoSphere als Komponente verwendet Extraktoren zu bauen, die strukturierte Informationen aus unstrukturierten oder semi-strukturierten Inhalt extrahieren.

Komponenten von Text Analytics:

Eingangs Sammlung Formate - Input Sammlung ist entweder ein Dokument oder ein Satz von Dokumenten, die als Eingabetext verwendet wird, aus dem wir sollen die Informationen zu extrahieren,. Üblicherweise wird eine Eingangs Sammlung muss eine der folgenden Formate vorliegen -
- UTF-8 kodierten Textdatei mit einer der folgenden Erweiterungen aufweisen -
  - .txt
  - .htm oder .html oder .xhtml
  - .xml
- Ein Verzeichnis, UTF-8 kodierten Textdateien mit.
- Eine Archivdatei mit den folgenden Erweiterungen, die UTF-8-kodierte Textdateien enthält -
  - .Teer
  - .Reißverschluss
  - .gz
- UTF-8 durch Komma getrennte Datei kodiert.
- Eine einfache JSON-Datei.
Regulären Ausdruck – Reguläre Ausdrücke werden am häufigsten für die Textsuche Mechanismus verwendet. Wir können reguläre Ausdrücke Builder verwenden, die verwendet werden reguläre Ausdrücke und Unterausdrücke zu konstruieren.
Mehrsprachiger Support - Textanalyse-Komponenten hat die Unterstützung für die gängigsten Sprachen, die für die schriftliche Kommunikation verwendet werden. Textanalyse basiert auf zwei Haupttechniken - tokenization und Teile der Rede.
Patterns - Die Mustererkennungsfunktion Gruppen Eingabekontexte, die ähnlich sind oder ein gemeinsames Muster.
Annotation Query Language oder AQL - AQL ist die primäre Sprache für die Textanalyse verwendet. Dies wird verwendet, Extraktoren zu bauen, die dann verwendet werden, relevante Informationen aus unstrukturierten Textkomponenten zu extrahieren,. Dies ist mehr wie SQL-Sprache.

Aspekte der Textanalyse:

Deklarative Sprache - Eine deklarative Sprache wird verwendet, um zu identifizieren und Textinformationen aus vorhandenen Textinhalt extrahieren. Annotation Query Language oder AQL ermöglicht es uns, unsere eigenen Sammlungen zu haben, Aufzeichnungen or Ansichten das entspricht einer festgelegten Regel. Diese Ansichten sind die Hauptausgang jeder AQL-Extraktor. Ansichten werden verwendet, Bericht anzuzeigen auf IBM Bigsheets. IBM Bigsheet ist die integrierte Reporting- und Dashboard-Komponente von IBM Infosphere Biginsight Plattform.
Benutzerdefinierte Wörterbücher - Wörterbuch hat die Fähigkeit, bestimmte Text aus einem Eingabetext zu identifizieren, die Einblicke in Geschäftsprozesse zu extrahieren. In AQL können wir unsere maßgeschneiderten Wörterbuch haben, die hilfreich sein wird, das gewünschte Ergebnis auf eine effiziente Art und Weise zu erhalten.
Benutzerdefinierte Regeln - Mit Hilfe von Mustern und regulären Ausdrücken können wir Regeln oder einen Mechanismus festlegen, mit denen wir die Daten aus einer großen Menge von Daten trennen kann.

Lassen Sie uns das folgende Beispiel betrachten - wir können bestimmte Schlüsselwörter nennen, die innerhalb eines bestimmten Bereichs eines erscheinen andere kann oder auch nicht. E.g. betrachten die drei Worte - "Apple", "Mac" und "Steve". Wenn alle diese Wörter innerhalb eines definierten Bereichs erscheinen wird deutlich, dass wir über Apple Computer sprechen, die von Steve Jobs und Mac gegründet wurde, wird als Betriebssystem verwendet hier. Aber wenn das Wort "Waugh" erscheint direkt nach dem Wort "Steve" und die beiden anderen Schlüsselworte - "Apple" und "Mac" sind nicht vorhanden, dann wird deutlich, dass wir über die berühmte australische Kricketspieler sprechen - Steve Waugh.

Verfolgung - Der Prozess der Textanalyse ist ein iterativer Prozess. Es wird notwendig, die Regeln und anderen benutzerdefinierten Wörter auf der Grundlage der Ergebnisse zu ändern, was wir aus den bestehenden Regeln bekommen.

Text Analytics-Prozess:

Die Textanalyse-Verfahren wird in den folgenden vier Schritten durchgeführt -

Step 1 - Sammeln und Beispieldaten vorbereitet - Jede Anwendung auf Basis von Textanalyse wird mit der Hilfe einiger Beispieldaten entwickelt. Diese Stichprobendaten wird erreicht, indem eine Teilmenge des größeren Daten erzeugt, die wir erfasst haben. In Abhängigkeit von dem Format unserer Eingangsdaten benötigen wir ein oder mehrere Formate von Daten zu erstellen, das von BigInsights unterstützt wird. Im Beispiel oben erwähnten wir für die Eingangs Schlüsselwörter zu finden - "Apple", "Mac" und "Steve". Diese Eingabeparameter helfen, die Anwendungsdaten von den Websites zu sammeln, die diese Keywords haben erwähnt.
Step 2 - Die Entwicklung des Textextraktor und testen Sie die gleiche – BigInsights Plugins sind für die am häufigsten verwendeten Java-IDE verfügbar - Eclipse-. Unter Verwendung der Eclipse-basierte Wizards können wir leicht die Text Extraktoren entwickeln und testen. Die BigInsights Informationszentrum hat alle Informationen über die vorausgesetzte Software, die erforderlich ist, um die Text-Extraktoren entwickeln. Auf breiter Ebene, muss die folgenden Schritte durchgeführt werden, eine Textextraktor auf Eclipse zu erstellen, sobald die BigInsights Plugin erfolgreich installiert ist -
- Erstellen Sie ein neues Projekt BigInsights.
- Importieren Sie die Beispieldaten, die für die Prüfung erforderlich ist. Die Beispieldaten in unserem Beispiel ist in der Regel in einem JSON-Array-Format. Für unsere Testzwecke lassen Sie uns die Bigsheets Exportfunktion verwenden einige Datensätze zu exportieren (um 10000) von Daten in einer CSV-Datei. Dann führen wir die Jaql Skript. Dieses Skript wandelt die CSV-Datei in eine geeignete Dateiformat begrenzt, die durch BigInsights lesbar ist. Diese neue Datei wird dann als Eingabedatei in das Eclipse analytisches Werkzeug verwendet.
- Erstellen Sie die Artefakte, die von der Anwendung benötigt werden z. Module, Skripte, benutzerdefinierte Wörterbücher und so weiter.
- Jetzt Ihren Code gegen die Beispieldokumente testen auf der Grundlage der Eingangs Sammlung zur Verfügung gestellt. Die eingebaute Funktionen wie Annotation-Explorer und Logbereich werden verwendet, um die Ergebnisse zu überprüfen. Dieser Test sollte iterativ durchgeführt werden,.
Step 3 - Veröffentlichen und Bereitstellen von - Die Anwendung ist bereit zum Einsatz und veröffentlicht werden, wenn wir mit den Ergebnissen zufrieden sind, die durch den Textextraktor hergestellt wird. Normalerweise ist es in der Anwendungskatalog eines Clusters veröffentlicht. Um die veröffentlichte Anwendung bereitstellen verwenden wir die BigInsights Webkonsole. Wir sollten eine Login-ID verwenden, die die Administratorrechten.
Step 4 - Führen Sie den Textextraktor - Nach dem Bereitstellen des Textextraktor erfolgreich, es ist jetzt an der Zeit, sie auszuführen. Wie wir wissen, BigInsights hat die Fähigkeit, die Text-Extraktoren mit Java API mit Hilfe von Jaql und Bigsheets aufzurufen. Der Vorteil Bigsheets ist, dass keine zusätzliche Codierung oder scripting hier erforderlichen. Alle Business Analyst können diese Aufgabe übernehmen.

Ansichten:

Es ist nichts Besonderes AQL Ansichten. Diese sind ähnlich wie die Standardansichten in einer relationalen Datenbank,. Jede AQL Ansicht hat einen Namen, und besteht aus Zeilen und Spalten,. in AQL, Ansichten werden immer materialisiert. Alle AQL-Anweisungen ist auf Ansichten. Hier haben wir eine spezielle Ansicht genannt Dokument. Diese Ansicht wird in der Zeit von Ihrer Sammlung zur Laufzeit zu einem Eingabedokument abgebildet. Diese Ansicht ist sehr hilfreich, um die Teilmenge aus der großen Menge von Daten zu extrahieren.

Summary: Textanalyse ist das Herzstück jeder Analyseanwendung. So ist es sehr wichtig, die Werkzeuge und Frameworks zu lernen, erforderlich, um die Textanalyse-Anwendungen entwickeln. IBM Infosphere Biginsight ist eines der besten Tools für die Textanalyse. Lassen Sie uns unsere Diskussion in Form zusammenzufassen Kugeln von folgenden -

Textanalyse ist ein leistungsfähiger Mechanismus zur Extraktion von Informationen aus unstrukturierten Satz von Daten verwendet.
Wichtige Komponenten der Textanalyse sind -
- Eingangs Sammlung Format
- Regulären Ausdruck
- Unterstützung für mehrere Sprachen
- Annotation Query Language oder AQL
Major aspects of text analytics are –
- Declarative language
- User defined dictionaries
- User defined rules
- Tracking

Share on Facebook

Save

Stichworte:Analytics, Big Data, Text Analytics

TechAlpine – All About Technology

www.techalpine.com