Comment utiliser IBM Annotation Query Language (AQL) à faire l'analyse de texte?

Vue d'ensemble: Text Analytics est un puissant mécanisme utilisé pour extraire des données structurées de texte non structuré ou semi structuré. Ceci est réalisé en créant des règles. Ces règles sont utilisées par les programmes d'extraction pour extraire les informations pertinentes.

Dans cet article, nous allons parler de la Annotation Query language or AQL qui est utilisé pour l'analyse de texte.

Présentation: IBM InfoSphere est une plate-forme utilisée pour analyser les perspectives d'affaires dans un grand volume de données qui est de la gamme diversifiée. Habituellement, ces types de données sont ignorées car il devient presque impossible de traiter un tel volume de données en utilisant les SGBD traditionnels ou des outils de SGBDR. Annotation langage de requête ou AQL est un langage de requête utilisé dans IBM InfoSphere comme composant pour construire des extracteurs qui peuvent extraire des informations structurées à partir des contenus non structurés ou semi structurés.

Composants de Text Analytics:

formats de collecte d'entrée - collection d'entrée est soit un document ou un ensemble de documents qui est utilisé comme un texte d'entrée d'où nous sommes censés extraire l'information. Habituellement, une collection d'entrée doit être l'un des formats suivants -
- fichier texte UTF-8 présentant l'une des extensions suivantes -
  - .SMS
  - .htm ou .html ou .xhtml
  - .xml
- Un répertoire contenant UTF-8 des fichiers texte encodés.
- Un fichier archive avec les extensions suivantes, qui contient des fichiers texte UTF-8 codé -
  - .le goudron
  - .Zip *: français
  - .gz
- UTF-8 codé fichier séparé par des virgules.
- Un simple fichier JSON.
Expression régulière – Les expressions régulières sont les plus couramment utilisés pour le mécanisme de recherche de texte. Nous pouvons utiliser des générateurs d'expressions régulières qui sont utilisés pour construire des expressions régulières et les expressions sous.
Soutien multilingue - composants d'analyse de texte a le soutien pour les langues les plus courantes qui sont utilisées pour les communications écrites. Text Analytics repose sur deux techniques principales - tokenization et parties du discours.
Patterns - Les contextes d'entrée des groupes de caractéristiques de découverte de motif qui sont similaires ou qui ont un modèle commun.
Annotation Query Language ou AQL - AQL est la langue principale utilisée pour l'analyse de texte. Ceci est utilisé pour construire des extracteurs qui sont ensuite utilisés pour extraire des informations pertinentes à partir des composantes textuelles non structurées. Ceci est plus comme le langage SQL.

Aspects de Text Analytics:

langue déclarative - Un langage déclaratif est utilisé pour identifier et extraire des informations textuelles à partir du contenu de texte existant. Annotation Query Language ou AQL nous permet d'avoir nos propres collections de Enregistrements or vues qui correspond à une règle spécifiée. Ces points de vue sont la sortie principale de tout extracteur AQL. Les vues sont utilisées pour afficher le rapport sur IBM Bigsheets. IBM Bigsheet est le composant de reporting et tableau de bord intégré de la plate-forme IBM InfoSphere Biginsight.
Définis par l'utilisateur dictionnaires - Dictionnaire a la capacité d'identifier un certain texte à partir d'un texte d'entrée pour extraire les idées d'affaires. En AQL nous pouvons avoir notre dictionnaire personnalisé qui sera utile pour obtenir le résultat souhaité d'une manière efficace.
Utilisateur défini des règles - Avec l'aide des modèles et des expressions régulières, nous pouvons définir des règles ou des mécanismes à l'aide que nous pouvons séparer les données d'un grand ensemble de données.

Prenons l'exemple suivant - nous pouvons citer certains mots-clés qui peuvent ou peuvent ne pas apparaître dans une plage donnée d'une autre. E.g. considérer les trois mots - "Apple", "Mac" et "Steve". Si tous ces mots apparaissent dans une plage définie, il devient évident que nous parlons d'ordinateurs Apple qui a été fondée par Steve Jobs et Mac est utilisé comme système d'exploitation ici. Mais si le mot "Waugh" apparaît juste après le mot «Steve» et les deux autres mots clés - "Apple" et "Mac" ne sont pas présents, alors il devient clair que nous parlons de la célèbre joueur de cricket australien - Steve Waugh.

Suivi - Le processus d'analyse de texte est un processus itératif. Il devient nécessaire de modifier les règles et d'autres dictionnaires définis par l'utilisateur en fonction des résultats que nous obtenons sur les règles existantes.

Texte Process Analytics:

Le processus d'analyse de texte est effectuée dans les quatre étapes suivantes -

Step 1 - La collecte et la préparation des données de l'échantillon - Toute application basée sur l'analyse de texte est développé avec l'aide de certaines données de l'échantillon. Ces données de l'échantillon est créé en ayant un sous-ensemble de la plus grande des données que nous avons recueillies. Selon le format de nos données d'entrée dont nous avons besoin pour préparer un ou plusieurs formats de données qui est pris en charge par BigInsights. Dans l'exemple mentionné ci-dessus, nous cherchons les mots-clés d'entrée - "Apple", "Mac" et "Steve". Ces paramètres d'entrée permettent l'application de recueillir des données à partir des sites Web qui ont ces mots-clés mentionnés.
Step 2 - Développer l'extracteur de texte et tester le même – BigInsights Plugins sont disponibles pour le plus couramment utilisé IDE Java - Eclipse. En utilisant les assistants basés Eclipse, nous pouvons facilement développer les extracteurs de texte et de les tester. Le centre d'information BigInsights a toutes les informations sur le logiciel pré-requis qui est nécessaire pour développer les extracteurs de texte. Sur un plan large, les étapes suivantes doivent être effectuées pour créer un extracteur de texte sur éclipse, une fois que les BigInsights plug-in est installé avec succès -
- Créer un nouveau projet BigInsights.
- Importer les données de l'échantillon qui est nécessaire pour les tests. Les données d'échantillon dans notre exemple, est typiquement sous forme de tableau JSON. Pour notre objectif de test nous utilisons les installations d'exportation Bigsheets pour exporter certains enregistrements (autour 10000) des données dans un fichier CSV. Ensuite, nous courons le script Jaql. Ce script convertit le fichier CSV dans un format de fichier délimité approprié qui est lisible par BigInsights. Ce nouveau fichier est ensuite utilisé comme fichier d'entrée à l'outil d'analyse éclipse.
- Créez les artefacts qui sont requis par l'application e.g. modules, scripts, défini par l'utilisateur des dictionnaires, etc..
- Maintenant, testez votre code contre les exemples de documents basés sur la collecte d'entrée fourni. La construction dans des fonctions comme l'explorateur d'annotation et le volet du journal sont utilisés pour inspecter les résultats. Ce test doit être effectué de manière itérative.
Step 3 - Publier et déployer - L'application est prête à être déployée et publiée lorsque nous sommes satisfaits des résultats qui est produit par l'extracteur de texte. Habituellement, il est publié dans le catalogue d'un cluster d'applications. Afin de déployer l'application publiée, nous utilisons la console BigInsights web. Nous devrions utiliser un identifiant de connexion qui a les privilèges d'administration.
Step 4 - Exécutez l'extracteur de texte - Après avoir déployé l'extracteur de texte avec succès, il est maintenant temps pour l'exécuter. Comme nous le savons BigInsights a la capacité d'invoquer les extracteurs de texte en utilisant l'API Java avec l'aide de Jaql et Bigsheets. L'avantage d'utiliser Bigsheets est qu'il n'y a pas de codage ou de script supplémentaire requis ici. Tout analyste d'affaires peut prendre cette tâche.

Vues:

Il n'y a rien de spécial au sujet des vues AQL. Ceux-ci sont semblables aux vues standard dans une base de données relationnelle. Chaque vue AQL a un nom, et se compose de rangées et de colonnes. en AQL, vues sont toujours matérialisées. Toutes les déclarations AQL fonctionnent sur des vues. Ici, nous avons un point de vue spécial appelé document. Ce point de vue est mappé sur un document d'entrée au moment de votre collection lors de l'exécution. Ce point de vue est très utile pour extraire le sous-ensemble du grand ensemble de données.

Summary: Text Analytics est au cœur de toute demande d'analyse. Il est donc très important d'apprendre les outils et les cadres nécessaires pour développer des applications texte d'analyse. IBM InfoSphere Biginsight est l'un des meilleurs outils disponibles pour l'analyse de texte. Résumons notre discussion sous forme de balles suivant -

analyse de texte est un mécanisme puissant utilisé pour extraire des informations de jeu non structuré de données.
Les principaux éléments de l'analyse de texte sont -
- format Collection d'entrée
- Expression régulière
- Prise en charge multilingue
- Annotation Query Language ou AQL
Les principaux aspects de l'analyse de texte sont -
- langue déclarative
- dictionnaires définis par l'utilisateur
- règles définies par l'utilisateur
- suivi

Share on Facebook

Save

Tagged on: Analytique, Big Data, Text Analytics

TechAlpine – All About Technology

www.techalpine.com