Com utilitzar IBM Anotació de llenguatge de consulta (NCA) fer anàlisi de text?

Visió de conjunt: Text Analytics és un mecanisme poderós utilitzat per extreure dades estructurades de text no estructurat o semi estructurada. Això es fa mitjançant la creació de normes. Aquestes regles són utilitzats pels programes d'extracció per extreure la informació rellevant.

En aquest article anem a parlar de la Lannotation Query language or NCA que s'utilitza per a l'anàlisi de text.

Introducció: IBM InfoSphere és una plataforma utilitzada per analitzar les perspectives de negoci dins d'un enorme volum de dades que és de gamma diversificada. En general, aquests tipus de dades s'ignoren perquè es converteix en gairebé impossible de processar un volum de dades utilitzant el DBMS tradicionals o eines com RDBMS. Anotació llenguatge de consulta o NCA és un llenguatge de consulta utilitzat en IBM InfoSphere com un component per construir extractors que pot extreure informació estructurada de continguts no estructurats o semi estructurada.

Components de Text Analytics:

formats de recol·lecció d'entrada - Col·lecció d'entrada és un document o un conjunt de documents que s'utilitza com un text d'entrada des d'on se suposa que hem d'extreure la informació. En general, una col·lecció d'entrada ha de ser un dels següents formats -
- arxiu de text UTF-8 codificat que tinguin qualsevol de les següents extensions -
  - .txt
  - .htm o html o .xhtml
  - .xml
- Un directori que conté 8 caràcters UTF-arxius de text codificats.
- Un arxiu històric amb les següents extensions que conté arxius de text codificat UTF-8 -
  - .quitrà
  - .cremallera
  - .gz
- Codificació UTF-8 arxiu separat per comes.
- Un arxiu JSON pla.
expressió regular – Les expressions regulars són els més utilitzats per al mecanisme de recerca de text. Podem utilitzar constructors d'expressions regulars que es fan servir per construir les expressions regulars i expressions sub.
Suport multilingüe - components d'anàlisi de text té suport per a llenguatges més comuns que s'utilitzen per a les comunicacions escrites. L'anàlisi de text es basa en dues tècniques principals - tokenització i parts de l'oració.
patrons - El patró de descobriment contextos grups d'entitats d'entrada que són similars o tenen un patró comú.
Llenguatge de Consulta anotació o NCA - NCA és l'idioma principal que s'utilitza per a l'anàlisi de text. Això s'utilitza per construir els extractors que després s'utilitzen per extreure informació rellevant dels components textuals no estructurats. Això és més com el llenguatge SQL.

Aspectes de Text Analytics:

llenguatge declaratiu - Un llenguatge declaratiu s'utilitza per identificar i extreure informació textual de contingut de text existent. Llenguatge de Consulta anotació o NCA ens permet tenir les nostres pròpies col·leccions de arxius or views que coincideix amb una regla especificada. Aquests punts de vista són la sortida principal de qualsevol extractor de NCA. Les vistes s'utilitzen per mostrar informe sobre IBM BigSheets. IBM Bigsheet és la presentació d'informes i el quadre de comandament component inherent de la plataforma IBM InfoSphere Biginsight.
diccionaris definits per l'usuari - Diccionari té la capacitat d'identificar un text determinat a partir d'un text d'entrada per extreure els punts de vista de negoci. En NCA podem tenir el nostre diccionari personalitzat que serà útil per aconseguir el resultat desitjat d'una manera eficient.
regles definides per l'usuari - Amb l'ajuda de patrons i expressions regulars podem especificar regles o mecanisme mitjançant el qual podem separar les dades d'un gran conjunt de dades.

Considerem el següent exemple - podem esmentar certes paraules clau que pot o no pot aparèixer dins d'un determinat rang d'un a l'altre. E.g. considerar les tres paraules - "Apple", "Mac" i "Steve". Si totes aquestes paraules apareixen dins d'un rang definit es fa evident que estem parlant dels ordinadors d'Apple, que va ser fundada per Steve Jobs i MAC s'utilitza com a sistema operatiu aquí. Però si apareix "Waugh" la paraula correcta després de la paraula "Steve" i les altres dues paraules clau - "Apple" i "Mac" no estan presents, a continuació, es fa evident que estem parlant de la famosa jugador de cricket australià - Steve Waugh.

rastreig - El procés d'anàlisi de text és un procés iteratiu. Es fa necessari modificar les normes i els altres diccionaris definits per l'usuari en base als resultats del que sortirem de les normes existents.

Text Analítica de Processos:

El procés d'anàlisi de text es porta a terme en els quatre passos següents -

Step 1 - Recol·lecció i preparació de dades de la mostra - Qualsevol aplicació basada en l'anàlisi de text es desenvolupa amb l'ajuda d'algunes dades de mostra. Aquestes dades de la mostra es crea per tenir un subconjunt de les dades més gran que hem recollit. Depenent del format de les nostres dades d'entrada que necessitem per preparar un o diversos formats de dades que és recolzat per BigInsights. En l'exemple esmentat anteriorment busquem les paraules clau d'entrada - "Apple", "Mac" i "Steve". Aquests paràmetres d'entrada ajuden a l'aplicació per recopilar dades dels llocs web que tenen aquestes paraules clau esmentats.
Step 2 - El desenvolupament de l'extractor de text i posar a prova la mateixa – BigInsights connectors estan disponibles per a l'IDE Java més utilitzada - Eclipsi. Amb els assistents basats Eclipse podem desenvolupar fàcilment els extractors de text i prova d'ells. El centre d'informació BigInsights té tota la informació sobre el programari pre-requisit que es requereix per desenvolupar els extractors de text. En un nivell més ampli, els següents passos ha de ser dut a terme per crear un extractor de text en Eclipse, una vegada que els BigInsights connector està instal·lat correctament -
- Crear un nou projecte BigInsights.
- Importa les dades de mostra que es requereix per a la prova. Les dades de la mostra en el nostre exemple és típicament en un format de matriu JSON. Per al nostre propòsit de prova utilitzarem el recurs d'exportació per exportar BigSheets alguns registres (al voltant 10000) de les dades en un fitxer CSV. Llavors correm el guió Jaql. Aquesta seqüència de comandaments converteix el fitxer CSV en un format d'arxiu delimitat adequat que pugui ser llegida per BigInsights. Aquest nou arxiu s'utilitza com a fitxer d'entrada per l'eina analítica Eclipse.
- Crear els artefactes que són requerits per l'aplicació per exemple. mòduls, guions, definit per l'usuari i així successivament diccionaris.
- Ara provar el codi contra els documents de la mostra sobre la base de la col·lecció d'entrada proporcionada. El construït en característiques com l'explorador d'anotació i el panell de registre s'utilitzen per inspeccionar els resultats. Aquesta prova s'hauria de dur a terme de manera iterativa.
Step 3 - Publicar i desplegar - L'aplicació està llesta per a ser desplegada i publicat quan estem satisfets amb els resultats que es produeixen per l'extractor de text. En general, es publica en el catàleg d'aplicacions d'un clúster. Per tal d'implementar l'aplicació publicada fem servir la consola web BigInsights. Hem d'utilitzar un ID d'inici de sessió que té els privilegis administratius.
Step 4 - Executar l'extractor de text - Després de desplegar l'extractor de text èxit, ara és el moment per executar. Com sabem BigInsights té la capacitat d'invocar els extractors de text a través de l'API de Java amb l'ajuda d'Jaql i BigSheets. L'avantatge d'utilitzar BigSheets és que no hi ha codificació addicional o scripting requerit aquí. Qualsevol analista de negocis pot assumir aquesta tasca.

vistes:

No hi ha res especial sobre les vistes AQL. Aquests són similars a les vistes estàndard en una base de dades relacional. Cada vista NCA té un nom, i es compon de files i columnes. en NCA, vistes sempre es materialitzen. Totes les declaracions AQL operen a les vistes. Aquí tenim una vista especial anomenat Document. Aquest punt de vista s'assigna a un document d'entrada en el moment de la seva col·lecció en temps d'execució. Aquest punt de vista és molt útil per extreure el subconjunt del conjunt gran de dades.

Summary: L'anàlisi de text és el cor de qualsevol aplicació d'anàlisi. Així que és molt important aprendre les eines i els marcs necessaris per al desenvolupament d'aplicacions d'anàlisi de text. IBM InfoSphere Biginsight és una de les millors eines disponibles per a l'anàlisi de text. Fem un resum de la nostra discussió en forma de bales següent -

L'anàlisi de text és un mecanisme poderós utilitzat per extreure informació de conjunt estructurat de dades.
Els components principals de l'anàlisi de text són -
- Col·lecció format d'entrada
- expressió regular
- suport multilingüe
- Llenguatge de Consulta anotació o NCA
Els principals aspectes d'anàlisi de text són -
- llenguatge declaratiu
- diccionaris definits per l'usuari
- regles definides per l'usuari
- rastreig

Share on Facebook

Save

Etiquetatge en: Analítica, Big Data, Text Analytics

TechAlpine – All About Technology

www.techalpine.com