Como IBM nota Query Language (AQL) para facer análise de texto?

Visión global: Text Analytics é un poderoso mecanismo utilizado para extraer datos estruturados dende textos non estruturados ou semi estruturada. Isto faise a través da creación de regras. Estas regras son utilizados polos programas de extracción para extraer a información relevante.

Neste artigo, imos falar sobre o Annotation Query language or AQL que se usa para a análise de textos.

Introdución: IBM Infosphere é unha plataforma utilizada para analizar as percepcións de negocios dentro dun enorme volume de datos que é de gama diversa. Xeralmente estes tipos de datos son ignorados por se fai case imposible para procesar tal volume de datos a usar os DBMS tradicionais ou ferramentas de RDBMS. Anotación linguaxe de consulta ou AQL é unha linguaxe de consulta utilizada no IBM InfoSphere como un compoñente para construír extractores que pode extraer información estruturadas de contido non estruturado ou semi estruturada.

Compoñentes de Text Analytics:

formatos de recollida de entrada - obtención de entrada é un documento ou un conxunto de documentos que se usa como un texto de entrada desde onde se quere para extraer a información. Normalmente, unha colección de entrada debe ser un dos seguintes formatos -
- arquivo de texto UTF-8 codificado cunha das seguintes extensións -
  - .txt
  - .htm ou .html ou .xhtml
  - .xml
- Un directorio que contén UTF 8 arquivos de texto codificados.
- Un arquivo coas seguintes extensións, que contén os ficheiros de texto UTF-8 codificado -
  - .alcatrán
  - .zip
  - .GZ
- UTF-8 codificado ficheiro separado por comas.
- Un arquivo JSON simple.
expresións regulares – As expresións regulares son máis comunmente usados para o motor de procura de texto. Podemos usar os canteiros de expresións regulares que se usan para construír expresións regulares e sub expresións.
Soporte multilingüe - compoñentes de análise de texto ten soporte para linguaxes máis comúns que se usan para comunicacións escritas. análise de texto baséase en dúas técnicas principais - tokenization e partes do discurso.
Patterns - Os contextos de entrada grupos recurso de patrón de descubrimento que son semellantes ou teñen un patrón común.
Anotación Query Language ou AQL - AQL é o idioma principal utilizado para a análise de textos. Isto é usado para construír extractores que son entón utilizados para extraer información relevante de compoñentes textuais non estruturados. Este é máis como a linguaxe SQL.

Aspectos do Text Analytics:

linguaxe declarativa - A linguaxe declarativa é usado para identificar e extraer información textuais de contido de texto existente. Anotación Query Language ou AQL permítenos ter as nosas propias coleccións de rexistros or visualizacións que corresponde a unha regra especificada. Estes puntos de vista son a principal saída de calquera extractor AQL. Visitas utilízanse para presentar informe sobre IBM BigSheets. IBM Bigsheet é o compoñente de informe e taboleiro embutido de plataforma IBM Infosphere Biginsight.
definidos polo usuario dicionarios - Dicionario ten a capacidade de identificar determinado texto a partir dun texto de entrada para extraer os insights de empresas. En AQL podemos ter o noso dicionario personalizado que será útil para obter o resultado desexado dun xeito eficiente.
regras definidas polo usuario - Coa axuda de patróns e expresións regulares que pode especificar regras ou usando mecanismo que pode segregar os datos dun gran conxunto de datos.

Imos considerar o exemplo a seguir - podemos citar algunhas palabras clave que poden ou non poden aparecer dentro dun determinado período de outra. E.g. considerar as tres palabras - "Apple", "Mac" e "Steve". Se todas estas palabras aparecen dentro dun intervalo definido, torna-se evidente que estamos falando de ordenadores de Apple, que foi fundada por Steve Jobs e Mac é usado como o sistema operativo aquí. Pero se a palabra aparece "Waugh" logo da palabra "Steve" e as outras dúas palabras clave - "Apple" e "Mac" non están presentes, entón tórnase claro que estamos a falar sobre o famoso xogador de cricket australiano - Steve Waugh.

tracking - O proceso de análise de texto é un proceso iterativo. Faise necesario cambiar as regras e outros dicionarios definidos polo usuario a partir dos resultados que saír das normas existentes.

Proceso de análise de texto:

O proceso de análise de texto se realiza en catro etapas seguintes -

Step 1 - Recollida e preparación de datos de exemplo - Calquera aplicación en base a análise de texto é desenvolvido coa axuda de algúns datos de mostra. Esta mostra de datos é creado tendo un subconxunto dos datos de maior que temos recollido. Dependendo do formato dos nosos datos de entrada necesitamos preparar un ou varios formatos de datos que son soportados polo BigInsights. No exemplo citado anteriormente, busque as palabras clave de entrada - "Apple", "Mac" e "Steve". Estes parámetros de entrada axudan a aplicación para recoller datos dos sitios que teñen estas palabras clave mencionadas.
Step 2 - Desenvolver o extractor de texto e probar o mesmo – BigInsights Plugins están dispoñibles para o máis comunmente usado Java IDE - Eclipse. Usando os asistentes baseados Eclipse podemos facilmente desenvolver os extractores de texto e proba-los. O centro BigInsights información ten toda a información sobre o programa de condición previa que é necesario para desenvolver os extractores de texto. Nun nivel máis amplo, os seguintes pasos necesita ser efectuado para crear un extractor de texto Eclipse, xa que os BigInsights plugin se instala con éxito -
- Crear un novo proxecto BigInsights.
- Importa os datos de exemplo que é necesaria para o exame. Os datos da mostra no noso exemplo é tipicamente nun formato de matriz JSON. Para o noso propósito de probas, imos utilizar o recurso de exportación BigSheets para exportar algúns rexistros (en torno a 10000) de datos nun ficheiro CSV. Logo executar o script Jaql. Este script converte o arquivo CSV nun formato de ficheiro delimitado axeitado, que pode ser lido por BigInsights. Este novo ficheiro é entón usada como ficheiro de entrada para a ferramenta analítica eclipse.
- Crear os artefactos que son necesarios polo aplicativo exemplo. módulos, scripts, dicionarios de usuario definido etc..
- Agora proba o seu código contra os documentos de mostra con base na recollida datos facilitados. O construído en características como explorador de anotación e taboleiro de rexistro son usados para inspeccionar os resultados. Esta proba debe ser realizado de forma iterativa.
Step 3 - Publicar e aplicar - A aplicación está listo para ser implantado e publicado cando estamos satisfeitos cos resultados que se produce polo extractor de texto. Xeralmente é publicada no catálogo da aplicación dun cluster. Co fin de aplicar a aplicación publicada usan a consola BigInsights web. Debemos usar un ID de inicio de sesión que os privilexios administrativos.
Step 4 - Executa o extractor de texto - Tras implantar o extractor de texto correctamente, agora é o momento de executa-lo. Como sabemos BigInsights ten a capacidade de invocar os extractores de texto usando a API Java coa axuda Jaql e BigSheets. A vantaxe de usar BigSheets é que non hai un conxunto de caracteres adicionais ou guións requirido aquí. Calquera analista de negocios pode asumir esta tarefa.

Visitas:

Non hai nada de especial sobre visualizacións AQL. Estes son semellantes ás vistas estándar nunha base de datos relacional. Cada vista AQL ten un nome, e consiste en liñas e columnas. en AQL, As visualizacións sempre materializada. Todas as declaracións AQL operar en vista. Aquí temos unha visión especial chamado Documento. Este punto de vista é mapeado a un documento de entrada no momento da súa colección en tempo de execución. Este punto de vista é moi útil para extraer o subconxunto do gran conxunto de datos.

Summary: análise de texto está no corazón de calquera aplicación analítica. Por iso, é moi importante para aprender as ferramentas e estruturas necesarias para desenvolver aplicacións Text Analytics. IBM Infosphere Biginsight é unha das mellores ferramentas dispoñibles para a análise de textos. Imos resumir nosa discusión en forma de seguir balas -

análise de texto é un poderoso mecanismo utilizado para extraer información de conxunto non estruturada de datos.
Os principais compoñentes de análise de texto son -
- formato de recollida de entrada
- expresión regular
- soporte a diversos idiomas
- Anotación Query Language ou AQL
Os principais aspectos da análise de texto son -
- linguaxe declarativa
- dicionarios definidos polo usuario
- regras definidas polo usuario
- seguimento

Share on Facebook

Save

Tagged on: Analítica, Big Data, text Analytics

TechAlpine – All About Technology

www.techalpine.com