如何使用IBM注释查询语言 (AQL) 做文本分析?

概观: 文本分析是用来提取从非结构化或半结构化文本结构化数据的强大机制. 这是通过创建规则完成. 这些规则用于通过提取节目,以提取相关信息.

在这篇文章中,我们会谈谈 nnotation Query anguage or AQL 这是用于文本分析.

介绍: IBM的InfoSphere是用来分析的数据量巨大这是多元化的范围内,业务洞察力的平台. 通常,这些类型的数据都将被忽略,因为它变得几乎不可能处理使用传统的数据库管理系统或RDBMS工具数据的这样的体积. 注释查询语言或AQL是IBM的InfoSphere用作部件来构建提取可从非结构化的或半结构化的内容中提取的结构化信息的查询语言.

文本分析的组件:

  • 输入采集格式 - 输入集或者是一个文档或其用作从那里我们应该以提取信息的输入文本的一组文件. 通常输入集合必须是下列格式之一 -
    • 具有下列任何扩展UTF-8编码的文本文件 -
      • .文本
      • .HTM或.html或.xhtml
      • .xml
    • 包含UTF-8编码的文本文件目录.
    • 与包含UTF-8编码的文本文件以下扩展名的存档文件 -
      • .柏油
      • .压缩
      • .GZ
    • UTF-8编码的逗号分隔的文件.
    • 一个普通JSON文件.
  • 正则表达式 – 正则表达式是最常用的文本搜索机制. 我们可以使用其用于构造正则表达式和子表达式的正则表达式的助洗剂.
  • 多语言支持 - 文本分析组件有哪些用于书面交流最常用的语言的支持. 文本分析是基于两个重要的技术 - 符号化词类.
  • 模式 - 该模式发现功能组输入上下文是相似或有一个共同的模式.
  • 注释查询语言或AQL - AQL是用于文本分析的主要语言. 这是用来建立提取其然后用于提取从非结构化文本成分有关的信息. 这更像是SQL语言.

文本分析的各个方面:

  • 声明性语言 - 说明性语言是用来识别和提取现有的文本内容的文本信息. 注释查询语言或AQL使我们有我们自己的集合 记录 or views 它匹配指定的规则. 这些观点的AQL提取的主输出. 视图是用来上显示报告 IBM Bigsheets. IBM Bigsheet 是IBM的InfoSphere Biginsight平台的内置报告和仪表板组件.
  • 用户自定义词典 - 字典必须从一个输入文本识别某些文本提取业务洞察力的能力. 在AQL我们可以有我们的定制字典这将有助于获得以有效的方式所期望的结果.
  • 用户定义的规则 - 随着模式和正则表达式的帮助下,我们可以指定使用它我们可以从大量的数据中分离数据的规则或机制.

让我们看看下面的例子 - 我们可以提到其可以或可以不彼此的给定范围内出现的某些关键字. E.g. 考虑三个字 - “苹果”, “陆委会”和“史蒂夫”. 如果出现规定范围内的所有这些词就变得很明显,我们所谈论的这是由史蒂夫·乔布斯和Mac创立了苹果电脑在这里被用作操作系统. 但是,如果“沃”字“史蒂夫”,另两个关键词之后出现的词 - “苹果”和“苹果”不存在, 那么它变得清晰,我们谈论的是澳大利亚著名板球运动员史蒂夫 - 沃.

  • 跟踪 - 文本分析的过程是一个反复的过程. 有必要修改成果的基础上我们摆脱现有的规章制度和其它用户定义词典.

文本分析处理:

的文本分析方法在以下四个步骤进行 -

  • Step 1 - 收集和准备样本数据 - 基于文本分析的任何应用程序与一些样本数据来开发. 该样本数据由具有更大的数据的一个子集,我们已收集创建. 根据我们的输入数据的格式,我们需要准备数据的一个或多个格式由BigInsights支持. 在这个例子中提到的上面我们认准输入关键词 - “苹果”, “陆委会”和“史蒂夫”. 这些输入参数有助于收集来自具有提到的这些关键字的网站数据的应用程序.
  • Step 2 - 开发文本提取和测试相同 – BigInsights插件可用于最常用的Java IDE - Eclipse的. 使用基于Eclipse的向导,我们可以很容易地开发文本提取并进行测试. 该BigInsights信息中心有哪些需要开发文本提取的必备软件的所有信息. 在广泛的层面上, 以下步骤需要被执行以创建上蚀文本提取, 一旦插件安装成功BigInsights -
    • 创建一个新的BigInsights项目.
    • 导入这是需要测试的样本数据. 在我们的例子中的样本数据通常是在一个JSON格式数组. 对于我们的测试目的,让我们用Bigsheets导出工具导出一些记录 (周围 10000) 在CSV文件中的数据. 然后,我们运行脚本JAQL. 该脚本CSV文件转换成它是由BigInsights可读适当分隔的文件格式. 然后该新文件被用作输入文件到蚀分析用具.
    • 创建这些应用程序例如所需的器物. 模块, 脚本, 用户自定义字典等.
    • 现在,测试你的代码对基于提供的输入采集的样本文件. 内置的注释一样Explorer和日志窗格功能是用于检查结果. 此测试应反复进行.
  • Step 3 - 发布和部署 - 该应用程序已准备好进行部署和发布的,我们很满意这是由文本提取产生的结果时,. 通常它发表在群集的应用目录. 为了部署发布的应用程序,我们使用BigInsights Web控制台. 我们应该使用具有管理权限的登录ID.
  • Step 4 - 运行文本提取 - 成功部署的文字提取后, 现在是时候来执行它. 我们知道BigInsights有可以调出文本提取使用Java API与JAQL和Bigsheets的帮助的能力. 使用Bigsheets的优点是,没有在这里需要额外的编码或脚本. 任何业务分析师可以承担这个任务.

意见:

没有什么特别的看法AQL. 这些类似于在关系数据库中的标准视图. 每个AQL视图有一个名字, 和由行和列的. 在AQL, 意见总是物化. 所有AQL语句上操作意见. 在这里,我们有一个特别的观点称为文档. 这种观点是从您的收藏在运行时映射到一个输入文档的时候. 这种观点是非常有帮助,从大量的数据中提取子集.

Summary: 文本分析在任何分析应用程序的心脏. 因此,要学会制定的文本分析应用程序所需的工具和框架是非常重要的. IBM的InfoSphere Biginsight是可用于文本分析的最佳工具之一. 让我们总结一下我们在下面的项目符号的形式讨论 -

  • 文本分析是用来从非结构化数据集提取信息的强大机制.
  • 文本分析的主要组成部分是 -
    • 输入采集格式
    • 正则表达式
    • 多种语言支持
    • 注释查询语言或AQL
  • 文本分析的主要方面是 -
    • 声明性语言
    • 用户自定义词典
    • 用户定义的规则
    • 跟踪
============================================= ============================================== 在亚马逊上购买最佳技术书籍,en,电工CT Chestnutelectric,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share