如何使用IBM註釋查詢語言 (AQL) 做文本分析?

概觀: 文本分析是用來提取從非結構化或半結構化文本結構化數據的強大機制. 這是通過創建規則完成. 這些規則用於通過提取節目,以提取相關信息.

在這篇文章中,我們會談談 nnotation Query anguage or AQL 這是用於文本分析.

介紹: IBM的InfoSphere是用來分析的數據量巨大這是多元化的範圍內,業務洞察力的平台. 通常,這些類型的數據都將被忽略,因為它變得幾乎不可能處理使用傳統的數據庫管理系統或RDBMS工具數據的這樣的體積. 註釋查詢語言或AQL是IBM的InfoSphere用作部件來構建提取可從非結構化的或半結構化的內容中提取的結構化信息的查詢語言.

文本分析的組件:

  • 輸入採集格式 - 輸入集或者是一個文檔或其用作從那裡我們應該以提取信息的輸入文本的一組文件. 通常輸入集合必須是下列格式之一 -
    • 具有下列任何擴展UTF-8編碼的文本文件 -
      • .文本
      • .HTM或.html或.xhtml
      • .xml
    • 包含UTF-8編碼的文本文件目錄.
    • 與包含UTF-8編碼的文本文件以下擴展名的存檔文件 -
      • .柏油
      • .壓縮
      • .GZ
    • UTF-8編碼的逗號分隔的文件.
    • 一個普通JSON文件.
  • 正則表達式 – 正則表達式是最常用的文本搜索機制. 我們可以使用其用於構造正則表達式和子表達式的正則表達式的助洗劑.
  • 多語言支持 - 文本分析組件有哪些用於書面交流最常用的語言的支持. 文本分析是基於兩個重要的技術 - 符號化詞類.
  • 模式 - 該模式發現功能組輸入上下文是相似或有一個共同的模式.
  • 註釋查詢語言或AQL - AQL是用於文本分析的主要語言. 這是用來建立提取其然後用於提取從非結構化文本成分有關的信息. 這更像是SQL語言.

文本分析的各個方面:

  • 聲明性語言 - 說明性語言是用來識別和提取現有的文本內容的文本信息. 註釋查詢語言或AQL使我們有我們自己的集合 記錄 or 意見 它匹配指定的規則. 這些觀點的AQL提取的主輸出. 視圖是用來上顯示報告 IBM Bigsheets. IBM Bigsheet 是IBM的InfoSphere Biginsight平台的內置報告和儀表板組件.
  • 用戶自定義詞典 - 字典必須從一個輸入文本識別某些文本提取業務洞察力的能力. 在AQL我們可以有我們的定制字典這將有助於獲得以有效的方式所期望的結果.
  • 用戶定義的規則 - 隨著模式和正則表達式的幫助下,我們可以指定使用它我們可以從大量的數據中分離數據的規則或機制.

讓我們看看下面的例子 - 我們可以提到其可以或可以不彼此的給定範圍內出現的某些關鍵字. E.g. 考慮三個字 - “蘋果”, “陸委會”和“史蒂夫”. 如果出現規定範圍內的所有這些詞就變得很明顯,我們所談論的這是由史蒂夫·喬布斯和Mac創立了蘋果電腦在這裡被用作操作系統. 但是,如果“沃”字“史蒂夫”,另兩個關鍵詞之後出現的詞 - “蘋果”和“蘋果”不存在, 那麼它變得清晰,我們談論的是澳大利亞著名板球運動員史蒂夫 - 沃.

  • 跟踪 - 文本分析的過程是一個反复的過程. 有必要修改成果的基礎上我們擺脫現有的規章制度和其它用戶定義詞典.

文本分析處理:

的文本分析方法在以下四個步驟進行 -

  • Step 1 - 收集和準備樣本數據 - 基於文本分析的任何應用程序與一些樣本數據來開發. 該樣本數據由具有更大的數據的一個子集,我們已收集創建. 根據我們的輸入數據的格式,我們需要準備數據的一個或多個格式由BigInsights支持. 在這個例子中提到的上面我們認准輸入關鍵詞 - “蘋果”, “陸委會”和“史蒂夫”. 這些輸入參數有助於收集來自具有提到的這些關鍵字的網站數據的應用程序.
  • Step 2 - 開發文本提取和測試相同 – BigInsights插件可用於最常用的Java IDE - Eclipse的. 使用基於Eclipse的嚮導,我們可以很容易地開發文本提取並進行測試. 該BigInsights信息中心有哪些需要開發文本提取的必備軟件的所有信息. 在廣泛的層面上, 以下步驟需要被執行以創建上蝕文本提取, 一旦插件安裝成功BigInsights -
    • 創建一個新的BigInsights項目.
    • 導入這是需要測試的樣本數據. 在我們的例子中的樣本數據通常是在一個JSON格式數組. 對於我們的測試目的,讓我們用Bigsheets導出工具導出一些記錄 (周圍 10000) 在CSV文件中的數據. 然後,我們運行腳​​本JAQL. 該腳本CSV文件轉換成它是由BigInsights可讀適當分隔的文件格式. 然後該新文件被用作輸入文件到蝕分析用具.
    • 創建這些應用程序例如所需的器物. 模塊, 腳本, 用戶自定義字典等.
    • 現在,測試你的代碼對基於提供的輸入採集的樣本文件. 內置的註釋一樣Explorer和日誌窗格功能是用於檢查結果. 此測試應反复進行.
  • Step 3 - 發布和部署 - 該應用程序已準備好進行部署和發布的,我們很滿意這是由文本提取產生的結果時,. 通常它發表在群集的應用目錄. 為了部署發布的應用程序,我們使用BigInsights Web控制台. 我們應該使用具有管理權限的登錄ID.
  • Step 4 - 運行文本提取 - 成功部署的文字提取後, 現在是時候來執行它. 我們知道BigInsights有可以調出文本提取使用Java API與JAQL和Bigsheets的幫助的能力. 使用Bigsheets的優點是,沒有在這裡需要額外的編碼或腳本. 任何業務分析師可以承擔這個任務.

意見:

沒有什麼特別的看法AQL. 這些類似於在關係數據庫中的標準視圖. 每個AQL視圖有一個名字, 和由行和列的. 在AQL, 意見總是物化. 所有AQL語句上操作意見. 在這裡,我們有一個特別的觀點稱為文檔. 這種觀點是從您的收藏在運行時映射到一個輸入文檔的時候. 這種觀點是非常有幫助,從大量的數據中提取子集.

Summary: 文本分析在任何分析應用程序的心臟. 因此,要學會制定的文本分析應用程序所需的工具和框架是非常重要的. IBM的InfoSphere Biginsight是可用於文本分析的最佳工具之一. 讓我們總結一下我們在下面的項目符號的形式討論 -

  • 文本分析是用來從非結構化數據集提取信息的強大機制.
  • 文本分析的主要組成部分是 -
    • 輸入採集格式
    • 正則表達式
    • 多種語言支持
    • 註釋查詢語言或AQL
  • 文本分析的主要方面是 -
    • 聲明性語言
    • 用戶自定義詞典
    • 用戶定義的規則
    • 跟踪
============================================= ============================================== 在亞馬遜上購買最佳技術書籍,en,電工CT Chestnutelectric,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share