IBM Annotasiya Query Language Necə istifadə (AQL) mətn analitik etmək?

Baxış: Text Analytics struktursuz və ya yarı strukturlaşdırılmış mətn strukturlaşdırılmış data çıxarış üçün istifadə güclü mexanizm. Bu qaydaları yaratmaq edilir. Bu qaydalar müvafiq məlumat çıxarış hasilatı proqramları tərəfindən istifadə olunur.

Bu yazıda danışacaqlar Annotation Query language or AQL mətn analitik üçün istifadə olunur.

Giriş: IBM Infosphere çeşidli edir məlumatların böyük həcmdə ərzində biznes anlayışlar analiz etmək üçün istifadə bir platformadır. ənənəvi DBMS ya RDBMS vasitələrdən istifadə məlumatların belə bir həcmi emal demək olar ki, qeyri-mümkün olur, çünki Adətən məlumatların bu cür nəzərə alınmır. Annotasiya query language ya AQL struktursuz və ya yarım strukturlaşdırılmış content strukturlaşdırılmış məlumat çıxarış bilər çıxaranların qurmaq üçün komponenti kimi IBM InfoSphere istifadə query dili.

Text Analytics Components:

  • Input toplanması format - Input toplanması bir sənəd və ya məlumat çıxarış nəzərdə tutulur yerdən giriş mətn kimi istifadə olunur sənədlər toplusu ya deyil. Adətən giriş kolleksiya aşağıdakı formalarından biri olmalıdır -
    • Aşağıdakı uzantıları hansı bir xarakteristikası olan UTF-8 kodlanmış mətn faylı -
      • .mətn
      • .htm və ya Html və ya .XHTML
      • .xml
    • UTF-8 kodlanmış mətn faylları olan A directory.
    • UTF-8 kodlanmış mətn faylları ehtiva aşağıdakı uzantıları ilə arxiv faylı -
      • .tar
      • .poçt
      • .gz
    • UTF-8 vergül ayrılmış fayl kodlanmış.
    • A düz JSON fayl.
  • Normal İfade – Daimi ifadələr ən çox mətn axtarış mexanizmi üçün istifadə olunur. Biz normal ifadeler və sub ifadələri tikintisi üçün istifadə olunur normal ifade qurucuları istifadə edə bilərsiniz.
  • Multilingual Support - Text Analytics komponentləri yazılı rabitə üçün istifadə edilən ən ümumi dillərdə dəstək var. Text Analytics iki əsas üsulları əsaslanır - tokenizationnitq hissələri.
  • Patterns - oxşar ya ümumi model var model kəşf xüsusiyyət qruplar daxil kontekstlərdə.
  • Annotasiya Query Language ya AQL - AQL mətn analitik üçün istifadə əsas dilidir. Bu sonra struktursuz mətn komponentlərinin müvafiq məlumat çıxarış üçün istifadə olunur çıxaranların yaratmaq üçün istifadə olunur. Bu SQL dilində kimi.

Text Analytics aspektləri:

  • Declarative language - A nəqli dil müəyyən və mövcud mətn content mətn məlumat çıxarış üçün istifadə olunur. Annotasiya Query Language ya AQL öz kolleksiyaları üçün imkan verir qeydlər or views olan müəyyən bir qayda oyunları. Bu fikirlər hər hansı bir AQL extractor əsas çıxışı var. Baxılıb üzrə hesabat keçirmək üçün istifadə olunur IBM Bigsheets. IBM Bigsheet IBM Infosphere Biginsight platforma inbuilt hesabat və tablosuna komponentidir.
  • İstifadəçi müəyyən lüğət - Lüğət biznes anlayışlar çıxarış giriş mətn müəyyən mətn müəyyən etmək imkanına malikdir. AQL biz səmərəli şəkildə istənilən nəticə əldə etmək üçün faydalı olacaq xüsusi lüğət ola bilər.
  • İstifadəçi müəyyən qaydaları - nümunələri və normal ifadeler köməyi ilə biz məlumatların böyük bir set məlumat ayırmaq bilər istifadə edərək qaydaları və ya mexanizmi daxil edə bilərsiniz.

Aşağıdakı nümunəyə nəzər salaq - biz və ya bir-birinə bir sıra daxilində görünür bilər müəyyən açar sözlər, qeyd edə bilərsiniz. E.g. üç söz hesab - "Apple", "Mac" və "Steve". Bütün bu sözləri müəyyən bir sıra daxilində görünür biz Steve Jobs və Mac tərəfindən təsis edilib Apple kompüter gedir burada əməliyyat sistemi kimi istifadə olunur ki, aydın olur. Sözü "Waugh" doğru söz "Steve" və digər iki əsas söz sonra görünür Lakin - "Apple" və "Mac" mövcud deyil, sonra biz məşhur Avstraliya cricketer gedir ki, aydın olur - Steve Waugh.

  • Tracking - mətn təhlili prosesi iterativ proses. Biz mövcud qaydaların çıxmaq nə nəticələr əsasında qaydaları və digər istifadəçi müəyyən lüğət dəyişdirmək üçün lazım olur.

Text Analytics Process:

mətn analytics prosesi aşağıdakı dörd addımlar həyata keçirilir -

  • Step 1 - Toplanması və nümunə data hazırlanması - mətn analitik əsasında istənilən proqram bəzi nümunə data köməyi ilə inkişaf edir. Bu nümunə data biz toplanmış böyük məlumatların alt edərək yaradılmışdır. Bizim input data formatında asılı olaraq biz lazım BigInsights tərəfindən dəstəklənir məlumatların bir və ya bir neçə formatları hazırlamaq. "Apple" - biz input açar sözlər axtarmaq yuxarıda misal olaraq qeyd, "Mac" və "Steve". Bu parametrlər qeyd bu açar sözlər var web məlumat toplamaq üçün proqram kömək.
  • Step 2 - mətn extractor inkişaf və eyni test – BigInsights Plugins ən çox istifadə Java IDE üçün mövcuddur - Eclipse. biz mətn çıxaranların inkişaf etdirmək və onlara test asanlıqla Eclipse əsasında sehrbazlar istifadə edərək. BigInsights informasiya mərkəzi mətn çıxaranların inkişaf tələb olunur şərti proqram bütün məlumat var. geniş səviyyədə, Aşağıdakı addımlar eclipse mətn extractor yaratmaq həyata keçirilir olmalıdır, plugin uğurla yüklü BigInsights dəfə -
    • yeni BigInsights layihə yarat.
    • test üçün tələb olunur nümunə data idxal. nümunə nümunə data bir JSON array formatında adətən. test məqsədlə us bəzi qeydlər ixrac Bigsheets ixrac harada istifadə edək (ətrafında 10000) bir CSV faylı məlumatların. Sonra Jaql çalıştırmanızı. Bu script BigInsights tərəfindən oxunaqlı müvafiq ayrılmış formatında daxil CSV fayl çevirir. Bu yeni fayl sonra tutulması analitik alət giriş fayl kimi istifadə olunur.
    • tətbiqi e.g tələb olunur əsərlər yarat. modulları, scripts, istifadəçi belə lüğətlər müəyyən.
    • İndi göstərilən giriş kolleksiyası əsasında nümunə sənədləri qarşı kodu test. annotasiya Explorer və log bölmede kimi xüsusiyyətləri inşa nəticələri yoxlamaq üçün istifadə olunur. Bu test iteratively həyata keçirilməlidir.
  • Step 3 - Publish və yerləşdirmək - biz mətn extractor tərəfindən istehsal olunur nəticələrindən razı zaman tətbiq yerləşən və nəşr olunacaq hazırdır. Adətən bir çoxluq tətbiqi kataloq nəşr olunur. nəşr proqram yerləşdirmək üçün biz BigInsights web konsol istifadə. Biz inzibati güzəştlər var bir giriş id istifadə etməlidir.
  • Step 4 - mətn extractor Run - uğurla mətn extractor yerləşdirilməsi sonra, indi onu icra etmək vaxtıdır. biz BigInsights Bildiyiniz kimi Jaql və Bigsheets köməyi ilə Java API istifadə edərək mətn çıxaranların ibadət etmək imkanına malikdir. Bigsheets istifadə üstünlüyü burada tələb heç bir əlavə coding və ya scripting var ki. Hər hansı bir Business Analyst bu vəzifəni ala bilər.

Baxılıb:

AQL Baxışların haqqında xüsusi bir şey yoxdur. Bu bir relational verilənlər bazası standart baxış oxşardır. Hər AQL view bir adı var, və satır ve sütun ibarətdir. AQL da, views həmişə maddi edilir. Bütün AQL hesabatları fikirlərini fəaliyyət. Burada bir xüsusi görünüşü çağırıb Document. Bu baxımdan uzunluğu sizin toplanması zaman bir giriş sənəd eşlenen. Bu, məlumatların böyük set alt çıxarış üçün çox faydalıdır.

Summary: Text Analytics hər hansı bir analitik tətbiqi dayanır. Belə ki, mətn analytics applications inkişaf üçün tələb olunan alətlər və çərçivəsində öyrənmək üçün çox vacibdir. IBM Infosphere Biginsight mətn analitik üçün ən yaxşı vasitələrdən biridir. Bizə güllə aşağıdakı şəklində bizim müzakirə yekunlaşdırmaq edək -

  • Text Analytics veri struktursuz dəsti məlumat çıxarış üçün istifadə güclü mexanizm.
  • mətn analitik əsas komponentləri -
    • Input Collection format
    • Daimi ifadə
    • Çoxdilli dəstək
    • Annotasiya Query Language ya AQL
  • mətn analitik əsas aspektləri var -
    • declarative language
    • İstifadəçi müəyyən lüğətlər
    • İstifadəçi müəyyən qaydalar
    • Tracking
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share