Kako koristiti IBM Primjedba Query Language (AQL) učiniti tekst analitika?

Pregled: Tekst Analytics moćan mehanizam koristi za izdvajanje strukturiranih podataka iz nestrukturiranih ili polu strukturiranih teksta. To se postiže stvaranjem pravila. Ova pravila su koristi od programa ekstrakcije izdvojiti relevantne informacije.

U ovom članku ćemo govoriti o Annotation Query language or AQL koji se koristi za tekst analitike.

Uvođenje: IBM InfoSphere je platforma se koristi za analizu poslovnih uvida u ogromnoj količini podataka koji je od raznolikih raspona. Obično ove vrste podataka su zanemareni jer to postaje gotovo nemoguće obraditi takvu količinu podataka koje koriste tradicionalne DBMS ili RDBMS alate. Primjedba upitni jezik ili AQL je upitni jezik koristi u IBM InfoSphere kao komponenta za izgradnju vađenje koji može izvući strukturirane informacije iz nestrukturiranih ili polu strukturiranih sadržaja.

Dijelovi teksta Analytics:

  • formati za prikupljanje ulaz - Zbirka Ulaz je ili dokument ili set dokumenata koji se koristi kao ulazni tekst odakle smo trebali izvući informacije. Obično skup ulaz mora biti jedan od sljedećih formata -
    • tekstualne datoteke UTF-8 kodiranje imaju bilo koju od sljedećih nastavaka -
      • .txt
      • .htm ili html ili .xhtml
      • .xml
    • Direktorij koji sadrži UTF-8 kodiranje tekstualne datoteke.
    • Arhivsku datoteku sa sljedećim nastavcima koji sadrži UTF-8 kodiranje tekstualne datoteke -
      • .katran
      • .zip
      • .gz
    • UTF-8 kodiranje odvojene zarezom datoteku.
    • Običan JSON datoteka.
  • Regularni izraz – Regularni izrazi se najčešće koriste za mehanizam za pretraživanje teksta. Možemo koristiti regularni izraz graditeljima koji se koriste za izgradnju regularnih izraza i pod izraze.
  • Višejezični podršku - dijelovi teksta analitika ima podršku za najčešćih jezika koji se koriste za pismena. Tekst analitika se temelji na dva glavna tehnika - tokenization i Djelovi govora.
  • Obrasci - Otkriće uzorak značajka grupe ulaznih kontekste koji su slični ili imaju zajednički obrazac.
  • Primjedba Query Language ili AQL - AQL je primarni jezik koji se koristi za tekstualne analitike. To se koristi za izgradnju vađenje koje se potom koriste za izdvajanje relevantnih informacija iz nestrukturiranih tekstualnih dijelova. To je više kao SQL jezik.

Aspekti Tekst Analytics:

  • Deklarativnog jezika - Deklarativni jezik se koristi za identifikaciju i ekstrakt tekstualne informacije iz postojećeg sadržaja i teksta. Primjedba Query Language ili AQL nam omogućuje da imamo svoje zbirke snimke or pregleda koji odgovara navedenoj pravilo. Ti pogledi su glavni izlaz bilo AQL izvlači. Pregledi se koristi za prikaz izvješće o IBM Bigsheets. IBM Bigsheet je ugrađen izvješćivanje i instrumentna ploča komponenta IBM InfoSphere Biginsight platformi.
  • Korisnički definirano rječnici - Rječnik ima sposobnost da se identificiraju određeni tekst iz unos teksta za izdvajanje poslovnih uvida. U AQL možemo imati naš prilagođeni rječnik koji će biti od pomoći kako bi dobili željeni rezultat na učinkovit način.
  • Korisnički definirana pravila - Uz pomoć obrazaca i regularnih izraza možemo odrediti pravila ili mehanizam pomoću kojeg možemo razdvojiti podatke iz velikog skupa podataka.

Razmotrimo sljedeći primjer - možemo spomenuti neke ključne riječi koje mogu i ne moraju se pojaviti unutar određenog raspona jedan drugome. E.g. uzeti u obzir tri riječi - "Apple", "Mac" i "Steve". Ako sve ove riječi se pojavljuju unutar određenog raspona postaje očito da se radi o Apple računala koja je osnovana od strane Steve Jobs i Mac se koristi kao operativni sustav ovdje. No, ako je riječ pojavi "Waugh" odmah nakon riječi "Steve", a druge dvije ključne riječi - "Apple" i "Mac" nisu prisutne, tada postaje jasno da se radi o poznatoj australskoj igrač kriketa - Steve Waugh.

  • praćenje - Proces analizi teksta je iterativan postupak. Postaje potrebno mijenjati pravila i ostale korisnički definirane rječnike na temelju rezultata koje smo dobili iz postojećih pravila.

Tekst Analytics procesa:

Proces tekst analitika se provodi u četiri koraka -

  • Step 1 - Prikupljanje i priprema uzorka podataka - Svaka aplikacija se temelji na tekst analitika je razvijen uz pomoć nekih podataka uzorka. Ovi podaci uzorak je stvorio ima podskup većeg podacima koje smo prikupili. Ovisno o formatu našeg ulaznih podataka koje je potrebno pripremiti jednu ili više formata podataka koji podržava BigInsights. U primjeru gore spomenuto tražimo za unos riječi - "Apple", "Mac" i "Steve". Ti ulazni parametri pomažu zahtjev za prikupljanje podataka iz web stranice koje imaju ove ključne riječi navedene.
  • Step 2 - Razvijanje teksta izvlači i test isti – BigInsights Dodaci dostupni su za najčešće korištenih Java IDE - Eclipse. Korištenje čarobnjaka Eclipse temelje se lako možemo razviti tekst vađenje i testirati ih. BigInsights informativni centar ima sve informacije o preduvjet softver koji je potreban za razvoj tekst vađenje. Na širem nivou, sljedeće korake treba provesti za stvaranje teksta izvlači na pomrčine, nakon što BigInsights dodatak je uspješno instaliran -
    • Stvaranje novog BigInsights projekt.
    • Uvoz podataka iz uzorka koji je potreban za testiranje. Podaci koji u našem primjeru je obično u JSON polje formatu. Za naše testiranje svrhu neka nam koristiti Bigsheets izvozni objekt za izvoz neke zapise (oko 10000) podataka u CSV datoteku. Onda smo pokrenuti Jaql skriptu. Ova skripta pretvara CSV datoteku u odgovarajući razgraničena formatu koji može čitati BigInsights. Ta se nova datoteka koriste kao ulazne datoteke za pomrčine analitičkog alata.
    • Stvaranje artefakte koji su potrebni primjenom npr. moduli, skripta, korisnički definirane rječnika i tako dalje.
    • Sada testirati svoj kôd protiv uzoraka dokumenata na temelju prikupljanja ulaznih uvjetom. Izgrađen u značajkama kao napomena Exploreru i log okna koriste se pregledati rezultate. Ovo ispitivanje treba provesti iterativno.
  • Step 3 - Objavi i implementaciju - Aplikacija je spremna da se koriste i objavljuju kad smo zadovoljni rezultatima koje je proizvela Text Extractor. Obično se objavljuju u katalogu aplikacija klastera. Da bi se uvela objavljene prijave koristimo BigInsights web konzole. Mi bi trebali koristiti za prijavu ID koji ima administratorske ovlasti.
  • Step 4 - Pokrenite teksta izvlači - Nakon implementacije teksta izvlači uspješno, sada je vrijeme da to izvrši. Kao što znamo BigInsights ima sposobnost da se pozvati na tekst vađenje pomoću Java API uz pomoć Jaql i Bigsheets. Prednost korištenja Bigsheets je da nema nikakvih dodatnih kodiranje ili skriptiranje potrebna ovdje. Svaki poslovni analitičar može potrajati i ovaj zadatak.

Posjeta:

Nema ništa posebno o pogledima AQL. To su slične standardnih pogleda u relacijsku bazu podataka. Svaki pogled AQL ima ime, a sastoji se od redaka i stupaca. u AQL, pogledi su uvijek materijalizira. Sve AQL izjave djeluju na pogledima. Ovdje smo jedan poseban pogled naziva dokumenta. Ovaj stav se preslikava na jedan ulazni dokument u to vrijeme iz svoje kolekcije za vrijeme izvođenja. Ovaj prikaz je vrlo korisna za izdvajanje podskup od velikog skupa podataka.

Summary: Tekst analitika u srcu bilo koje aplikacije za analizu. Tako da je vrlo važno naučiti alate i okvire potrebne za razvoj aplikacija tekst analitika. IBM InfoSphere Biginsight je jedan od najboljih alata na raspolaganju za tekst analitike. Neka nam rezimirati našu raspravu u obliku slijedeće metaka -

  • Tekst analitika je snažan mehanizam koristi za izdvajanje informacija iz nestrukturiranih skup podataka.
  • Glavne komponente teksta analitike su -
    • Ulazni format kolekcija
    • Regularni izraz
    • Višejezični podršku
    • Primjedba Query Language ili AQL
  • Glavni aspekti teksta analitike su -
    • deklarativnog jezika
    • Korisnički definirano rječnici
    • Korisnički definirana pravila
    • Praćenje
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share