Kuinka käyttää IBM Annotation Query Language (AQL) tehdä tekstiin analytiikka?

Yleiskatsaus: Teksti Analytics on tehokas mekanismi käytetään erottamaan jäsenneltyä tietoa rakenteettomista tai osittain jäsennellyn tekstin. Tämä tapahtuu luomalla sääntöjä. Nämä säännöt käyttävät louhinta ohjelmat poimia olennaiset tiedot.

Tässä artikkelissa me puhumme Annotation Query language or AQL jota käytetään tekstin analytiikka.

Käyttöönotto: IBM InfoSphere on alusta käytetään analysoimaan liiketoiminnan oivalluksia sisällä valtava tietomäärä, joka on monipuolinen valikoima. Yleensä tämäntyyppisiä tietoja ohitetaan koska se on lähes mahdotonta käsitellä tällaista tietomäärä perinteisellä DBMS tai RDBMS työkaluja. Lisäykset kyselyn kieli tai AQL on kyselyn kieli käytetään IBM InfoSphere komponenttina rakentaa extractors joka voi poimia jäsenneltyä tietoa rakenteettomista tai puoliksi jäsenneltyä sisältöä.

Osat Text Analytics:

  • Input kokoelma formaatit - Input kokoelma on joko asiakirja tai joukko asiakirjoja, jotka käytetään syöttää tekstiä, josta meidän on tarkoitus purkaa tiedot. Yleensä tulo kokoelma on oltava jokin seuraavista muodoista -
    • UTF-8 tekstitiedosto, joilla on jokin seuraavista laajennukset -
      • .txt
      • .htm tai .html tai .xhtml
      • .xml
    • Hakemisto sisältävä UTF-8-tekstitiedostoja.
    • Arkistotiedosto seuraavien laajennusten joka sisältää UTF-8 tekstitiedostoja -
      • .terva
      • .postinumero
      • .gz
    • UTF-8 pilkulla erotettu tiedosto.
    • Tavallinen JSON-tiedosto.
  • Tavallinen ilme – Säännölliset lausekkeet ovat yleisimmin käytetty tekstin haku mekanismi. Voimme käyttää säännöllinen lauseke rakentajat joita käytetään rakentaa säännöllisiä lausekkeita ja osa ilmaisuja.
  • Monikielinen tuki - Teksti analytiikka komponentit on tuki yleisimpiä kieliä, joita käytetään kirjoitettu viestinnässä. Teksti analytiikka perustuu kaksi suurta tekniikkaa - tokenization ja sanaluokat.
  • Kuviot - Kuvio löytö ominaisuus ryhmien tulo yhteyksissä, jotka ovat samanlaisia ​​tai niillä on yhteinen malli.
  • Lisäykset Query Language tai AQL - AQL on ensisijainen kieli, jota käytetään tekstin analytiikka. Tätä käytetään rakentaa extractors joita sitten käytetään poimia olennaiset tiedot rakenteettomista tekstimuodossa komponenteista. Tämä on enemmän kuin SQL-kieltä.

Aspects of Text Analytics:

  • Deklaratiivinen kieli - Declarative kieltä käytetään tunnistamaan ja poimia tekstitieto nykyisten tekstisisällön. Lisäykset Query Language tai AQL voimme olla oma kokoelmia asiakirjat or näkymät joka vastaa tiettyä sääntöä. Nämä näkemykset ovat tärkeimmät tuotos tahansa AQL linko. Näkymät voidaan näyttää raportin IBM Bigsheets. IBM Bigsheet on sisäänrakennettu raportoinnin ja kojelauta komponentti IBM InfoSphere Biginsight platform.
  • Käyttäjän määrittelemä sanakirjoja - Sanakirja on kyky tunnistaa tietyn tekstin peräisin syöttää tekstiä poimia liiketoiminnan oivalluksia. Vuonna AQL voimme olla räätälöityjä sanakirja, joka on hyödyllistä saada toivottua tulosta tehokkaasti.
  • Käyttäjän määrittelemät säännöt - Avulla kuviot ja säännöllisiä lausekkeita voimme määritellä sääntöjä tai mekanismi milläkin voimme erotella tiedot suuresta datasarjan.

Tarkastellaan seuraavaa esimerkkiä - voidaan mainita tiettyjä avainsanoja, jotka voidaan tai ei näy tietyllä alueella toisiaan. E.g. harkita kolme sanaa - "Apple", "Mac" ja "Steve". Jos kaikki nämä sanat esiintyvät määrätyllä alueella on selvää, että puhumme Applen tietokoneissa, joka perustettiin Steve Jobs ja Mac käytetään käyttöjärjestelmästä. Mutta jos sana "Waugh" näkyy heti sanan "Steve" ja toisessa kaksi avainsanaa - "Apple" ja "Mac" eivät ole läsnä, niin on selvää, että puhumme kuuluisan australialainen kriketinpelaaja - Steve Waugh.

  • Seuranta - Prosessi tekstin analyysi on iteratiivinen prosessi. Sen tarpeen muuttaa sääntöjä ja muut käyttäjän määrittämät sanakirjat tulosten perusteella, mitä saamme ulos nykyisiä sääntöjä.

Teksti Analytics Process:

Teksti analytiikka prosessi suoritetaan seuraavat neljä vaihetta -

  • Step 1 - Kerääminen ja valmistelu Otostiedoille - Mikä tahansa sovellus perustuu tekstiin analytiikan kehitetään avulla jonkin näytteen tietoja. Tämä näyte tiedot luodaan ottaa osajoukko isompi tietoja, joita olemme keränneet. Riippuen muodosta meidän lähtötietoja meidän valmistaa yhden tai useita formaatteja tietojen tukee BigInsights. Esimerkissä edellä mainittujen etsimme panos avainsanoja - "Apple", "Mac" ja "Steve". Nämä syöteparametrit auttavat sovelluksen kerätä tietoja sivustoista, joilla on nämä avainsanat mainitaan.
  • Step 2 - Kehittäminen teksti linko ja testata samalla – BigInsights Laajennukset ovat saatavilla yleisimmin käytetty Java IDE - Eclipse. Eclipse perustuu ohjattuja voimme helposti kehittää tekstin uuttamoille testata niitä. BigInsights tietokeskus on kaikki tiedot edellytys ohjelmisto, joka tarvitaan kehittämään tekstiä extractors. Laajalla tasolla, seuraavat vaiheet täytyy suorittaa luoda tekstiä irrotin Eclipse, kun BigInsights laajennus on asennettu onnistuneesti -
    • Luo uusi BigInsights projekti.
    • Tuo näytedataa, joka vaaditaan testausta. Näyte tiedot esimerkissä on tyypillisesti JSON array-muodossa. Meidän testausta varten käyttäkäämme Bigsheets vienti mahdollisuus viedä joitakin kirjaa (noin 10000) Tietojen CSV-tiedostossa. Sitten ajaa Jaql kirjoitus. Tämä kirjoitus muuntaa CSV sopivaan eroteltua tiedostomuotoa, joka on luettavissa BigInsights. Tämä uusi tiedosto käytetään sitten syöttää tiedosto Eclipse analyyttinen työkalu.
    • Luo esineitä, joita vaaditaan sovelluksen esim. moduulit, skriptejä, käyttäjän määrittämiä sanakirjoja ja niin edelleen.
    • Nyt testaa koodin vastaan ​​näytteen asiakirjat tulon perusteella kokoelma edellyttäen. Rakennettu ominaisuuksia, kuten huomautusta Explorer ja tukin ruudun käytetään tarkastaa tulosten. Tämä testi on suoritettava iteratiivisesti.
  • Step 3 - Julkaista ja käyttöön - Sovellus on valmis käyttöön ja julkaistaan ​​kun olemme tyytyväisiä tuloksiin, joka tuotetaan tekstin linko. Yleensä se on julkaistu sovellus luettelo klusterin. Jotta asentaa julkaistun sovelluksen käytämme BigInsights verkkokonsolin. Meidän pitäisi käyttää kirjautuminen id joka on järjestelmänvalvojan oikeudet.
  • Step 4 - Suorita teksti linko - Käyttöönoton jälkeen teksti linko onnistuneesti, nyt on aika toteuttaa se. Kuten tiedämme BigInsights on kyky vedota tekstin extractors Java API avulla Jaql ja Bigsheets. Etu käyttää Bigsheets on, että mitään ylimääräistä koodausta tai scripting tarvita tässä. Jokainen Business Analyst voi ryhtyä tämän tehtävän.

näkymät:

Ei ole mitään erikoista AQL näkymät. Nämä ovat samanlaisia ​​standardin näkemyksiä relaatiotietokantaan. Jokaisella AQL näkymä on nimi, ja koostuu rivien ja sarakkeiden. in AQL, näkemykset ovat aina toteutunut. Kaikki AQL lausunnot toimivat näkymät. Tässä olemme yksi erityinen näkymä nimeltään Document. Tätä näkemystä kartoitetaan yhteen tulo asiakirjaa sen kokoelmastasi suorituksen. Tämä näkymä on erittäin hyödyllistä poimia osajoukko suurista datajoukon.

Summary: Teksti Analytics on ytimessä tahansa analytiikan hakemuksen. On siis erittäin tärkeää oppia työkaluja ja puitteiden kehittäminen edellyttää tekstin analytiikkasovelluksista. IBM InfoSphere Biginsight on yksi parhaista työkaluja tekstin analytiikka. Olkaamme yhteenveto keskusteluamme muodossa seuraavat luoteja -

  • Teksti Analytics on tehokas mekanismi, jota käytetään poimia tietoja rakenteeton joukko tietoja.
  • Pääkomponentit tekstin analytiikka ovat -
    • Input Collection muoto
    • Tavallinen ilme
    • Monikielisyystuki
    • Lisäykset Query Language tai AQL
  • Tärkeimmät näkökohdat tekstin analytiikka ovat -
    • deklaratiivisen kielen
    • Käyttäjän määrittämät sanastot
    • Käyttäjän määrittelemät säännöt
    • Seuranta
============================================= ============================================== Osta parhaat tekniset kirjat Amazonista,en,sähköasentaja CT -kastaja,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share