Jak používat IBM Anotace Query Language (AQL) dělat textových analytiku?

Přehled: Text Analytics je výkonný mechanismus používaný k extrakci strukturovaných dat z nestrukturovaných nebo polo strukturovaného textu. To se provádí tím, že vytvoří pravidla. Tato pravidla jsou využívány programy extrakční extrahovat relevantní informace.

V tomto článku budeme hovořit o Annotation Query language or AQL který se používá pro text analytiky.

Úvod: IBM InfoSphere je platforma používá k analýze obchodních pohledy v obrovském objemu dat, který je z pestré škále. Obvykle se tyto typy dat jsou ignorovány, protože se stává téměř nemožné zpracovat takové množství dat pomocí tradiční DBMS nebo RDBMS nástroje. Anotace dotazovací jazyk nebo AQL je dotazovací jazyk použitý v IBM InfoSphere jako součást stavět odsávací zařízení, které je možné získat strukturovaných informací z nestrukturované nebo částečně strukturovaný obsah.

Součásti Text Analytics:

formáty kolekce vstup - Sběr vstup je buď dokument nebo soubor dokumentů, který je použit jako vstupní textu, odkud se mají extrahovat informace. Obvykle vstup sběr musí být jeden z následujících formátů -
- UTF-8 kódovaný textový soubor, které mají některou z následujících přípon -
  - .txt
  - .htm nebo HTML nebo .xhtml
  - .xml
- Adresář obsahující kódování UTF-8 textových souborů.
- Archiv souborů s následujícími příponami, která obsahuje kódování UTF-8 textových souborů -
  - .dehet
  - .zip
  - .gz
- Kódování UTF-8 čárkami oddělený soubor.
- Prostá soubor JSON.
regulárních výrazů – Regulární výrazy se nejčastěji používají pro vyhledávání textu mechanismem. Můžeme použít regulárních výrazů stavitelé, které jsou používány pro konstrukci regulární výrazy a sub výrazy.
Podpora více jazyků - Text analytické komponenty má podporu pro většinu běžných jazyků, které se používají pro písemná sdělení. analytika textu je založeno na dvou hlavních technikách - tokenizace a slovní druhy.
vzory - Vzor funkce zjišťování skupiny vstupních kontexty, které jsou podobné nebo mají společný vzor.
Anotace Query Language nebo AQL - AQL je primární jazyk používaný pro text analytiku. To se používá k vytvoření odsávací zařízení, které se pak používají pro získání relevantních informací z nestrukturovaných textových komponent. To je spíš jazyk SQL.

Aspekty Text Analytics:

Deklarativní jazyk - Deklarativní jazyk se používá k identifikaci a extrahovat textové informace z existujícího obsahu textu. Anotace Query Language nebo AQL nám umožňuje mít své vlastní sbírky evidence or názory což odpovídá zadanému pravidlu. Tyto názory jsou hlavním výstupem jakéhokoliv AQL extraktoru. Pohledy slouží k zobrazení zprávy o IBM Bigsheets. IBM Bigsheet je vestavěný zpráv a přístrojová deska součástí IBM InfoSphere Biginsight platformy.
Uživatelsky definované slovníky - Slovník má schopnost identifikovat určitou textu ze vstupního textu extrahovat podnikatelské postřehy. V AQL můžeme mít svou vlastní slovník, který bude užitečné získat požadovaný výsledek v efektivním způsobem.
Uživatelské nastavení pravidel - S pomocí vzorů a regulárních výrazů můžeme určit pravidla nebo mechanismus, pomocí kterého můžeme oddělit data z velkého souboru dat.

Podívejme se na následující příklad - můžeme zmínit určitá klíčová slova, která může nebo nemusí objevit v daném rozsahu vzájemném. E.g. zvažovat tři slova - "Apple", "Mac" a "Steve". Objeví-li se všechna tato slova v definovaném rozsahu je zřejmé, že hovoříme o počítačích Apple, který byl založen Steve Jobs a Mac se používá jako operační systém zde. Ale pokud "Waugh" se objeví slovo hned po slově "Steve" a další dvě klíčová slova - "jablko" a "Mac" nejsou přítomny, pak je zřejmé, že hovoříme o slavné australské kriketu - Steve Waugh.

Tracking - Proces analýzy textu je iterativní proces. To se stává nezbytné upravit pravidla a další uživatelem definované slovníky na základě výsledků, co jsme dostat ven ze stávajících pravidel.

Text Process Analytics:

Proces textové analytika se provádí v následujících čtyřech krocích -

Step 1 - Sběr a příprava ukázkových dat - Jakákoliv aplikace založená na textových analytika je vyvíjen s pomocí nějakého vzorku dat. Tento vzorek dat je vytvořen tím, že má podmnožinu větší údajů, které jsme shromáždili. V závislosti na formátu našich vstupních dat se musíme připravit jednu nebo více formátů dat, který je podporován BigInsights. V příkladu je uvedeno výše hledáme vstupní klíčová slova - "Apple", "Mac" a "Steve". Tyto vstupní parametry jsou použity pro aplikaci pro shromažďování dat z webových stránek, které mají tato klíčová slova uvedená.
Step 2 - Rozvoj textu odsávání a otestovat stejný – BigInsights Pluginy jsou k dispozici pro nejpoužívanějších Java IDE - Eclipse. Použití průvodců Eclipse založené na můžeme snadno vyvíjet textové odsavače a testovat je. BigInsights informační centrum má k dispozici všechny informace o pre-potřebným softwarem, která je potřebná k rozvoji textových odsavače. Na širokém úrovni, Následující kroky musí být provedeny na vytvoření textového odsávání na platformě Eclipse, jakmile BigInsights plugin je úspěšně nainstalován -
- Vytvořte nový projekt BigInsights.
- Importovat ukázkových dat, který je potřebný pro testování. Ukázková data v našem příkladu je obvykle ve formátu JSON array. Pro naše účely testování dejte nám používat export zařízení Bigsheets vyvážet některé záznamy (kolem 10000) dat v souboru CSV. Pak jsme se spustit skript Jaql. Tento skript převede soubor CSV do příslušné vymezeném formátu, který je čitelný BigInsights. Tento nový soubor je pak použit jako vstupní soubor k zatmění analytický nástroj.
- Vytvoření artefakty, které jsou požadovány v přihlášce např. moduly, skripty, uživatelem definované slovníky a tak dále.
- Nyní otestovat svůj kód proti vzorových dokumentů založených na vstupním kolekce poskytované. Vestavěné funkce, jako je anotace cestovatel a okne záznamu jsou používány ke kontrole výsledků. Tato zkouška by měla být provedena iterativně.
Step 3 - Zveřejnění a nasazení - Aplikace je připravena k nasazení a publikoval když jsme spokojeni s výsledky, které se vyrábí pomocí textového extraktoru. Obvykle je publikován v katalogu aplikačním klastru. Aby bylo možné nasadit zveřejnila žádost užíváme BigInsights webové konzole. Měli bychom použít přihlašovací ID, který má administrativní oprávnění.
Step 4 - Spusťte textový odsávání - Po úspěšném zavedení textu odsávání, nyní je čas jej vykonat. Jak víme BigInsights má schopnost vyvolat textové odsavače pomocí Java API pomocí Jaql a Bigsheets. Výhodou použití Bigsheets je, že neexistuje žádná další kódování nebo skriptovací zde zapotřebí. Jakékoliv Business Analyst může trvat až tento úkol.

Zobrazení:

Na tom není nic zvláštního na názory AQL. Jsou podobné standardním pohledy v relační databázi. Každé zobrazení AQL má jméno, a skládá se z řádků a sloupců. v AQL, pohledy jsou vždy zhmotnil. Všechny příkazy AQL pracují na zhlédnutí. Zde máme jednu zvláštní pohled s názvem Document. Tento pohled je mapována do jednoho vstupního dokumentu v době, kdy ze své sbírky za běhu. Tento pohled je velmi užitečné získat podmnožinu z velkého souboru dat.

Summary: analytika text je jádrem libovolné aplikace analytický. Tak to je velmi důležité naučit se nástrojů a rámců potřebných k rozvoji textu analytických aplikací. IBM InfoSphere Biginsight je jedním z nejlepších dostupných nástrojů pro textové analytiku. Shrňme si naši diskusi v podobě následujícího kulky -

analytika textu je mocný mechanismus používá k získání informací z nestrukturovaných sadu dat.
Hlavní komponenty textových analytiky jsou -
- Formát Collection vstup
- regulární výraz
- podpora více jazyků
- Anotace Query Language nebo AQL
Hlavní aspekty textových analytiky jsou -
- deklarativní jazyk
- Uživatelsky definované slovníky
- Uživatelské nastavení pravidel
- Sledování

Share on Facebook

Save

Tagged on: Analytika, Big Data, Text Analytics

TechAlpine – All About Technology

www.techalpine.com