Si të përdorni IBM shënim Query Language (AQL) për të bërë analytics tekst?

Përmbledhje: Tekst Analytics është një mekanizëm i fuqishëm përdoret për nxjerrjen e të dhënave të strukturuara nga teksti pastrukturuar ose gjysëm të strukturuar. Kjo është bërë duke krijuar rregulla. Këto rregulla janë përdorur nga programet e nxjerrjes për nxjerrjen informacionin e duhur.

Në këtë artikull ne do të flasim rreth Njënnotation Query language or AQL e cila është përdorur për analytics tekst.

Parathënie: IBM Infosphere është një platformë e përdorur për të analizuar njohuritë e biznesit brenda një vëllim të madh të të dhënave e cila është e varg të larmishëm. Zakonisht këto lloje të të dhënave janë injoruar për shkak se ajo bëhet pothuajse e pamundur për të përpunuar një vëllim të tillë të të dhënave duke përdorur DBMS tradicionale ose mjete RDBMS. Annotation gjuha query ose AQL është një gjuhë query përdorur në IBM InfoSphere si një komponent për të ndërtuar extractors cilat mund të ekstrakt informacion të strukturuar nga përmbajtja e pastrukturuar ose gjysëm të strukturuar.

Komponentet e Analytics Tekst:

Formatet e mbledhjes Input - mbledhja Input është ose një dokument ose një grup i dokumenteve që është përdorur si një tekst të dhëna nga ku ne jemi të supozuar për nxjerrjen e informacionit. Zakonisht një koleksion input duhet të jetë një nga formatet e mëposhtme -
- file teksti UTF-8 koduar që ka ndonjë nga zgjerimet e mëposhtme -
  - .tekst
  - .htm ose .html ose .xhtml
  - .xml
- Një Lista përmban utf-8 fotografi koduar tekst.
- Një fotografi arkiv me zgjerimet e mëposhtme e cila përmban fotografi utf-8 koduar tekst -
  - .katran
  - .zinxhir
  - .gz
- UTF-8 koduar ndara me presje fotografi.
- Një fotografi plain JSON.
rregullt Shprehja – Shprehje të rregullta janë më të përdorura për mekanizmin e kërkimit text. Ne mund të përdorim ndërtuesit rregullta shprehje të cilat përdoren për të ndërtuar shprehje të rregullta dhe nën shprehje.
Multilingual Mbështetje - Komponentët Text analytics ka mbështetje për gjuhët më të zakonshme që përdoren për komunikimet me shkrim. analytics tekst është bazuar në dy teknika të mëdha - tokenization dhe pjeset e fjalimit.
modele - Zbulimi model Kontekstet grupe me metrazh të dhëna të cilat janë të ngjashme ose të ketë një model të përbashkët.
Annotation Query Language ose AQL - AQL është gjuha kryesore e përdorur për analytics tekst. Kjo është përdorur për të ndërtuar extractors cilat janë përdorur më pas për të nxjerrë informacionin e duhur nga komponentët e pastrukturuara tekstuale. Kjo është më shumë si gjuhë SQL.

Aspektet e Analytics Tekst:

Gjuha deklarative - Një gjuhë deklarative është përdorur për të identifikuar dhe për të nxjerrë informacion tekstuale nga përmbajtje ekzistuese tekst. Annotation Query Language ose AQL na mundëson që të kemi koleksionet tona të të dhëna or views e cila përputhet me një rregull të caktuar. Këto pikëpamje janë rezultati kryesor i çdo heqës AQL. Views janë përdorur për të shfaqur raport mbi IBM Bigsheets. IBM Bigsheet është raportimi dhe pult komponent inbuilt e platformës IBM Infosphere Biginsight.
Përdorues përcaktuar fjalorë - Fjalor ka aftësinë për të identifikuar tekstin e caktuar nga një teksti të dhëna për nxjerrjen njohuritë e biznesit. Në AQL ne mund të kemi fjalorin tonë përshtatur që do të jetë e dobishme për të marrë rezultatin e dëshiruar në mënyrë efikase.
Rregullat përdorues përcaktuar - Me ndihmën e modeleve dhe shprehje të rregullta që ne mund të përcaktojë rregulla apo mekanizëm duke përdorur të cilat ne mund të veçuar të dhënat nga një grup i madh i të dhënave.

Le të konsiderojmë shembullin e mëposhtëm - mund të përmendim disa fjalë kyçe të cilat mund ose nuk mund të shfaqen brenda një gamë të caktuar të njëri-tjetrit. E.g. të marrë në konsideratë tre fjalë - "Apple", "Mac" dhe "Steve". Nëse të gjitha këto fjalë paraqitet brenda një gamë të caktuar bëhet e qartë se ne po flasim për kompjutera Apple e cila u themelua nga Steve Jobs dhe Mac përdoret si sistem operativ këtu. Por në qoftë se fjala "Waugh" shfaqet menjëherë pas fjalës "Steve" dhe të tjera të dy fjalët kyçe - "Apple" dhe "Mac" nuk janë të pranishme, atëherë bëhet e qartë se ne po flasim për cricketer famshme Australian - Steve Waugh.

Gjurmon - Procesi i analizës së tekstit është një proces përsëritës. Bëhet e nevojshme për të modifikuar rregullat dhe përdorues përcaktuar fjalorë të tjera të bazuara në rezultatet që kemi marrë nga rregullat ekzistuese.

Tekst Procesi Analytics:

Procesi analytics tekst kryhet në katër hapa në vijim -

Step 1 - Mbledhja dhe duke përgatitur të dhënat e mostrës - Çdo aplikim i bazuar në analytics tekst është zhvilluar me ndihmën e disa të dhënave të mostrës. Këto të dhëna mostër është krijuar duke pasur një mesin e të dhënave më të madh të cilat ne kemi mbledhur. Në varësi të formatit të të dhënave tona të dhëna duhet të përgatisë një ose më shumë formatet e të dhënave e cila është mbështetur nga BigInsights. Në shembullin e përmendur më sipër, presim të fjalë kyçe të dhëna - "Apple", "Mac" dhe "Steve". Këto parametra të dhëna ndihmojnë kërkesën për të mbledhur të dhënat nga faqet e internetit të cilat kanë këto fjalë kyçe të përmendura.
Step 2 - Zhvillimi i heqës tekst dhe provë njëjtë – BigInsights Plugins janë në dispozicion për më të përdorura Java IDE - Eclipse. Duke përdorur magjistarët Eclipse bazuar ne mund të lehtë të zhvillojnë extractors tekst dhe provë e tyre. Qendra BigInsights informacioni ka të gjitha informacionet mbi software parakusht cila është e nevojshme për të zhvilluar extractors tekst. Në një nivel të gjerë, hapat e mëposhtëm duhet të kryhet për të krijuar një nxjerrës tekst në errësirë, një herë BigInsights plugin është instaluar me sukses -
- Krijo një projekt të ri BigInsights.
- Të importuar të dhënat mostër e cila është e nevojshme për testim. Të dhënat e mostrës në shembullin tonë është zakonisht në një format array JSON. Për qëllimin tonë të testimit le të përdorim të objektit Bigsheets eksportit të eksportojë disa shënime (rreth 10000) e të dhënave në një skedar CSV. Pastaj ne të drejtuar script Jaql. Ky script konverton file CSV në një format të përshtatshëm përkufizuar fotografi i cili është i lexueshëm nga BigInsights. Kjo skedë të re është përdorur pastaj si input file me mjet analitik eklips.
- Krijo objekte të cilat janë të kërkuara nga aplikimi e.g. module, scripts, përdorues përcaktuar fjalorë dhe kështu me radhë.
- Tani testuar kodin tuaj kundër dokumentet mostër bazuar në mbledhjen e të dhëna të dhënë. E ndërtuar në karakteristika si annotation explorer dhe panelin log janë përdorur për të inspektuar rezultatet. Ky test duhet të kryhet iteratively.
Step 3 - Publikimi dhe për të vendosur - Kërkesa është e gatshme që do të vendoset dhe të publikohet, kur ne jemi të kënaqur me rezultatet e cila është prodhuar nga heqës tekst. Zakonisht ajo është botuar në katalogun e aplikimit të një grup. Në mënyrë që të vendosë zbatimin e publikuar ne përdorim web BigInsights konsol. Ne duhet të përdorim një login id e cila ka privilegje administrative.
Step 4 - Run heqës tekst - Pas vendosjen e heqës tekst sukses, tani është koha për të ekzekutuar atë. Siç e dimë BigInsights ka aftësinë për të thirrur extractors tekst duke përdorur Java API me ndihmën e Jaql dhe Bigsheets. Përparësia e përdorimit Bigsheets është se nuk ka kodim shtesë ose scripting nevojshme këtu. Çdo Analist Biznesi mund të marrë këtë detyrë.

Views:

Nuk ka asgjë të veçantë në lidhje me pikëpamjet e AQL. Këto janë të ngjashme me pikëpamjet standarde në një bazë të dhënash relacionale. Çdo view AQL ka një emër, dhe përbëhet nga rreshta dhe kolona. në AQL, Pikëpamjet janë materializuar gjithmonë. Të gjitha deklaratat AQL të veprojë në pikëpamjet. Këtu ne kemi një pamje të veçantë të quajtur Document. Kjo pikëpamje është vendosur tek një dokument të dhëna në atë kohë nga koleksioni juaj në kohën e duhur. Kjo pikëpamje është shumë e dobishme për nxjerrjen mesin nga grupi i madh i të dhënave.

Summary: analytics tekst është në zemrën e çdo kërkesë analytics. Pra, është shumë e rëndësishme për të mësuar mjetet dhe korniza e nevojshme për të zhvilluar aplikacione text analytics. IBM Infosphere Biginsight është një nga mjetet më të mira në dispozicion për analytics tekst. Le të përmbledhim diskutimin tonë në formën e mëposhtme plumba -

Tekst analytics është një mekanizëm i fuqishëm përdoret për nxjerrjen e informacionit nga vendosur pastrukturuar e të dhënave.
komponentet kryesore të analytics tekst janë -
- format Collection Input
- shprehje e rregullt
- mbështetje Multilingual
- Annotation Query Language ose AQL
Aspektet kryesore të analytics tekst janë -
- gjuha deklarative
- Përdorues përcaktuar fjalorë
- Rregullat përdorues përcaktuar
- Gjurmon

Share on Facebook

Save

Tagged në: Analitikë, Big Data, Analytics tekst

TechAlpine – All About Technology

www.techalpine.com