Nola IBM Oharpen-marka erabili (NCA) testu analytics egin?

Orokorra: Testua Analytics testu egituratu edo erdi egituratutako from datuak egituratua erauzteko erabilitako mekanismo indartsua da. Hau da arau sortuz egin. Arau hauek, informazio garrantzitsua ateratzeko erauzketa programak erabiltzen dituzte.

Artikulu honetan buruz hitz egin dugu Annotation Query language or NCA hau da, testu analytics erabilitako.

Sarrera: IBM Infosphere enpresa Insights aztertzeko datuen bolumen handi bat bertan dibertsifikatua barrutitik da barruan erabilitako plataforma bat da. Normalean, datu-mota horiek ez ikusi egingo zaie ia ezinezkoa bihurtzen da, besteak beste, tradizionala DBMS edo RDBMS tresnak erabiliz datuen bolumena prozesatu delako. Oharpen kontsulta hizkuntza edo NCA IBM InfoSphere erabilitako osagai gisa erauzketa bertan egituratutako informazioa ateratzeko dezakezu edukia egituratu edo erdi egituratutako eraikitzeko galdeketa-lengoaia bat da.

Testua Analytics osagaiak:

  • Sarrerako bilduma formatuak - Sarrerako bilduma bai dokumentu edo bertan zuzenean dugun informazioa ateratzeko sarrera testu gisa erabiltzen da dokumentu multzo bat da. Normalean sarrera bilduma bat honako formatu hauetako bat izan behar du -
    • UTF-8 kodetutako testu fitxategi hurrengo luzapen edozein izatea -
      • .txt
      • .htm edo .html edo .xhtml
      • .xml
    • UTF-8 kodetutako testu dituen karpeta bat.
    • hurrengo luzapen horrek dauka UTF-8 kodetutako testu fitxategi batera artxiboko fitxategi An -
      • .tar
      • .zip
      • .gz
    • UTF-8 kodeketako komaz banatuta fitxategia.
    • A arrunta JSON fitxategia.
  • Esapide – Adierazpen erregularrak dira gehien testu bilaketa mekanismo erabiliko. Adierazpen erregular eraikitzaileak adierazpen erregular eta sub esamoldeak eraikitzeko erabiliko dira, ezin dugu erabili.
  • Multilingual laguntza - Idatzi analytics osagai ditu bertan idatzita komunikatzeko erabiltzen dira hizkuntza ohikoena laguntza. Idatzi analytics bi teknika nagusien oinarritzen - tokenization eta hizketa zatiak.
  • Patterns - The eredua aurkikuntza Ezaugarri talde sarrera testuinguru horrek antzekoak dira edo eredu komun bat dute.
  • Oharpen kontsulta edo NCA - NCA testu analytics erabilitako hizkuntza nagusia. Hau, erabiltzen diren egiturarik textual osagaiak informazio garrantzitsua ateratzeko erauzleak eraikitzeko erabiltzen da. Hau SQL hizkuntza bezalako gehiago da.

Testua Analytics-alderdiak:

  • Deklaratiboak hizkuntza - adierazpenezkoak hizkuntza bat identifikatzeko eta dauden testu-edukia eta informazio testuala ateratzeko erabiltzen da. Oharpen kontsulta edo NCA aukera ematen digu gure bildumak egin dute erregistro or aldiz bertan zehaztutako arau bat datorrela. Aldiz hauek NCA edozein ke irteera nagusiak dira. Views txostena bistaratzeko erabiltzen dira IBM Bigsheets. IBM Bigsheet inbuilt reporting eta Arbel IBM Infosphere Biginsight plataforma osagaia da.
  • Erabiltzaileak definitutako hiztegiak - Dictionary enpresa Insights ateratzeko sarrerako testu baten testu jakin identifikatzeko gaitasuna du. NCA gure dictionary pertsonalizatu horrek lagungarria izango da, nahi den emaitza modu eraginkorrean lortzeko behar ahal dugu.
  • Erabiltzaileak definitutako arau - ereduak eta adierazpen erregularrak laguntzaz arau edo mekanismo datuak bereiztuak dezakegu datu-multzo handi bat erabiliz zehaztu ahal izango dugu.

Pentsa dezagun hurrengo adibidea - zenbait keywords daiteke edo ez bata bestearen hein jakin batean agertzen aipatuko ditugu. E.g. Hiru hitz kontuan hartu - "Apple", "Mac" eta "Steve". hitz hauek guztiak definitzen sorta baten barruan agertzen bada hori Apple ordenagailuak izan zen Steve Jobs eta Mac-ek sortu buruz ari gara sistema eragilearen gisa erabiltzen da hemen bistako bihurtzen da. Baina hitza "Waugh" eskuineko hitza "Steve" eta beste bi gako hitzak ostean agertzen bada - "Apple" eta "Mac" ez dira gaur, ondoren, argi dago Australiako ospetsua cricketer buruz ari gara - Steve Waugh.

  • Jarraipena - testu analisi prozesua etorriko prozesua da. beharrezkoa bihurtzen da lortutako emaitzen zer gara dauden arauak kanpo arauak eta beste erabiltzaileak definitutako hiztegiak aldatzeko.

Testua Analytics-prozesua:

testu analytics prozesua burutzen da hurrengo lau urratsetan -

  • Step 1 - Biltzen eta lagin datuak prestatzen - oinarritutako testu analytics edozein aplikazio adibide datu batzuk laguntzaz garatu da. Adibide datuen Hau da bertan bildu dugu, datu handiagoa azpimultzo bat izatea sortu. Gure sarrera daturik formatua arabera behar dugu datu formatu bat edo bat baino gehiago den BigInsights onartzen prestatzeko. Adibide gisa aipatu gako-hitzak bilatzen dugu - "Apple", "Mac" eta "Steve". sarrera-parametro hauek aplikatzea aipatu hitz hauetako dute web datuak biltzen lagundu.
  • Step 2 - testu ke garatzea eta bera probatzeko – BigInsights Plugins dira gehien erabiltzen Java IDE eskuragarri - Eclipse. Eclipse oinarritutako morroiak erabiltzea dugu erraz testu erauzleak garatu eta probatzeko. BigInsights informazio zentroa da, eta hori beharrezkoa da testu erauzleak garatzeko pre-baldintza software buruzko informazio guztia dauka. maila zabal bat On, urrats hauek egin behar dira testu eklipse on ke bat sortzeko beharra, BigInsights plugina ondo instalatu da behin -
    • Sortu BigInsights proiektu berri bat.
    • Inportatu den probak egiteko behar diren lagin datuak. lagina adibidez, gure datuek da normalean JSON array formatuan. Gure probak helburua For utzi du Bigsheets export instalazioak erabili digu erregistro batzuk esportatzen uzten (inguruan 10000) CSV fitxategi batean datuak. Ondoren Jaql script exekutatu dugu. Script honek CSV fitxategi bihurtzen amaiera egokia harpidetzako fitxategi formatu hau da BigInsights irakur sartu. fitxategi berri hau, ondoren, sarrerako fitxategia erabiltzen da eklipse tresna analitikoa.
    • Sortu eskaeraren adibidez eskatzen dituzten artifacts. moduluak, gidoiak, Erabiltzaileak definitutako hiztegiak eta abar.
    • Orain probatu zure kodea oinarritutako gogoeta bilduma lagin dokumentuak aurka. The oharpen esploratzaile eta log panelean bezalako ezaugarri eraiki emaitzak aztertuko dira erabiltzen. Proba hau egin behar da iteratively.
  • Step 3 - Argitaratu eta zabaldu - Aplikazioa prest zabaldu ahal izateko eta argitaratuko da, hau da, testu ke sortutako emaitzekin pozik gara. Normalean, aplikazio kluster bat katalogoa argitaratu da. Ordena argitaratutako aplikazio zabaldu In BigInsights web kontsola erabili dugu. login id zein administrazio-baimena erabili behar dugu.
  • Step 4 - Exekutatu testu extractor - testu ke arrakastaz zabaltzeko ondoren, orain da denbora da exekutatu. BigInsights Dakigunez Java API erabiliz Jaql eta Bigsheets laguntzaz testu erauzleak deitzeko gaitasuna du. Bigsheets erabiliz abantaila da ez dagoela ez kodetze gehigarri edo scripting hemen beharrezkoa da. Edozein Business Analyst luza daiteke zeregin honetan.

Views:

Ez dago ezer berezirik NCA ideiei buruz. Hauek datu-base erlazionalak batean standard views antzekoak dira. NCA ikuspegi bakoitzak izen bat du, eta lerro eta zutabe osatzen. NCA en, ikuspegiak beti gauzatu dira. NCA adierazpenak guztiak views funtzionatzeko. Hemen ikuspegi berezi bat deitzen dugun dokumentua. Ikuspegi hau sarrerako dokumentu bat mapatzen garai hartan zure bilketa exekuzio-tik. ikuspegi hau oso lagungarria da azpimultzo ateratzeko datu-multzo handi batetik.

Summary: Idatzi analytics analytics edozein aplikazio muinean dago. Beraz, oso garrantzitsua da testu analytics aplikazioak garatzeko beharrezko tresnak eta esparruak ikasteko. IBM Infosphere Biginsight tresnarik onenak testu analytics eskuragarri bat da. Dezagun gure balak ondorengo formularioa eztabaida laburbiltzen digu -

  • Idatzi analytics informazioa ateratzeko datu multzo egituratu erabilitako mekanismo indartsua da.
  • testu analytics osagai nagusi daude -
    • Sarrerako Collection formatuan
    • espresio erregularra
    • laguntza Multilingual
    • Oharpen kontsulta edo NCA
  • testu analytics alderdi nagusien dira -
    • deklaratiboak hizkuntza
    • Erabiltzaileak definitutako hiztegiak
    • Erabiltzaileak definitutako arauak
    • Jarraipena
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share