Kiel uzi IBM Annotation Demanda Lingvo (AQL) Fari tekston analytics?

Superrigardo: Teksto Analytics estas potenca mekanismo uzita eltiri strukturita datumon de unstructured aŭ semi strukturita tekston. Tio ĉi estas farita de kreanta regulojn. Ĉi tiuj reguloj estas uzita de la eltiraj programoj eltiri la rilatan informon.

En ĉi tiu artikolo ni parolos pri la ANnotation QUery LAnguageAQL Kiu estas uzita por teksto analytics.

Enkonduko: IBM Infosphere estas platformo uzita analizi la komercajn enrigardojn ene de grandega volumo de datumo kiu estas de diversigita gamon. Kutime ĉi tiuj tipoj de datumo estas ignorita ĉar ĝi fariĝas preskaŭ neebla pretigi tia volumo de datumo uzanta la tradician DBMS aŭ RDBMSaj iloj. Annotation demanda lingvo aŭ AQL estas demanda lingvo uzita en IBM InfoSphere kiel ero konstrui eltirilojn kiu povas eltiri strukturita informon de unstructured aŭ semi strukturita enhavon.

Eroj de Teksto Analytics:

  • Eniga kolekto formatoj – Eniga kolekto estas aŭ dokumento aŭ aro de dokumentoj kiu estas uzita kiel eniga teksto de kie ni estas supozita eltiri la informon. Kutime eniga kolekto devas esti unu el la sekvantaj formatoj –
    • UTF-8 koda teksta dosiero havanta iun ajn de la sekvantaj etendaĵoj –
      • .Txt
      • .Htm aŭ .Html aŭ .Xhtml
      • .Xml
    • Adresaro enhavanta UTF-8 kodaj tekstaj dosieroj.
    • Arkiva dosiero kun la sekvantaj etendaĵoj kiu enhavas UTF-8 kodaj tekstaj dosieroj –
      • .Asfalto
      • .Zipo
      • .Gz
    • UTF-8 koda komo apartigis dosieron.
    • Klara JSONa dosiero.
  • Regula Esprimo – Regulaj esprimoj estas plej ofte uzita por teksta serĉo mekanismo. Ni povas uzi regulajn esprimajn konstruistojn kiu estas uzita konstrui regulajn esprimojn kaj sub esprimoj.
  • Plurlingva Subteno – Teksto analytics eroj havas subtenon por plej oftaj lingvoj kiu estas uzita por skribaj komunikadoj. Teksto analytics estas bazita sur du gravaj teknikoj – Tokenization Kaj Partoj de parolado.
  • Skemoj – La skemaj eltrovaj ĉefaĵaj grupoj enigaj kuntekstoj kiu estas simila aŭ havas oftan skemon.
  • Annotation Demanda Lingvo aŭ AQL – AQL estas la primara lingvo uzita por teksto analytics. Tio ĉi estas uzita konstrui eltirilojn kiu estas tiam uzita eltiri rilatan informon de unstructured tekstaj eroj. Tio ĉi estas pli da kiel SQLa lingvo.

Flankoj de Teksto Analytics:

  • Declarative lingvo – Declarative lingvo estas uzita identigi kaj eltiri tekstan informon de ekzistanta tekstan enhavon. Annotation Demanda Lingvo aŭ AQL ebligas nin havi niajn proprajn kolektojn de RekordojVidoj Kiu egalas specifan regulon. Ĉi tiuj vidoj estas la ĉefa produktado de ajna AQLa eltirilo. Vidoj estas uzita montri raporton sur IBM Bigsheets. IBM Bigsheet Estas la inbuilt raportado kaj instrumentpanela ero de IBM Infosphere Biginsight platformo.
  • Uzanto difinita vortarojn – Vortaro havas la kapablecon identigi certan tekston de eniga teksto eltiri la komercajn enrigardojn. En AQL ni povas havi nia personigita vortaron kiu estos helpema akiri la dezirita rezulton en efika maniero.
  • Uzanto difinita regulojn – Kun la helpo de skemoj kaj regulaj esprimoj ni povas specifi regulojn aŭ mekanismo uzanta kiun ni povas apartigi la datumon de granda aro de datumo.

Lasita-a konsideri la sekvantan ekzemplon – Ni povas mencii certajn ŝlosilvortojn kiu povas aŭ ne povas aperi ene de donita gamon de unu alia. Ekz. Konsideri la tri vorta – “Apple”, “Mac” kaj “Steve”. Se ĉiuj ĉi tiuj vortoj aperas ene de difinita gamon ĝi fariĝas evidenta ke ni estas parolantaj pri Appleaj komputiloj kiu estis fondita de Steve Laborpostenoj kaj Mac estas uzita kiel la funkciada sistemo ĉi tie. Sed se la vorto “Waugh” aperas ĝuste post kiam la vorto “Steve” kaj la alia du kerna vorta – “Apple” kaj “Mac” ne estas prezenti, Tiam ĝi fariĝas klara ke ni estas parolantaj pri la fama aŭstraliano cricketer – Steve Waugh.

  • Spuranta – La procezo de teksta analizo estas iterative procezo. Ĝi fariĝas necesa modifi la regulojn kaj alia uzanto difinita vortarojn bazita sur la rezultas kion ni elakiras de la ekzistantaj reguloj.

Teksto Analytics Procezo:

La teksto analytics procezo estas efektivigita en la sekvanta kvar paŝoj –

  • Paŝo 1 – Kolektanta kaj preparanta ekzemplan datumon – Ajna apliko bazita sur teksto analytics estas evoluigita kun la helpo de iu ekzempla datumo. Ĉi tiu ekzempla datumo estas kreita de havanta subgrupon de la pli granda datumo kiu ni kolektis. Dependanta al la formato de nia eniga datumo ni devas prepari unu aŭ multoblaj formatoj de datumo kiu estas subtenita de BigInsights. En la ekzemplo menciis sur nin serĉas la enigan ŝlosilvortan – “Apple”, “Mac” kaj “Steve”. Ĉi tiuj enigaj parametroj helpas la aplikon kolekti datumon de la retejoj kiu havas ĉi tiujn ŝlosilvortojn menciis.
  • Paŝo 2 – Evoluiganta la tekstan eltirilon kaj elprovi la saman – BigInsights Kromsoftvaroj estas haveblaj por la plej ofte uzita Java IDEa – Eklipso. Uzanta la Eklipson bazita sorĉistojn ni facile povas evoluigi la tekstajn eltirilojn kaj elprovi ilin. La BigInsights informa centro havas ĉiuj la informo sur la pre-postulata softvaro kiu estas postulita evoluigi la tekstajn eltirilojn. Sur larĝa nivelo, La sekvantaj paŝoj devas esti efektivigita krei tekstan eltirilon sur eklipso, Unufoje la BigInsights kromsoftvaro estas instalita sukcese –
    • Krei novan BigInsights projekto.
    • Importi la ekzemplan datumon kiu estas postulita por elprovado. La ekzempla datumo en nia ekzemplo estas tipe en JSONa ara formato. Por nia elprovada celo lasis nin uzi la Bigsheets eksportaĵa servo eksporti kelkajn rekordojn (Proksimume 10000) De datumo en CSVa dosiero. Tiam ni kuras la Jaql skribo. Ĉi tiu skribo transformas la CSVan dosieron en konvena delimited dosiera formato kiu estas legebla de BigInsights. Ĉi tiu nova dosiero estas tiam uzita kiel eniga dosiero al la eklipso analiza ilo.
    • Krei la artefaktojn kiu estas postulita de la apliko ekz. AQLaj kapsuloj, AQLaj skriboj, Uzanto difinita vortarojn kaj tiel plu.
    • Nun elprovi vian kodon kontraŭ la ekzemplo dokumentas bazita sur la eniga kolekto provizis. La konstruita en ĉefaĵoj kiel annotation esploristo kaj la ŝtipo pane estas uzita inspekti la rezultojn. Ĉi tiu testo devus esti efektivigita iteratively.
  • Paŝo 3 – Eldoni kaj deplojiĝi – La apliko estas preta esti deplojiĝita kaj eldonita kiam nin estas kontentigita kun la rezultoj kiu estas produktita de la teksta eltirilo. Kutime ĝi estas eldonita en la aplika katalogo de grapolo. Por deplojiĝi la aperintan aplikon ni uzas la BigInsights araneaĵa regilaro. Ni devus uzi ensalutan identigaĵon kiu havas la administraciajn privilegiojn.
  • Paŝo 4 – Kuri la tekstan eltirilon – Post kiam deplojiĝanta la tekstan eltirilon sukcese, Ĝi estas nun tempo efektivigi ĝin. Kiel ni scias BigInsights havas la kapablecon alvoki la tekstajn eltirilojn uzanta Java API kun la helpo de Jaql kaj Bigsheets. The advantage of using Bigsheets is that there is no additional coding or scripting required here. Any Business Analyst can take up this task.

AQL Views:

Estas nenio speciala pri AQLaj vidoj. Ĉi tiuj estas similaj al la normaj vidoj en interrilata datumaro. Ĉiu AQLa vido havas nomon, Kaj konsistas de disputoj kaj kolumnoj. En AQL, Vidoj estas ĉiam realiĝita. Ĉiuj la AQLaj komunikaĵoj funkcias sur vidoj. Ĉi tie ni havas unu specialan vidon vokis Dokumenton. Ĉi tiu vido estas mapita al unu eniga dokumento ĉe la tempo de via kolekto ĉe runtime. Ĉi tiu vido estas tre helpema eltiri la subgrupon de la granda aro de datumo.

Resuma: Teksto analytics estas ĉe la koro de ajna analytics apliko. Do ĝi estas tre grava lerni la ilojn kaj kadrojn postulita evoluigi tekston analytics aplikoj. IBM Infosphere Biginsight estas unu el la plej bonaj iloj havebla por teksto analytics. Lasi nin resumi nian diskuton en la formo sekvi kuglojn –

  • Teksto analytics estas potenca mekanismo uzita eltiri informon de unstructured fiksita de datumo.
  • Gravaj eroj de teksto analytics estas –
    • Eniga Kolekto formato
    • Regula esprimo
    • Plurlingva subteno
    • Annotation Demanda Lingvo aŭ AQL
  • Gravaj flankoj de teksto analytics estas –
    • Declarative lingvo
    • Uzanto difinita vortarojn
    • Uzanto difinita regulojn
    • Spuranta
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share