Ինչպես օգտվել IBM անոտացիա Հարցման լեզու (AQL) Ինչպես անել, Text Analytics?

Overview: Text Analytics է հզոր մեխանիզմ է հանենք համակարգված տվյալների unstructured կամ կիսա կառուցվածքային տեքստը. Դա արվում է ստեղծել կանոնները. Այդ կանոնները օգտագործվում են արդյունահանման ծրագրերի հանենք համապատասխան տեղեկատվություն.

Այս հոդվածում մենք կխոսենք այն մասին, Աnnotation Query Language or AQL որն օգտագործվում է Text Analytics.

Ներածություն: IBM Infosphere մի հարթակ, որն օգտագործվում է վերլուծել բիզնես Խորաթափանցություն ընթացքում հսկայական ծավալի տվյալների, որը դիվերսիֆիկացված տիրույթում. Սովորաբար այս տեսակի տվյալների, որոնք անտեսվել է, քանի որ այն դառնում է գրեթե անհնար է մշակել մի այնպիսի ծավալի տվյալների, օգտագործելով ավանդական ՏԲԿՀ կամ RDBMS գործիքներ. Անոտացիա հարցում լեզուն կամ AQL մի հարցում օգտագործվող լեզուն IBM InfoSphere որպես բաղադրիչ է կառուցել extractors, որը կարող է դուրս հանել համակարգված տեղեկատվություն է unstructured կամ կիսա կառուցվածքային բովանդակությամբ.

Բաղադրիչները Text Analytics:

Input Collection ձեւաչափերով - Input հավաքածուն կամ մի փաստաթուղթ կամ մի շարք փաստաթղթեր, որոնք օգտագործվում է որպես մուտքագրման տեքստում, որտեղ մենք պետք է հանենք այն տեղեկությունները. Սովորաբար մի ներդրում հավաքածուն պետք է լինի մեկը, հետեւյալ ձեւաչափերով -
- UTF-8 կոդավորված տեքստային ֆայլի օժտված են հետեւյալ ընդարձակման -
  - .txt
  - .htm կամ .html կամ .xhtml
  - .xml
- A ցուցակում պարունակող UTF-8 կոդավորված տեքստային ֆայլեր.
- Արխիվի ֆայլի են հետեւյալ ընդարձակման, որոնք պարունակում UTF-8 կոդավորված տեքստային ֆայլեր -
  - .կուպր
  - .ZIP
  - .GZ
- UTF-8 կոդավորված ստորակետով անջատված ֆայլ.
- A պարզ JSON ֆայլը.
Կանոնավոր արտահայտման – Կանոնավոր արտահայտություններ են առավել հաճախ օգտագործվում է տեքստային որոնման մեխանիզմի. Մենք կարող ենք օգտագործել կանոնավոր արտահայտություն, շինարարներ, որոնք օգտագործվել են կառուցել կանոնավոր արտահայտություններ եւ ենթահաշիվների արտահայտություններ.
Բազմալեզու Աջակցություն - Text Analytics բաղադրիչները ունի աջակցության համար առավել տարածված լեզուների, որոնք օգտագործվում են գրավոր հաղորդակցության. Text Analytics հիմնված է երկու հիմնական տեխնիկան - tokenization իսկ խոսքի մասեր.
Patterns - Այդ օրինակը Discovery խաղարկային խմբեր ներմուծած համատեքստում, որոնք համընկնում են կամ ունեն ընդհանուր օրինակին.
Անոտացիա Query Language կամ AQL - AQL է առաջնային լեզուն օգտագործվում է Text Analytics. Սա օգտագործվում է կառուցել extractors, որոնք այնուհետեւ օգտագործվում է հանել համապատասխան տեղեկատվություն unstructured տեքստային բաղադրիչների. Սա ավելի շատ նման SQL լեզվի.

Ասպեկտները Text Analytics:

Դեկլարատիվ լեզուն - A դեկլարատիվ լեզուն օգտագործվում է բացահայտել եւ հանել տեքստային տեղեկատվություն է առկա տեքստային բովանդակության. Անոտացիա Query Language կամ AQL հնարավորություն է տալիս մեզ ունենալ մեր սեփական հավաքածուները գրառումները or դիտում որը համապատասխանում է որոշակի կանոն. Այս դիտում են հիմնական արտադրանքը ցանկացած AQL extractor. - Դիտարկումների քանակը: օգտագործվում են դրսեւորել վերաբերյալ հաշվետվություն IBM Bigsheets. IBM Bigsheet է inbuilt հաշվետվությունների եւ վահան բաղադրիչն IBM Infosphere Biginsight հարթակ.
User սահմանվում բառարաններ - Բառարան ունի կարողությունը հայտնաբերելու որոշակի տեքստ ից Մուտքագրումները արդյունահանելու բիզնես Խորաթափանցություն. Ի AQL մենք կարող ենք ունենալ մեր պատվերով բառարան, որը օգտակար կլինի հասնել ցանկալի արդյունքի արդյունավետ կերպով.
User սահմանվում կանոնները - Օգնությամբ նախշերով եւ կանոնավոր արտահայտություններ, մենք կարող ենք ճշտել կանոնները կամ մեխանիզմ օգտագործելով, որոնք մենք կարող ենք առանձնացնել տվյալների մի մեծ շարք տվյալների.

Եկեք քննարկենք հետեւյալ օրինակը. մենք կարող ենք նշել, որոշակի հիմնաբառեր, որոնք կարող են կամ չեն կարող հայտնվում է տվյալ շարք մեկը մյուսի. E.g. հաշվի առնել երեք բառերը - «Apple», «Mac» եւ «Սթիվ». Եթե այս բոլոր խօսքերը հայտնվում շրջանակներում սահմանված միջակայքում ակնհայտ է դառնում, որ մենք խոսում Apple համակարգիչներ, որը հիմնել է Սթիվ Ջոբսի, եւ Մաք օգտագործվում է որպես օպերացիոն համակարգի Մականուն. Բայց եթե դուք ասում եք "Waugh" հայտնվում ճիշտ բառից հետո «Սթիվ» եւ մյուս երկու բառ բանալիները - «Apple» եւ «Mac» չեն ներկայացնում, ապա պարզ է դառնում, որ մենք խոսում հայտնի Ավստրալիայի cricketer - Steve Waugh.

Հետեւում - Գործընթացը տեքստով վերլուծության է կրկնվող ընթացք. Այն դառնում է անհրաժեշտ փոփոխել կանոնների եւ այլ օգտագործողի սահմանվում բառարաններ արդյունքների հիման վրա, թե ինչ ենք դուրս գալ գոյություն ունեցող կանոնների.

Text Analytics Process:

The Text Analytics գործընթացն իրականացվում է հետեւյալ չորս քայլերին -

Step 1 - Հավաքածուներ եւ պատրաստվում նմուշային տվյալներից - Ցանկացած դիմումի հիման վրա Text Analytics որը մշակվել օգնությամբ որոշ նմուշային տվյալներից. Այս նմուշը տվյալներն այն ստեղծված է ունենալ մի ենթաբազմություն է ավելի մեծ տվյալների, որը մենք հավաքված. Կախված է ձեւաչափի մեր տվյալների մուտքագրման մենք պետք է պատրաստել մեկ կամ մի քանի ձեւաչափեր տվյալները, որը աջակցում է BigInsights. Իսկ, օրինակ վերը նշվեց, մենք նայենք համար մուտքային հիմնաբառեր - «Apple» -, «Mac» եւ «Սթիվ». Այս ներմուծած պարամետրերը օգնել դիմումը հավաքելու տվյալներ կայքերում, որոնք ունեն այդ հիմնաբառեր նշված.
Step 2 - Զարգացող տեքստային extractor եւ փորձարկել է նույնը – BigInsights Plugins հասանելի են առավել հաճախ օգտագործվում Java IDE - Eclipse. Օգտագործելով Eclipse վրա հիմնված Վիզարդզ, մենք կարող ենք հեշտությամբ զարգացնել տեքստային extractors եւ փորձարկել դրանք. The BigInsights տեղեկատվական կենտրոնն ունի բոլոր տեղեկությունները վերաբերյալ նախապայման ծրագրային ապահովման, որը պահանջվում է զարգացնել տեքստային extractors. Ին լայն մակարդակով, հետեւյալ քայլերը պետք է իրականացվի է ստեղծել տեքստային Extractor վրա eclipse, երբ BigInsights plugin տեղադրված հաջողությամբ
- Ստեղծել նոր BigInsights նախագիծ.
- Ներմուծել է օրինակելի տվյալներ, որոնք պահանջվում է փորձարկման. Ընտրանքը տվյալները մեր օրինակում, որպես կանոն, մի JSON զանգվածի ձեւաչափով. Որովհետեւ մեր փորձարկման նպատակով եկեք օգտագործել Bigsheets արտահանման հաստատության արտահանել որոշ ձայնագրություններ (շուրջը 10000) տվյալների մի CSV ֆայլը. Հետո մենք վազում Jaql script. Այս սցենարը նորադարձների CSV ֆայլը մեջ համապատասխան սահմանագծված ֆայլի ֆորմատ, որը ընթեռնելի BigInsights. Այս նոր ֆայլը, ապա օգտագործվում է որպես մուտքագրման ֆայլ է խավարման վերլուծական գործիք.
- Ստեղծել artifacts, որոնք պահանջվում են դիմումի օրինակ. մոդուլներ, սցենարներ, Օգտվողի սահմանված բառարաններ եւ այլն.
- Այժմ ձեր թեստային կոդը դեմ ընտրանքային փաստաթղթերի հիման վրա մուտքագրման հավաքածուի տրամադրված. Այն կառուցվել է առանձնահատկություններ, ինչպիսիք են ծանոթագրությունների Explorer եւ մուտք թրաշ օգտագործվում են ստուգել արդյունքները. Այս թեստը պետք է իրականացվի iteratively.
Step 3 - Հրատարակել եւ տեղակայել - Դիմումը պատրաստ է տեղակայվել եւ հրապարակվում է, երբ մենք գոհ ենք արդյունքներից, որը արտադրված են տեքստում extractor. Սովորաբար այն հրապարակվում է հայտի կատալոգում կլաստերի. Որպեսզի տեղակայել հրապարակված դիմումը մենք օգտագործել BigInsights վեբ կոնսոլից. Մենք պետք է օգտագործել կեղծանուն id որն ունի վարչական արտոնությունները.
Step 4 - Վարում է տեքստային Extractor - Տեղակայումից հետո տեքստը Extractor հաջողությամբ, դա այժմ ժամանակն է կատարել այն. Քանի որ մենք գիտենք, թե BigInsights ունի կարողությունը վկայակոչել տեքստային extractors օգտագործելով Java API օգնությամբ Jaql եւ Bigsheets. Առավելությունն օգտագործման Bigsheets այն է, որ չկա լրացուցիչ կոդավորման կամ սցենարներից պահանջվում Մականուն. Ցանկացած Business Analyst կարող է տեւել մինչեւ այս խնդիրը.

Դիտումներ:

Բան չկա, հատուկ AQL դիտում. Դրանք նման են ստանդարտ տեսակետների մի Հարաբերական տվյալների բազայի. Յուրաքանչյուր AQL տեսություն ունի անվանում, եւ բաղկացած է տողերի եւ սյունակների. ի AQL, Տեսնել միշտ նյութականացված. Բոլոր AQL հայտարարությունները գործում դիտում. Այստեղ մենք մեկ հատուկ տեսակետը կոչվում Փաստաթուղթը. Այս տեսակետը mapped է մեկ մուտքագրման փաստաթղթի այն ժամանակ Ձեր հավաքածուի ժամը Runtime:. Այս տեսակետը շատ օգտակար է հանենք ենթաբազմություն է մեծ շարք տվյալների.

Summary: Text Analytics գտնվում է սրտում ցանկացած վերլուծություն դիմումը. Այնպես որ, դա շատ կարեւոր է իմանալ, գործիքների եւ շրջանակները անհրաժեշտ է զարգացնել Text Analytics դիմումները. IBM Infosphere Biginsight մեկն է լավագույն գործիքներից համար մատչելի Text Analytics. Եկեք ամփոփել մեր քննարկումը ձեւով հետեւելու փամփուշտներ -

Text Analytics է հզոր մեխանիզմ է հանենք տեղեկատվություն է unstructured շարք տվյալների.
Հիմնական բաղադրիչներն են Text Analytics են,
- Մուտքային Collection ձեւաչափը
- Կանոնավոր Արտահայտությունը
- բազմալեզու աջակցություն
- Անոտացիա Query Language կամ AQL
Խոշոր ասպեկտները Text Analytics են,
- դեկլարատիվ լեզուն
- User սահմանվում բառարաններ
- User սահմանվում կանոնները
- Հետեւում

Share on Facebook

Save

Tagged on: Վերլուծություն, Big Data, Text Analytics

TechAlpine – All About Technology

www.techalpine.com