როგორ გამოვიყენოთ IBM ანოტაცია შეკითხვის ენა (AQL) უნდა გავაკეთოთ ტექსტი ანალიტიკა?

მიმოხილვა: ტექსტი ანალიტიკა ძლიერი მექანიზმი გამოიყენება ამონაწერი სტრუქტურირებული მონაცემების unstructured ან ნახევრად სტრუქტურირებული ტექსტი. ეს კეთდება შექმნის წესები. ეს წესი გამოიყენება მოპოვების პროგრამების ამონაწერი შესაბამისი ინფორმაცია.

ამ სტატიაში ჩვენ ვისაუბრებთ იმ Annotation Query ლanguage or AQL რომელიც გამოიყენება ტექსტი ანალიტიკა.

შესავალი: IBM Infosphere არის პლატფორმა გამოყენებული ანალიზი ბიზნეს insights ფარგლებში დიდი მოცულობის მონაცემები, რომლებიც დივერსიფიცირებული სპექტრი. როგორც წესი, ამ ტიპის მონაცემების იგნორირებულია იმიტომ, რომ ეს ხდება თითქმის შეუძლებელია დამუშავება ასეთი მოცულობის მონაცემების გამოყენებით ტრადიციული DBMS ან RDBMS ინსტრუმენტები. ანოტაცია შეკითხვის ენაზე ან AQL არის შეკითხვის ენა გამოიყენება IBM InfoSphere როგორც კომპონენტი აშენება extractors, რომელსაც შეუძლია ამონაწერი სტრუქტურირებული ინფორმაციის unstructured ან ნახევრად სტრუქტურირებული შინაარსი.

კომპონენტები ტექსტი ანალიტიკა:

შეყვანის კოლექცია ფორმატებში - შეყვანის კრებული ან დოკუმენტი ან დოკუმენტების, რომელიც გამოიყენება, როგორც ტექსტის შეყვანა, სადაც ჩვენ უნდა ამონაწერი ინფორმაცია. როგორც წესი, შეყვანის კოლექცია უნდა იყოს ერთ-ერთ შემდეგ ფორმატებში -
- UTF-8 კოდირებით ტექსტური ფაილი რაიმე შემდეგ გაგრძელება -
  - .ტექსტი
  - .htm ან .html ან .xhtml
  - .xml
- დირექტორია შეიცავს UTF-8 კოდირებით ტექსტური ფაილი.
- არქივი ფაილი შემდეგ გაგრძელება, რომელიც შეიცავს UTF-8 კოდირებით ტექსტური ფაილი -
  - .tar
  - .zip
  - .gz
- UTF-8 კოდირებით მძიმეებით ფაილის.
- ბარის JSON ფაილი.
რეგულარული გამოხატვის – რეგულარული გამოსახულებების, რომლებიც ყველაზე ხშირად გამოიყენება ტექსტის ძებნა მექანიზმი. ჩვენ შეგვიძლია გამოვიყენოთ რეგულარული გამოხატვის მშენებლები, რომლებიც გამოიყენება მშენებლობა რეგულარული გამოსახულებების და ქვე გამოხატვის.
მრავალენოვანი მხარდაჭერა - ტექსტი ანალიტიკა კომპონენტები აქვს მხარდაჭერა ყველაზე გავრცელებული ენების რომლებიც გამოიყენება წერილობითი კომუნიკაცია. ტექსტი ანალიტიკა ეფუძნება ორ ძირითად ტექნიკას - tokenization და ნაწილები სიტყვის.
ნიმუშები - ნიმუში აღმოჩენის ფუნქცია ჯგუფების შეყვანის კონტექსტში, რომლებიც მსგავსი ან აქვს საერთო ნიმუში.
ანოტაცია შეკითხვის ენა და AQL - AQL პირველადი ენა გამოიყენება ტექსტი ანალიტიკა. ეს გამოიყენება აშენება extractors რომლებიც შემდეგ გამოიყენება ამონაწერი შესაბამისი ინფორმაციის unstructured ტექსტური კომპონენტები. ეს უფრო მოსწონს SQL ენის.

ასპექტები ტექსტი ანალიტიკა:

დეკლარაციული ენა - დეკლარაციული ენა გამოიყენება იდენტიფიცირება და ექსტრაქტი ტექსტური ინფორმაცია არსებული ტექსტის შინაარსი. ანოტაცია შეკითხვის ენა და AQL საშუალებას გვაძლევს გვაქვს ჩვენი საკუთარი კოლექციები ჩანაწერები or views რომელიც შეესაბამება მითითებულ წესი. ეს რაოდენობა არის მთავარი გამომავალი ნებისმიერი AQL საწური. ნახვები გამოიყენება ცარიელია ანგარიში IBM Bigsheets. IBM Bigsheet არის inbuilt ანგარიშგების და დაფა კომპონენტი IBM Infosphere Biginsight პლატფორმა.
მომხმარებელი განსაზღვრული ლექსიკონები - ლექსიკონი აქვს უნარი, რათა დადგინდეს გარკვეული ტექსტის შეტანის ტექსტური ამონაწერი ბიზნეს insights. In AQL შეგვიძლია ჩვენი ინდივიდუალური ლექსიკონი, რომელიც სასარგებლო იქნება, მიიღოთ სასურველი შედეგი ეფექტიანად.
მომხმარებლის განსაზღვრული წესები - მოცემული ანალიზის დახმარებით ნიმუშების და რეგულარული გამოსახულებების ჩვენ შეუძლია მიუთითოს წესები და მექანიზმი გამოყენებით, რომელიც ჩვენ შეგვიძლია გამიჯნოს მონაცემების დიდი კომპლექტი მონაცემები.

განვიხილოთ შემდეგი მაგალითი - ჩვენ შეგვიძლია ვთქვათ გარკვეული სიტყვა, რომელიც შეიძლება იყოს ან არ ჩანს, მოცემულ სპექტრი ერთმანეთს. E.g. განიხილავს სამი სიტყვა - "Apple", "Mac" და "Steve". თუ ყველა ეს სიტყვა, როგორც ჩანს, განსაზღვრულ სპექტრი ცხადი ხდება, რომ ჩვენ ვსაუბრობთ Apple კომპიუტერი, რომელიც დაარსდა სტივ ჯობსი და Mac გამოიყენება როგორც ოპერაციული სისტემა აქ. მაგრამ, თუ სიტყვა "Waugh" როგორც ჩანს, მას შემდეგ, რაც სიტყვა "Steve" და სხვა ორი გასაღები სიტყვა - "Apple" და "Mac" არ არის, მაშინ ნათელია, რომ ჩვენ ვსაუბრობთ ცნობილი ავსტრალიელი cricketer - სტივ Waugh.

Tracking - პროცესი ტექსტის ანალიზი არის განმეორებითი პროცესი. აუცილებელი ხდება ცვლილებები წესები და სხვა მომხმარებლის განსაზღვრული ლექსიკონები შედეგებზე დაყრდნობით, რაც ჩვენ გავიდნენ არსებული წესები.

ტექსტი ანალიტიკა პროცესი:

ტექსტი ანალიტიკა პროცესი ხორციელდება შემდეგი ოთხი ნაბიჯები -

Step 1 - შეგროვება და ემზადება ნიმუში მონაცემები - ნებისმიერი განცხადების საფუძველზე ტექსტი ანალიტიკა განვითარებული დახმარებით ზოგიერთი ნიმუში მონაცემები. ამ ნიმუშის მონაცემები მიერ, რომელსაც სუბსეტ უფრო დიდი მონაცემები, რომელიც ჩვენ შეგროვებული. იმის მიხედვით, თუ ფორმატი ჩვენი შეყვანის მონაცემები, ჩვენ უნდა მოვამზადოთ ერთი ან მრავალი ფორმატების მონაცემები, რომელიც მხარს უჭერს BigInsights. მაგალითში ზემოთ აღინიშნა ჩვენ ვეძებთ შეყვანის სიტყვები - "Apple", "Mac" და "Steve". ეს შეყვანის პარამეტრების დაეხმაროს განაცხადის შეგროვება მონაცემების საიტებზე, რომელიც აქვს ამ სიტყვებით აღნიშნული.
Step 2 - განვითარებადი ტექსტში საწური და შეამოწმოთ იგივე – BigInsights Plugins ხელმისაწვდომია ყველაზე ხშირად გამოყენებული Java IDE - Eclipse. გამოყენება Eclipse დაფუძნებული ოსტატები ჩვენ ადვილად შეიძლება განვითარდეს ტექსტში extractors და შესამოწმებლად მათ. BigInsights საინფორმაციო ცენტრი ყველა ინფორმაცია წინაპირობა პროგრამული უზრუნველყოფა, რომელიც უნდა განავითაროს ტექსტში extractors. ფართო დონეზე, შემდეგი ნაბიჯები უნდა განახორციელა შექმნათ ტექსტური საწური on eclipse, ერთხელ BigInsights მოდული არის დამონტაჟებული წარმატებით -
- შექმენით ახალი BigInsights პროექტის.
- იმპორტი ნიმუში მონაცემები, რომელიც საჭიროა ტესტირება. ნიმუში მონაცემები ჩვენს მაგალითად, როგორც წესი, ამ JSON მასივი ფორმატი. ჩვენი ტესტირების მიზნით მოდით გამოვიყენოთ Bigsheets საექსპორტო ექსპორტის რამდენიმე ჩანაწერი (გარშემო 10000) მონაცემების CSV ფაილი. შემდეგ გაუშვით Jaql script. ამ სკრიპტის აკონვერტებს CSV ფაილი შევიდა შესაბამისი delimited ფაილი ფორმატი, რომელიც არის იკითხება BigInsights. ეს ახალი ფაილი შემდეგ გამოიყენება როგორც შეყვანის ფაილი eclipse ანალიტიკური ინსტრუმენტი.
- შექმნა ნიმუშებს, რომლებიც საჭირო განაცხადის მაგ. მოდულები, სკრიპტები, მომხმარებლის განსაზღვრული ლექსიკონები და ა.შ..
- შეამოწმოთ თქვენი კოდი წინააღმდეგ ნიმუში დოკუმენტების საფუძველზე შეყვანის კოლექციაში. ინტეგრირებული ფუნქციები, როგორიცაა ანოტაცია explorer და ჩანაწერთა სარკმელზე გამოიყენება შეამოწმოს შედეგები. ეს ტესტი უნდა ჩატარდეს განმეორებით.
Step 3 - გამოქვეყნება და განათავსოს - განაცხადის მზად არის განლაგებული და გამოქვეყნდა, როდესაც ჩვენ შედეგებით კმაყოფილია რომელიც მზადდება ტექსტი საწური. როგორც წესი, ეს არის გამოქვეყნებული განცხადების კატალოგი კასეტური. იმისათვის, რომ განათავსოს გამოქვეყნდა განცხადება, რომ ჩვენ გამოვიყენოთ BigInsights ვებ კონსოლის. ჩვენ უნდა გამოვიყენოთ ID სახელი, რომელსაც აქვს ადმინისტრაციული პრივილეგიები.
Step 4 - აწარმოებს ტექსტში საწური - მას შემდეგ, რაც შემოყვანა ტექსტში საწური წარმატებით, ეს არის დრო, რომ შეასრულოს ის. როგორც ვიცით BigInsights აქვს უნარი მოიყვანონ ტექსტში extractors გამოყენებით ჯავის API დახმარებით Jaql და Bigsheets. უპირატესობა გამოყენებით Bigsheets არის ის, რომ არ არის დამატებითი კოდირება ან სკრიფტინგის საჭირო აქ. ნებისმიერი ბიზნეს ანალიტიკოსი შეიძლება დასჭირდეს ამ ამოცანის.

ნახვა:

არაფერია განსაკუთრებული AQL რაოდენობა. ეს არის მსგავსი სტანდარტული ნახვა relational მონაცემთა ბაზა. თითოეული AQL შეხედულება აქვს სახელი, და შედგება რიგები და სვეტები. in AQL, რაოდენობა ყოველთვის შესრულებულა. ყველა AQL განცხადებები მოქმედებს რაოდენობა. აქ ჩვენ გვაქვს ერთი სპეციალური ხედი მოუწოდა დოკუმენტი. ეს მოსაზრება შეესაბამება შეტანის დოკუმენტი დროს თქვენი კოლექცია at runtime. ეს ძალიან სასარგებლო ამონაწერი subset მხრიდან დიდი კომპლექტი მონაცემები.

Summary: ტექსტი ანალიტიკა გულში რაიმე ანალიტიკა განცხადება. ასე რომ, ეს ძალიან მნიშვნელოვანია, რომ ვისწავლოთ ინსტრუმენტები და ფარგლებში უნდა განავითაროს ტექსტი ანალიტიკა განაცხადების. IBM Infosphere Biginsight არის ერთ-ერთი საუკეთესო იარაღები ხელმისაწვდომია ტექსტი ანალიტიკა. მოდით შევაჯამოთ ჩვენი დისკუსიის სახით შემდეგ ტყვია -

ტექსტი ანალიტიკა ძლიერი მექანიზმი გამოიყენება ამონაწერი ინფორმაციას unstructured კომპლექტი მონაცემები.
ძირითადი კომპონენტია ტექსტი ანალიტიკა -
- შეყვანის კოლექცია ფორმატი
- რეგულარული გამოსახულებანი
- მრავალენოვანი მხარდაჭერა
- ანოტაცია შეკითხვის ენა და AQL
ძირითადი ასპექტები ტექსტი ანალიტიკა -
- დეკლარაციული ენის
- მომხმარებელი განსაზღვრული ლექსიკონები
- მომხმარებლის განსაზღვრული წესები
- Tracking

Share on Facebook

Save

Tagged on: ანალიტიკა, დიდი მონაცემთა, ტექსტი ანალიტიკა

TechAlpine – All About Technology

www.techalpine.com