נֶהַג פִּיל Apache ו- למידת מכונה

סקירה: עם כל כך במסגרות פיתוח רבות ברחבי, הוא הופך להיות חשוב כי אנחנו צריכים להיות מסוגלים בהיקף של עד היישום שלנו בכל רגע נתון של זמן. מכונת לימוד טכניקות כמו אשכולות וסיווג הפכה פופולרית בהקשר זה. נֶהַג פִּיל Apache הוא מסגרת שעוזרת לנו להשיג מדרגיות.

In this document, אני אדבר על Apache נֶהַג פִּיל וחשיבותו.

מבוא: נֶהַג פִּיל Apache הוא פרויקט קוד פתוח מ אחד Apache Software Foundation או ASF שיש לו את המטרה העיקרית של יצירת באלגוריתם למידה חישובית. הוצג על ידי קבוצת יזמים מפרויקט Lucene Apache, יש Apache נֶהַג פִּיל במטרה -

  • לבנות ולתמוך קהילה של משתמשים או תורמים כך שהגיש את קוד המקור עבור המסגרת אינו מוגבל לקבוצה קטנה של מפתחים.
  • דגש על הבעיות המעשיות, ולא בעיות סמויות או שלא הוכחו.
  • לספק תיעוד מתאים.

תכונות של Apache נֶהַג פִּיל:

נֶהַג פִּיל Apache מגיע עם מערך של תכונות ופונקציונליות במיוחד כאשר אנו מדברים על Clustering ו הסינון השיתופי. התכונות החשובות ביותר מפורטות כמו תחת -

  • טועמים Collaborative Filteringטַעַם הוא פרויקט קוד פתוח עבור סינון שיתופי. זהו החלק של מסגרת נֶהַג פִּיל המספק אלגוריתמים של למידה חישובית בהיקף של עד היישומים שלנו. הטעם משמש המלצות אישיות. בימים אלו כאשר אנו פותחים אתר אנו מוצאים שפע של המלצות הקשורות לאתר האינטרנט שאנחנו גולשים. האיור הבא מציג את אדריכלות דיאגרמה של טעם -
Taste Architecture diagram

טועמים אדריכלות דיאגרמה

Figure 1: טועמים אדריכלות דיאגרמה

  • מפה להפחית מימושים מופעל - להפחית אפשרו מימושים התקבצו נתמכות מפה מספר נֶהַג פִּיל. זה כולל K-ממוצע, מְעוּרפָּל, חוּפָּה
  • Distributed Navie בייס ו טיפוח Navie בייס - יש נֶהַג פִּיל Apache יישום עבור שני Navie בייס ו טיפוח בייס. לקבלת בייס הפשטות Navie מכונים כמו בייס ו טיפוח מכונים כמו CBayes. בייס משמש סיווג טקסט בעוד CBayes הוא רחבה של בייס אשר משמשות במקרה של 'מערכי נתונים'.
  • הוא תומך מטריקס וספריות וקטור אחרים הקשורים.

הגדרת Apache נֶהַג פִּיל:

הגדרת נֶהַג פִּיל Apache הוא פשוט מאוד והוא יכול להתבצע בשלבים הבאים -

  • Step 1 - כדי התקנת Apache נֶהַג פִּיל, אנחנו צריכים לפעול באחת מותקן -
    • JDK 1.6 or higher
    • נְמָלָה 1.7 or higher
    • מייבן 2.9 ומעלה - במקרה שאנחנו רוצים לבנות מקוד המקור
  • Step 2 - לפתוח את הקובץ, sample.zip ולהעתיק את התוכן בתיקיה ויש אומרים "אפאצ'י-נֶהַג פִּיל-דוגמאות".
  • Step 3 - מעבר בתוך התיקייה - "אפאצ'י-נֶהַג פִּיל-דוגמאות" ולהפעיל את הדברים הבאים -
    • נמלה להתקין

השלב האחרון מוריד את קבצי ויקיפדיה ומכין את הקוד.

מנוע המלצות:

מנוע ההמלצה היא תת מחלקה של מערכת סינון מידע אשר יכול לחזות המשתמש הדירוג או העדפות יכול לתת לפריט. נֶהַג פִּיל מספק כלים וטכניקות אשר מועילים לבנות מנועי המלצה באמצעות הספרייה "טעם". באמצעות ספריית טעם נוכל לבנות מנוע סינון שיתופי מהיר וגמיש. טעם מורכב מחמשת המרכיבים העיקריים שבעקבותיה לעבוד עם משתמשים, פריטים והעדפות -

  • מודל נתונים - זו משמשת כמערכת אחסון עבור משתמשים, פריטים וגם העדפות.
  • דמיון משתמש - זהו ממשק המשמש להגדרת הדמיון בין שני משתמשים.
  • דמיון פריט - ממשק המשמש להגדיר את הדמיון בין שני פריטים.
  • ממליץ - ממשק אשר משמש כדי לספק המלצות.
  • שכונת משתמש - ממשק המשמש לחשב ולחשב שכונה של משתמשים באותה קטגוריה אשר ניתן להשתמש בם על ידי הממליץ.

באמצעות רכיבים אלה וביישומים שלהם, אנו יכולים לבנות מערכת המלצה מורכבת. מנוע המלצה זו ניתן להשתמש בשני המלצות בזמן אמת והמלצות מחוברות. המלצות בזמן אמת יכולות להתמודד למשתמשים עד כמה אלף בעוד ההמלצות מחוץ לאינטרנט יכולות להתמודד משתמשות בספירה הרבה יותר גבוהה.

Clustering:

נֶהַג פִּיל תומך מנגנוני אשכולות רבים. אלגוריתמים אלה כתובים המפה להפחית. לכל אחד האלגוריתמים האלה קבוצה משלהם של מטרות וקריטריונים. החשובים מפורטים כמו תחת -

  • חופה - זהו אלגוריתם האשכולות ביותר מהר המשמש ליצירת זרעים ראשוניים עבור אלגוריתמים באשכולות אחרים.
  • k – אמצעי או k פאזי – אומר - אלגוריתם זה יוצר אשכולות k מבוסס על המרחק של הפריטים ממרכז איטרציה הקודמת.
  • Mean - Shift - אלגוריתם זה אינו דורש שום מידע מוקדם על מספר האשכולות. זה יכול לייצר אשכול שרירותי אשר ניתן להגדיל או להקטין לפי הצורך שלנו.
  • דיריכלה - אלגוריתם זה יוצר אשכולות ידי שילוב אחד או מודלים באשכול יותר. לכן אנחנו מקבלים יתרון לבחירה אחד הטוב ביותר האפשרי ממספר האשכולות.

מתוך ארבעת האלגוריתמים מעל מפורטים, הנפוץ ביותר הוא k - פירושו אלגוריתם. זה היה כל אלגוריתם אשכולות, עלינו בצע את הפעולות הבאות -

  • הכן את הקלט. If required, להמיר את הטקסט לתוך ייצוג מספרי.
  • הפעל את האלגוריתם על פי בחירתך באמצעות כל אחת מתוכניות Hadoop המוכנות זמין נֶהַג פִּיל.
  • כראוי להעריך את התוצאות.
  • לחזר את השלבים הבאים אם נדרש.

סיווג תוכן:

נֶהַג פִּיל Apache תומך שתי הגישות הבאות לקטלג או לסווג את התוכן. אלה מבוססים בעיקר על נתונים סטטיסטיים בייס -

  • הגישה הראשונה היא ישר מפה קדימה להפחית מופעל Navie בייס מסווג. המסווגים בקטגוריה זו ידועים להיות מהיר ומדויק למרות שיש ההנחה כי הנתונים הוא לגמרי עצמאי. מסווגים אלה לשבור כאשר הגודל של הנתונים עולה או נתונים הופכים תלויים זה בזה. Navie מסווג בייס הוא תהליך בן שני שלבים אשר שומר על מסלול של תכונות או פשוט מילים אשר המשויכים למסמך. שלב זה נקרא אימון אשר גם יוצר מודל ע"י הסתכלות דוגמאות של תוכן מסווג כבר. הצעד השני, המכונה סיווג, משתמש במודל אשר נוצר במהלך האימון ואת התוכן של חדשות, מסמך סמוי. לָכֵן, כדי להפעיל מסווג של נֶהַג פִּיל, אנחנו קודם צריכים לאמן את המודל ולאחר מכן להשתמש במודל כדי לסווג תוכן חדש.
  • הגישה השנייה, אשר ידועים גם בשם בייס משלימה הנאיבית, מנסה לתקן חלק מהבעיות עם הגישה Bayes נאיבי ועדיין שומר על פשטות ומהירות שמציעה Navie בייס.

הרצת מסווג Navie בייס:

מסווג Navie בייס דורש ביצוע מטרות הנמלה הבאה כדי לבצע -

  • נמלה להכין-docs - זה מכין את קבוצת מסמכים אשר נדרשים להכשרה.
  • נמלה להכין מבחן-docs - זה מכין את קבוצת מסמכים אשר נדרשים לבדיקה.
  • הרכבת נמלה - לאחר נתוני הדרכת בדיקות מוגדרים, אנחנו צריכים להפעיל את כיתת TrainClassifier באמצעות היעד - "רכבת נמלה".
  • מבחן נמלה - לאחר מטרות מעל מבוצעות בהצלחה, אנחנו צריכים לרוץ יעד זה שלוקח את מסמכי קלט מדגם ומנסה לסווג בם המבוססים על המודל אשר נבנה בזמן אימון.

Summary: במאמר זה ראינו כי נֶהַג פִּיל Apache נעשה שימוש נרחב לסיווג טקסט באמצעות אלגוריתמים של למידה חישובית. The technology is still growing and can be used for different types of application development. Let us summarize our discussion in the form of following bullets –

  • נֶהַג פִּיל Apache הוא פרויקט קוד פתוח מ Apache הציג על ידי קבוצה של מפתחים מהפרויקט Lucene Apache. מטרתו העיקרית של הפרויקט היא ליצור אלגוריתם אשר יכול לקרוא מכונה בשפה.
  • יש Apache נֶהַג פִּיל התכונות החשובות הבאות -
    • טועמים Collaborative Filtering.
    • מימושים מופעל MapReduce.
    • יישום עבור שני Distributed Navie בייס ו טיפוח Navie בייס.
    • תומך מטריקס וספריות מבוססות וקטור אחרות הקשורים.
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share