阿帕奇亨利馬烏和機器學習

概觀: 周圍這麼多的開發框架, 我們應該能夠在任何給定時間點，以擴大我們的應用程序就變得很重要. 學習機一樣的聚類和分類技術，在這方面已經成為流行. 阿帕奇Mahout的是一個框架，幫助我們實現可擴展性.

In this document, 我將談論的Apache Mahout中和它的重要性.

介紹: 阿帕奇Mahout的是Apache軟件基金會或ASF的一個開源項目有創造機器學習算法的主要目標. 由來自Apache Lucene項目開發組的介紹, 阿帕奇Mahout的有，目的是 -

阿帕奇亨利馬烏的特點:

阿帕奇亨利馬烏自帶的特性和功能的陣列特別是當我們談論集群和協同過濾. 最重要的特性被列為下 -

品嚐協同過濾 - 味道是協同過濾的一個開源項目. 這是Mahout的框架，它提供了機器學習算法，以擴大我們的應用程序的一部分. 味道是用於個人的建議. 當我們打開一個網站，這些天來，我們發現大量的相關網站的建議，我們正在瀏覽. 下圖顯示了味的架構圖 -

品嚐架構圖

Figure 1: 品嚐架構圖

地圖啟用降低實現 - 幾個地圖啟用減少聚集實現，在支持亨利馬烏. 這包括 K均值, 模糊, 華蓋
分佈式貝葉斯Navie和免費Navie貝葉斯 - 阿帕奇象夫有兩個Navie貝葉斯和貝葉斯免費實施. 為簡單起見Navie貝葉斯作為貝葉斯和免費簡稱被稱為CBayes. 貝葉斯在文本分類使用，而CBayes是貝葉斯的擴展，它在“數據集”的情況下使用.
它支持矩陣等相關載體庫.

設置Apache亨利馬烏是非常簡單，並且可以在下面的步驟來進行 -

Step 1 - 為了配置Apache Mahout中, 我們應該有以下安裝 -
- JDK 1.6 or higher
- 螞蟻 1.7 or higher
- Maven的 2.9 或更高 - 如果我們想從源代碼來構建
Step 2 - 解壓縮文件, sample.zip和複製的內容在某些文件夾中說：“Apache的象夫 - 示例”.
Step 3 - 進入裡面的文件夾 - “Apache的象夫-例子”，並運行下面的 -
- 螞蟻安裝

最後一步下載維基百科的文件和編譯代碼.

Mahout的支持許多集群機制. 這些算法都寫在地圖降低. 每一種算法都有自己的目標和標準. 其中重要的被列為下 -

出了上述四種算法上市, 最常用的是第k - means算法. 無論是任何聚類算法, 我們必須按照下列步驟 -

阿帕奇亨利馬烏支持以下兩種方法進行分類或分類內容. 這主要是基於貝葉斯統計 -

第一種方法是直截了當的Map Reduce啟用Navie貝葉斯分類器. 這一類的分類器被稱為是快速和準確的，儘管有該數據是完全獨立的假設. 這些分類分解時的數據的大小上升或數據成為相互依存的. Navie貝葉斯分類器是一個兩部分的方法，該方法保持的，其與文檔相關聯的特徵或僅僅字的軌道. 此步驟被稱為訓練也通過觀察已分類的內容的示例創建模型. 第二步驟, 即分類, 使用該培訓期間創建的模型和新的內容, 看不見的文件. 於是, 為了運行亨利馬烏的分類, 我們首先需要訓練模型，然後使用該模型對新內容進行分類.
第二種方法, 其也被稱為互補樸素貝葉斯, 試圖糾正一些與樸素貝葉斯方法的問題，並仍然保持由Navie貝葉斯提供的簡單和速度.

該Navie貝葉斯分類要求，以執行執行以下Ant目標 -

Summary: 在這篇文章中，我們已經看到，阿帕奇亨利馬烏被廣泛用於文本分類利用機器學習算法. 的技術仍在增長，並且可以用於不同類型的應用程序開發. 讓我們總結一下我們在下面的項目符號的形式討論 -

阿帕奇Mahout的是Apache的一個開源項目由一組開發人員從Apache Lucene項目介紹. 該項目的主要目標是創建算法，可以讀取機器語言.
阿帕奇亨利馬烏具有以下重要特徵 -
- 品嚐協同過濾.
- MapReduce的啟用實現.
- 實施為分佈式貝葉斯Navie和免費Navie貝葉斯.
- 支持矩陣等相關載體基礎庫.