阿帕奇亨利马乌和机器学习

概观: 周围这么多的开发框架, 我们应该能够在任何给定时间点，以扩大我们的应用程序就变得很重要. 学习机一样的聚类和分类技术，在这方面已经成为流行. 阿帕奇Mahout的是一个框架，帮助我们实现可扩展性.

In this document, 我将谈论的Apache Mahout中和它的重要性.

介绍: 阿帕奇Mahout的是Apache软件基金会或ASF的一个开源项目有创造机器学习算法的主要目标. 由来自Apache Lucene项目开发组的介绍, 阿帕奇Mahout的有，目的是 -

阿帕奇亨利马乌的特点:

阿帕奇亨利马乌自带的特性和功能的阵列特别是当我们谈论集群和协同过滤. 最重要的特性被列为下 -

品尝协同过滤 - 味道是协同过滤的一个开源项目. 这是Mahout的框架，它提供了机器学习算法，以扩大我们的应用程序的一部分. 味道是用于个人的建议. 当我们打开一个网站，这些天来，我们发现大量的相关网站的建议，我们正在浏览. 下图显示了味的架构图 -

品尝架构图

Figure 1: 品尝架构图

地图启用降低实现 - 几个地图启用减少聚集实现，在支持亨利马乌. 这包括 K均值, 模糊, 华盖
分布式贝叶斯Navie和免费Navie贝叶斯 - 阿帕奇象夫有两个Navie贝叶斯和贝叶斯免费实施. 为简单起见Navie贝叶斯作为贝叶斯和免费简称被称为CBayes. 贝叶斯在文本分类使用，而CBayes是贝叶斯的扩展，它在“数据集”的情况下使用.
它支持矩阵等相关载体库.

设置Apache亨利马乌是非常简单，并且可以在下面的步骤来进行 -

Step 1 - 为了配置Apache Mahout中, 我们应该有以下安装 -
- JDK 1.6 or higher
- 蚂蚁 1.7 or higher
- Maven的 2.9 或更高 - 如果我们想从源代码来构建
Step 2 - 解压缩文件, sample.zip和复制的内容在某些文件夹中说：“Apache的象夫 - 示例”.
Step 3 - 进入里面的文件夹 - “Apache的象夫-例子”，并运行下面的 -
- 蚂蚁安装

最后一步下载维基百科的文件和编译代码.

Mahout的支持许多集群机制. 这些算法都写在地图降低. 每一种算法都有自己的目标和标准. 其中重要的被列为下 -

出了上述四种算法上市, 最常用的是第k - means算法. 无论是任何聚类算法, 我们必须按照下列步骤 -

阿帕奇亨利马乌支持以下两种方法进行分类或分类内容. 这主要是基于贝叶斯统计 -

第一种方法是直截了当的Map Reduce启用Navie贝叶斯分类器. 这一类的分类器被称为是快速和准确的，尽管有该数据是完全独立的假设. 这些分类分解时的数据的大小上升或数据成为相互依存的. Navie贝叶斯分类器是一个两部分的方法，该方法保持的，其与文档相关联的特征或仅仅字的轨道. 此步骤被称为训练也通过观察已分类的内容的示例创建模型. 第二步骤, 即分类, 使用该培训期间创建的模型和新的内容, 看不见的文件. 于是, 为了运行亨利马乌的分类, 我们首先需要训练模型，然后使用该模型对新内容进行分类.
第二种方法, 其也被称为互补朴素贝叶斯, 试图纠正一些与朴素贝叶斯方法的问题，并仍然保持由Navie贝叶斯提供的简单和速度.

该Navie贝叶斯分类要求，以执行执行以下Ant目标 -

Summary: 在这篇文章中，我们已经看到，阿帕奇亨利马乌被广泛用于文本分类利用机器学习算法. 的技术仍在增长，并且可以用于不同类型的应用程序开发. 让我们总结一下我们在下面的项目符号的形式讨论 -

阿帕奇Mahout的是Apache的一个开源项目由一组开发人员从Apache Lucene项目介绍. 该项目的主要目标是创建算法，可以读取机器语言.
阿帕奇亨利马乌具有以下重要特征 -
- 品尝协同过滤.
- MapReduce的启用实现.
- 实施为分布式贝叶斯Navie和免费Navie贝叶斯.
- 支持矩阵等相关载体基础库.