mahout0.8jar包是爲mahout環境配置設計的一款文件包,提供多種算法實例,包括聚類、分類、推薦過濾、頻繁子項挖掘等,方便快捷的創建智能應用程序,小編還帶來了詳細的配置教程,需要的朋友可以來本站下載!

Mahout環境的安裝和配置教程
在安裝運行mahout之前,需要配置好hadoop。我的hadoop是vmware8.0+ubuntu12.04+ubuntu12.04.兩台虛擬機搭建的集群。網上資料很多。這裏主要介紹mahout的安裝和運行。
1、首先在下載mahout0.8.我選擇是的mahout-examples-0.8-job.jar。(如果你在windows下運行,可以下載zip)
2、下载完毕,我们拷贝到虚拟机ubuntu系统桌面上中,然后把它拷贝到本地目录下cd Desktop/cp mahout-examples-0.8-job.jar/home/sun/(把mahout安装包拷贝到用户sun的目录下)
然后解压 tar zxvf mahout-examples-0.8-job.jar。
解压之后 ls -l 。可以看到解压之后的文件
如果想修改文件名可以使用mv。google 百度之...
3、配置文件
找到etc/profile 进行编辑。
sudo gedit /etc/profile
提示你輸入密碼,輸入密碼之後就進入了profile文件裏面,在最下面可以看到
修改完毕之后,一定要运行source /etc/profile命令,使其生效。
4、在mahout安装目录下的bin文件内找到mahot 文件
比如这个路径:/home/sun/mahout-examples-0.8-job.jar/bin,在mahout文件里添加hadoop路径,必须要添加的,否则运行出错。打开之后,在#!/bin/bash的下面添加hadoop的安装路径和配置路径 (不要直接复制粘贴,请参照你的安装路径)
# HADOOP_HOME=/home/sun/hadoop-2.2.0
# HADOOP_CONF_DIR=$HADOOP_HOME/conf
添加這兩行,保存退出!
5、安裝完畢。下面我們可以測試是否安裝成功。
退回根目錄下,運行mahout。如實看到下面兩行則表示成功。等待片刻(時間有點長,大概1分鍾左右),會列出所包含有的算法。
6、启动hadoop-- 。 ./sbin/start-dfs.sh和./sbin/start-yarn.sh。
運行jps.可以看到
6331 jar
7555 SecondaryNameNode
8308 RunJar
7288 NameNode
5045 FsShell
2906 RunJar
8402 Jps
4733 RunJar
表示已經成功!!!
7、接下來就是測試階段了。
下載測試文件synthetic_control.data,並把這個文件放在$MAHOUT_HOME目錄下。(這個好像是必須,我放到其他目錄下,運行時會出錯!!!不知why)
然後把synthetic_control.data拷貝到hdfs文件系統下面。新建一個testdata(名字必須爲testdata).
hdfs dfs -mkdir testdata
然後拷貝
hdfs dfs -put $MAHOUT_HOME/synthetic_control.data testdata/
我们只用kmeans算法。输入例子为hadoop jar /home/hadoop/mahout-distribution-0.8/mahout-examples-0.8-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
然後就開始運行了。需要一段時間。因爲內容比較多。