ubuntu12.04 Hadoop+Spark 分布式部署步骤

1、准备工具：虚拟机：vmware 操作系统：ubuntu12.04 （桌面版或server版）(iso文件) java：jdk-7u75-linux-x64.tar.gz oracle官网可下载 hadoop：haopop2.5.2 spark: spark1.1.1 登陆终端 secure crt 文件传输：file zilla 2、具体步骤（1）、安装vmware —过程略（2）、新建虚拟机（3个）安装ubuntu系统 —过程略注：下面的步骤无特殊说明则需要在三个虚拟机上同时执行（3）、apt-get 更新： apt-get update （4）、安装vim openssh客户端，服务端 apt-get instsall vim openssh-client openssh-server 判断ssh是否正常启动命令：ps -e |grep ssh 如果既有sshd 又有ssh-agent 则ssh启动成功

（5）、安装java环境假定准备将java安装在/usr/lib/java中则建立该目录：mkdir /usr/lib/java 通过file zilla 将压缩文件传送到虚拟机上解压jdk tar -xzvf jdkxxxxxx 设置环境变量：编辑 /etc/profile文件，在其中加入以下内容 export JAVA_HOME=/usr/lib/java/jdk1.7.0_75 export JRE_HOME={$JAVA_HOME}/jre

保存退出令其生效 source /etc/profile 此时查看java版本 java -version 如果系统中有多个java环境则需要手动设置默认的jdk 命令如下： sudo update-alternatives –install /usr/bin/javac javac /usr/lib/java/jdk1.7.0_75/bin/javac 300

sudo update-alternatives –install /usr/bin/java java /usr/lib/java/jdk1.7.0_75/bin/java 300

sudo update-alternatives –install /usr/bin/jps jps /usr/lib/java/jdk1.7.0_75/bin/jps 300

此时在输入java -version就可以看到上图的结果了（6）、修改hostname+配置hosts 修改hostname:编辑/etc/hostname文件分别将三台机器的hostname改成master slave1 slave2 之后重启服务器配置hosts：编辑/etc/hosts，添加 ip 和对应的hostname。保存退出之后验证三台机器直接ping 各自的hostname是否互通

（7）、配置ssh hadoop是通过ssh来进行节点间的通信，所以要去掉节点间ssh的密码，所以需要对ssh进行配置 a）、生成公钥：命令：ssh-keygen -t rsa -P “” b）、将master公钥保存在authorized_keys下 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 对于本机可用ssh localhost来验证是否设置成功 c）、将另外两台机器的公钥生成后通过scp命令汇聚到master下命令如下：在目录/root/.ssh中 scp id_rsa.pub root@master:/root/.ssh/id_rsa.pub.slave1(2) d）、将所有公钥全部保存在authorized_keys下命令如b e）、将设置好的authorized_keys文件发送给两个slave节点，之后验证三台机器是否可以ssh无密码登陆

（8）、安装hadoop 解压之前的压缩文件（tar -zxvf）设置环境变量：在/etc/profile中添加相应变量 export HADOOP_COMMON_HOME=/usr/local/hadoopspark/hadoop-2.5.2 export HADOOP_CONF_DIR=/usr/local/hadoopspark/hadoop-2.5.2/etc/hadoop export YARN_CONF_DIR=/usr/local/hadoopspark/hadoop-2.5.2/etc/hadoop

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_COMMON_HOME/lib/native export HADOOP_OPTS=”-Djava.library.path=$HADOOP_COMMON_HOME/lib”

export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:${HADOOP_COMMON_HOME}/bin:${HADOOP_COMMON_HOME}/sbin:$PATH 保存并使其生效。设置hadoop-env.sh（文件位于hadoop归档后的目录的etc/hadoop/中）：加入java环境变量 export JAVA_HOME=/usr/lib/java/jdk1.7.0_75

此时可验证hadoop是否安装成功：hadoop version 若能出现hadoop信息说明安装基本成功（9）、配置hadoop信息：主要配置一下几个文件配置之前先建立几se个目录用来保存hadoop执行过程中的相关信息：mkdir tmp hdfs hdfs/name hdfs/data 1）、etc/hadoop/core-site.xml

<configuration>
        <property>
         <name>fs.defaultFS</name>
         <value>hdfs://master:9000</value>
        </property>
        <property>
         <name>io.file.buffer.size</name>
         <value>131072</value>
        </property>
        <property>
         <name>hadoop.tmp.dir</name>
         <value>/usr/local/hadoop/hadoop-2.7.0/tmp</value>
        </property>
</configuration>

2)、etc/hadoop/mapred-site.xml

<configuration>
        <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>
        </property>
</configuration>

3）、etc/hadoop/hdfs-site.xml

<value>Master:50090</value>是网页访问地址
/home/hadoop/tools/hadoop-2.7.0/
<configuration>
        <property>
         <name>dfs.namenode.secondary.http-address</name>
         <value>Master:50090</value>
        </property>
        <property>
         <name>dfs.replication</name>
         <value>2</value>
        </property>
        <property>
         <name>dfs.namenode.name.dir</name>
         <value>/usr/local/hadoop/hadoop-2.7.0/hdfs/name</value>
        </property>
        <property>
         <name>dfs.datanode.data.dir</name>
         <value>/usr/local/hadoop/hadoop-2.7.0/hdfs/data</value>
        </property>
</configuration>

4）、etc/hadoop/yarn-site.xml

<configuration>
     <property>
                      <name>yarn.nodemanager.aux-services</name>
                        <value>mapreduce_shuffle</value>
                      </property>
                    <property>
                       <name>yarn.resourcemanager.address</name>
                         <value>Master:8032</value>
                       </property>
                     <property>
                               <name>yarn.resourcemanager.scheduler.address</name>
                                 <value>Master:8030</value>
                               </property>
                             <property>
                                <name>yarn.resourcemanager.resource-tracker.address</name>
                                  <value>Master:8031</value>
                               </property>
                            <property>
                                     <name>yarn.resourcemanager.admin.address</name>
                                      <value>Master:8033</value>
                                   </property>
                                <property>
                                 <name>yarn.resourcemanager.webapp.address</name>
                                  <value>Master:8088</value>
                               </property>
<!-- Site specific YARN configuration properties -->

</configuration>

（5）、etc/hadoop/slaves 注意要删除自己本身的节点，或者在配置互信时，加入自己的密钥。配置完毕则可以准备0启动hadoop 下面的过程在master节点上执行相关操作 namenode的格式化：hadoop namenode -format 之后到hadoop所在目录启动hadoop：sbin/start-all.sh 一小段等待后hadoop启动，用jps查看

DataNode
Jps
SecondaryNameNode
NameNode
NodeManager
ResourceManager

若出现下面信息则启动成功，可通过web-browser查看相关信息url:http://masterip:50070 关闭hadoop服务：sbin/stop-all-sh 若需要重新格式化namenode则需要删除掉tmp 和/tmp/hadoop* 和hdfs/name hdfs/data中的内容

至此hadoop 分布式部署成功，下面准备在此基础上安装spark（由于spark的工作需要基于hadoop中的hdfs分布式文件系统）（10）、安装scala 解压下载好的压缩文件（tar -zxvf）配置环境变量（/etc/profile） export SCALA_HOME=/usr/lib/scala/scala-2.11.4 验证：键入scala：出现scala命令控制行说明安装成功（11）、安装spark 解压文件–过程略配置环境变量：编辑conf下的spark-env.sh文件将java scala相关环境变量加入并且配置masterip以及各个worker节点的内存

export JAVA_HOME=/usr/lib/java/jdk1.7.0_75

export SCALA_HOME=/usr/lib/scala/scala-2.11.4

export SPARK_MASTER_IP=192.168.194.129

export SPARK_WORKER_MEMORY=2g

export SPARK_CONF_DIR=/usr/local/hadoopspark/spark-1.1.1-bin-hadoop2.4/conf

配置同目录下的slaves 将所有节点的hostname添加进该文件（三台机器均配置）配置完毕启动spark sbin/start-all.sh jps命令查看若新增这两个进程即spark成功启动（Master Worker）至此spark+hadoop的分布式部署完成