`
bearsorry
  • 浏览: 92863 次
  • 性别: Icon_minigender_2
  • 来自: 湖南
社区版块
存档分类
最新评论

hadoop集群环境的配置

阅读更多

  之前说过,我们的hadoop集群已经搭建起来了,只是具体的步骤还没来得及整理,幸好今天又把流程走了一遍,真的是不做不晓得,一做才发现自己原来什么都忘记得差不多了,在此记录一下搭建hadoop集群的步骤,便于需要的时候看看!

  这个配环境的过程真的是比较困难的,我今天搞了一天终于把自己的机器作为datanode连接上了master机器,我还是年前搞过一遍的呢,所以这个还是需要耐心+细心的!

  这里首先声明一下,我之前在我的机器上配置过了hadoop的单机伪分布环境,今天才将我的机器作为一个datanode加入到hadoop集群上的,但是装的ubuntu的版本和jdk的位置跟集群上的都不一样,这说明这个不影响hadoop集群的配置,但是,jdk的版本号和hadoop的版本号以及hadoop装的位置都必须是一样的!下面我们就开始吧!

 

 一、资源的准备:

 (1)ubuntu-11.10-beta2-desktop-i386.iso ,ubuntu的安装,直接双击下载的这个东西就行了,真的就像装软件一样!

 (2)jdk-6u30-linux-i586.bin,安装jdk要用的,一个hadoop集群上只能用一个版本的jdk,我们用的是这个版本。

 (3)hadoop-0.20.203.0rc1.tar.gz,安装hadoop集群必备的!

 

 二、jdk的安装(这里的路径可以自己确定,不一定要和集群上的一样)
    我的是放在/home/acer下面的(acer是我电脑的用户名)


    1.将刚才准备的jdk放到这个目录下(这一步不是必要的)

     sudo cp jdk以前的路径 jdk现在的路径
 
    2.解压执行安装jdk(这里会涉及到权限的问题)

      先修改jdk文件的权限
      sudo chmod u+x jdk-6u30-linux-i586.bin
      再执行安装
      sudo ./jdk-6u30-linux-i586.bin
      第二步完成之后就会在/home/acer/目录下出现一个
jdk1.6.0_30的文件夹
 
   3.配置环境变量
    编辑配置文件:sudo gedit /etc/profile
 
    在这个文件最后面添加这么几行:

    export JAVA_HOME=/home/acer/jdk1.6.0_30

    export JRE_HOME=/home/acer/jdk1.6.0_30/jre 
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

    export PATH=$JAVA_HOME/bin:$PATH
 

  4.重启机器,查看jdk是否安装成功以及版本号
    在终端输入:java

    如果出来一系列目录东东就是正确了
    在终端输入:java -version

    可以查看jdk的版本号
    如果木有安装成功,可能就是配置问题了,慢慢看,细心点就应该没有问题了!

 

 三、安装hadoop(主要针对master机器)
  只要在master机器上安装hadoop就行了,其他机器上的hadoop都可以直接通过连接远程服务器的方式进行复制,这样就方便多了!

 

  1.将刚才准备的 hadoop-0.20.203.0rc1.tar.gz文件复制到/usr/local文件目录下面:
    sudo cp hadoop压缩包路径 /usr/local

  2.解压hadoop软件包
    sudo tar -xzf  hadoop-0.20.203.0rc1.tar.gz
   为了以后写目录方便,将解压出来的文件修改名字为hadoop:
   sudo mv hadoop-0.20.203.0 hadoop


  3.为hadoop集群中的每一个节点都创建一个hadoop的用户组和hadoop用户名,这样便于记忆以及管理
    建立hadoop用户组:sudo addgroup hadoop
    在hadoop用户组下面建立一个hadoop用户名:
    sudo adduser -ingroup hadoop hadoop
    (这里创建hadoop用户的时候很多信息你不用去添,一直按enter键就行了)

   

  4.添加hadoop用户的权限
    打开sudoers文件:sudo gedit /etc/sudoers
    在root ALL=(ALL:ALL) ALL后面加上一行:
    hadoop ALL = (ALL) ALL

    创建了hadoop用户了之后我们以后就都在这个下面进行终端的操作了!

 

 5.配置conf/hadoop-env.sh文件;
   切换路径:cd /usr/local/hadoop
   
编辑文件:sudo gedit conf/hadoop-env.sh
   将JAVA_HOME前面的#号去掉,java路径改为:
   JAVA_HOME=/home/acer/jdk1.6.0_30
 6.配置hosts文件(建立映射关系,用户
名和ip一一对应着添加进来)
   sudo gedit /etc/hosts
   添加之后是这样:
   127.0.0.1   localhost
   127.0.0.1   ubuntu.ubuntu-domain    ubuntu
   192.168.1.11 master
   192.168.1.7
s7
   192.168.1.2 s2
   192.168.1.3 s3
   192.168.1.4 s4
   192.168.1.6 s6
   192.168.1.5 s5
   192.168.1.8 s8
   192.168.1.9  s9
   192.168.1.10 secondaryname

 


   # The following lines

   are desirable for IPv6 capable hosts
   ::1     ip6-localhost ip6-loopback
   fe00::0 ip6-localnet
   ff00::0 ip6-mcastprefix
   ff02::1 ip6-allnodes
   ff02::2 ip6-

   allrouters

(注:这里可以修改自己主机的名字:sudo gedit /etc/hostname 在这个文件里面修改这个名字就行了)


7.配置master和slaves文件
  cd/usr/local/hadoop
  sudo gedit

  conf/masters 将这个文件的内容改为:master
  sudo gedit conf/slaves 将这个文件改为:
  s2
  s3
  s4
  s5
  s6
  s7
  s8
  s9
(这些就是要加进来的datanode节点的名称,其实这些只要在master机
器上配置就行了)

 

8.配置core-site、mapred-site、hdfs-site文件
  sudo gedit conf/core-site.xml
  修改为:
 <configuration>
 <property> 
   <name>fs.default.name</name>  

   <value>hdfs://master:9000</value>  
   </property>  
  </configuration>

 

  sudo gedit conf/mapred-site.xml
  <configuration>
   <property>   
     
<name>mapred.job.tracker</name> 
      <value>master:9001</value>  
   </property> 
  </configuration>


  sudo gedit conf/hdfs-site.xml
  <configuration>
  <property>
  <name>dfs.name.dir</name>
  <value>/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2</value>
  </property>
  <property>
  <name>dfs.data.dir</name>
  <value>/usr/local/hadoop/data1,/usr/local/hadoop/data2</value>
  </property>
  <property>
  <name>dfs.replication</name>
  <value>2</value>
  </property>
  </configuration>

 

 

9.安装SSH

  切换到hadoop用户下或者以hadoop身份登录;

  1、下载ssh:sudo apt-get install openssh-server;

  2、创建sshkey为rsa;ssh-keygen -t rsa -P ""(注意:这里的P是大写的P)
    填写key保存路径的时候可以直接使用默认的(一直按enter键就行了。)

  3、将ssh-key添加到受信任列表并启用ssk-key
    cat /home/hadoop/.ssh/id_rsa.pub >>  /home/hadoop/.ssh/authorized_keys 
   (将公钥追加到收信任文件);
   重启ssh:sudo /etc/init.d/ssh reload 
  4、验证ssh是否

    安装成功ssh localhost;


10.生成公钥
   ssh-keygen -t dsa -P "" -f ~/.ssh/id_ rsa


11.启动namenode
   namenode启动之前做一次 block 负载均衡
    

    sudo gedit  conf/hdfs-site.xml
 
     <property>  
        <name>dfs.balance.bandwidthPerSec</name>      

        <value>10485760</value>  
         <description> 
            
Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. 
         </description> 
     </property>   
    

    bin/start-balancer.sh

 

    bin/start-dfs.sh


好了,到这里基本就差不多了,接下来就是远程复制文件了
要将master机器上的文件一一复制到datanode机器上:(这里以s2为例子)

(1)公钥的复制
    scp ~/.ssh/id_rsa.pub
hadoop@s2:~/.ssh/

(2)hosts文件的复制
    scp /etc/hosts 
hadoop@s2:/etc/hosts
    注:这里如果不能复制,就先将文件复制到/home/hadoop下面,即为:

    scp /etc/hosts hadoop@s2:/home/hadoop,再在datanode机器上将其移到相同的路径下面/usr/local

(3)hadoop文件夹的复制,其中的配置也就一起复制过来了!
    scp /usr/local/hadoop
hadoop@s2:/usr/local
    如果不能移动的话和上面的方法一样!
这些东西都复制完了之后,datanode机器还要将复制过来的公钥追加到收信任列表:

    cat ~/.ssh/id_rsa.pub >>  ~/.ssh/authorized_keys,还有很重要的一点,datanode机器要把复制过来的hadoop里面的data1,data2和logs删除掉!

这样之后基本上就差不多了,启动datanode和tasktracker:
    bin/hadoop-daemon.sh start datanode
    bin/hadoop-daemon.sh start tasktracker 
这里还可能会涉及到权限的问题:这里我们统一将/usr/local/hadoop文件夹里面的东西的所有者改为hadoop,所属组为hadoop:
   sudo chgrp -R hadoop hadoop
   sudo chown -R hadoop:hadoop

查看自己的datanode是否启动:jps
当jps不能正常使用的时候:resource /etc/profile

连接时可以在namenode上查看连接情况:
      bin/hadoop dfsadmin -report
也可以直接进入网址:master:50070

 

PS:常用到的一些命令:
新建目录(文件夹)
sudo mkdir 文件夹目


删除目录(文件夹)
sudo rm -rf 文件夹目录

 

 

这里写得还不是很全面,因为现在对这个东西了解得不是很深入,所以只能暂时这么写着,到时候通过研究,会对其进行一些修改及说明的!

0
2
分享到:
评论

相关推荐

    Hadoop集群pdf文档

    Hadoop_Hadoop集群(第7期)_Eclipse开发环境设置 Hadoop_Hadoop集群(第8期)_HDFS初探之旅 Hadoop_Hadoop集群(第9期)_MapReduce初级案例 Hadoop_Hadoop集群(第10期)_MySQL关系数据库 Web(Json-Lib类库使用...

    部署全分布模式Hadoop集群 实验报告

    部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...

    Hadoop集群程序设计与开发

    《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...

    脚本搭建hadoop集群

    自动化安装hadoop集群 脚本搭建hadoop集群 可以自定义主机名和IP...搭建Hadoop集群.docx(此为文本教程,脚本都是按这个配置的) 脚本使用教程.txt 请评论区留言反馈,您宝贵的意见是我前进的动力。 我会经常更新的!

    配置xen环境及hadoop集群环境的学习笔记

    XEN虚拟机的安装配置,Hadoop集群环境的安装配置以及部署

    Hadoop集群(1-11期)

    Hadoop集群·Eclipse开发环境设置(第7期) Hadoop集群·HDFS初探之旅(第8期) Hadoop集群·MapReduce初级案例(第9期) Hadoop集群·MySQL关系数据库(第10期) Hadoop集群·常用MySQL数据库命令(第10期副刊) ...

    hadoop 集群部署操作

    Hadoop集群的规划,系统环境准备,配置NTP时间服务器,配置无密钥登录,安装配置JDK,,安装配置zooKeeper集群,安装配置Hadoop集群

    Hadoop的安装、配置过程和集群运行截图。

    较为完善的Hadoop伪分布式安装、配置过程以及运行截图 全程跟着安装配置的一般不会出现问题,jdk版本尽量选择和Hadoop版本相容的,Hadoop版本可以选择较低版本,2.7版本较为稳定,Linux系统版本没有多大要求,一般将...

    hadoop环境配置(单机集群)

    hadoop环境配置(单机集群),图文并茂

    hadoop集群安装配置详解

    1、集群部署介绍 1.1 Hadoop简介 1.2 环境说明 1.3 网络配置 1.4 所需软件 1.5 VSFTP上传 ...4、Hadoop集群安装 4.1 安装hadoop 4.2 配置hadoop 4.3 启动及验证 4.4 网页查看集群 5、常见问题FAQ

    大数据技术基础实验报告-Linux环境下hadoop集群的搭建与基本配置.doc

    大数据技术基础实验报告-Linux环境下hadoop集群的搭建与基本配置

    实验室环境下hadoop集群配置

    详细描述了 实验室环境下 hadoop集群环境的配置情况 对于实验是的同学们又一定帮助

    傻瓜式Hadoop集群配置脚本

    利用shell脚本 对Hadoop环境进行傻瓜式配置 先解压! 环节包括: 1.修改hostname 2.修改hosts 3.配置免密 4.Hadoop配置文件的更改 ...本产品 最适用于 新手的集群建立 、以及学生们的集群环境搭建练习

    Hadoop部署和配置Kerberos安全认证

    Hadoop部署和配置Kerberos安全认证全套流程。已经过实测并部署与生产环境。

    hadoop集群配置说明

    hadoop集群的安装、环境的搭建,集群配置手册

    大数据运维技术第4章 Hadoop文件参数配置课件.pptx

    4.1.4 获得Hadoop集群全部配置信息;4.2 在Master节点上安装Hadoop;(1)解压缩hadoop-2.7.1.tar.gz安装包到/usr目录下 [root@master ~]# tar zxvf hadoop-2.7.1.tar.gz -C /usr/local/src/? (2)将hadoop-2.7.1...

    linuxhadoop搭建手册以及三种集群模式配置

    资源名称:linux hadoop搭建手册以及三种集群模式配置内容简介: linux hadoop搭建手册以及三种集群模式配置前半部分主要讲述了环境配置 环境配置环境配置;后半部分主要讲述Hadoop集群有三种运行模式,分别为单机...

    Hadoop集群搭建超详细步骤及注意点

    Hadoop集群搭建的详细步骤,涉及Linux:Centos6.5基础环境配置,Hadoop集群离线部署方式。

    linux下hadoop集群搭建

    linux下hadoop集群搭建,很不错的资料,欢迎下载

    Hadoop2.7.1安装与配置

    详细的hadoop集群环境配置流程,安装截图。

Global site tag (gtag.js) - Google Analytics