### 上传`hadoop-3.1.4.tar.gz`到`/tmp`，解压 >注意在六台机器均上传到`/tmp` ```bash # 在6台机器执行 sudo tar -zxvf /tmp/hadoop-3.1.4.tar.gz -C /usr/local/ # 分发到其他主机 ssh_root.sh chown -R hadoop:hadoop /usr/local/hadoop-3.1.4 ssh_root.sh ln -s /usr/local/hadoop-3.1.4/ /usr/local/hadoop ``` ### 配置环境变量 ```bash echo 'export HADOOP_HOME=/usr/local/hadoop' >> /etc/profile.d/myEnv.sh echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> /etc/profile.d/myEnv.sh echo 'export PATH=$PATH:$HADOOP_HOME/sbin' >> /etc/profile.d/myEnv.sh ``` ```bash # 分发到nn2、nn3、s1、s2、s3 scp_all.sh /etc/profile.d/myEnv.sh /etc/profile.d/ # source 环境变量 ssh_root.sh source /etc/profile ``` >还需要创建 `/data`这个目录，由于nn1、nn2、nn3已经创建`/data`，其他三台需要创建一下 ```bash ### 在s1、s2、s3执行 sudo mkdir /data sudo chown -R hadoop:hadoop /data ``` ### 修改core-site.xml ```bash vim /usr/local/hadoop/etc/hadoop/core-site.xml ``` ```xml fs.defaultFS hdfs://ns1 默认文件服务的协议和NS逻辑名称，和hdfs-site.xml里的对应此配置替代了1.0里的fs.default.name hadoop.tmp.dir /data/tmp 数据存储目录 hadoop.proxyuser.root.groups hadoop hdfs dfsadmin –refreshSuperUserGroupsConfiguration, yarn rmadmin –refreshSuperUserGroupsConfiguration 使用这两个命令不用重启就能刷新 hadoop.proxyuser.root.hosts localhost 本地代理 ha.zookeeper.quorum nn1:2181,nn2:2181,nn3:2181 HA使用的zookeeper地址 ``` ### 修改`hdfs-site.xml` ```bash vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml ``` ```xml dfs.namenode.name.dir /data/namenode namenode本地文件存放地址 dfs.nameservices ns1 提供服务的NS逻辑名称，与core-site.xml里的对应 dfs.ha.namenodes.ns1 nn1,nn2,nn3 列出该逻辑名称下的NameNode逻辑名称 dfs.namenode.rpc-address.ns1.nn1 nn1:9000 指定NameNode的RPC位置 dfs.namenode.http-address.ns1.nn1 nn1:50070 指定NameNode的Web Server位置 dfs.namenode.rpc-address.ns1.nn2 nn2:9000 指定NameNode的RPC位置 dfs.namenode.http-address.ns1.nn2 nn2:50070 指定NameNode的Web Server位置 dfs.namenode.rpc-address.ns1.nn3 nn3:9000 指定NameNode的RPC位置 dfs.namenode.http-address.ns1.nn3 nn3:50070 指定NameNode的Web Server位置 dfs.namenode.handler.count 77 namenode的工作线程数 dfs.namenode.shared.edits.dir qjournal://nn1:8485;nn2:8485;nn3:8485/ns1 指定用于HA存放edits的共享存储，通常是namenode的所在机器 dfs.journalnode.edits.dir /data/journaldata/ journaldata服务存放文件的地址 ipc.client.connect.max.retries 10 namenode和journalnode的链接重试次数10次 ipc.client.connect.retry.interval 10000 重试的间隔时间10s dfs.ha.fencing.methods sshfence 指定HA做隔离的方法，缺省是ssh，可设为shell，稍后详述 dfs.ha.fencing.ssh.private-key-files /home/hadoop/.ssh/id_rsa 杀死命令脚本的免密配置秘钥 dfs.client.failover.proxy.provider.ns1 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider 指定客户端用于HA切换的代理类，不同的NS可以用不同的代理类以上示例为Hadoop 2.0自带的缺省代理类 dfs.client.failover.proxy.provider.auto-ha org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider dfs.ha.automatic-failover.enabled true dfs.datanode.data.dir /data/datanode datanode本地文件存放地址 dfs.replication 3 文件复本数 dfs.namenode.datanode.registration.ip-hostname-check false dfs.client.use.datanode.hostname true dfs.datanode.use.datanode.hostname true ``` ### 修改`hadoop-env.sh` ```bash vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh ``` ```bash # 添加这两行 source /etc/profile export HADOOP_HEAPSIZE_MAX=512 ``` ### 分发这些配置文件 ```bash scp_all.sh /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/hadoop/etc/hadoop/ scp_all.sh /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/hadoop/etc/hadoop/ scp_all.sh /usr/local/hadoop/etc/hadoop/hadoop-env.sh /usr/local/hadoop/etc/hadoop/ ``` ### 集群初始化 - 需要先启动zookeeper集群 ```bash ssh_all_zookeeper.sh /usr/local/zookeeper/bin/zkServer.sh start ``` ```bash # 第一次启动先启动journalnode，便于3个namenode的元数据同步 ssh_all_zookeeper.sh hadoop-daemon.sh start journalnode ``` - `zkfc`搭建 ```bash #在nn1节点执行 hdfs zkfc -formatZK #nn1 nn2 nn3启动zkfc hadoop-daemon.sh start zkfc ``` - 初始化nn1的namenode，在nn1执行 ```bash hdfs namenode -format hadoop-daemon.sh start namenode ``` - 格式化第二台和第三台namenode，并且启动namenode,在nn2、nn3执行 ```bash hdfs namenode -bootstrapStandby hadoop-daemon.sh start namenode ``` - 修改**workers** ```bash vim /usr/local/hadoop/etc/hadoop/workers ``` 修改为 ```text s1 s2 s3 ``` 分发给其他机器 ```bash scp_all.sh /usr/local/hadoop/etc/hadoop/workers /usr/local/hadoop/etc/hadoop ``` - 启动datanode节点，在s1、s2、s3执行 ```bash #启动各个节点的datanode，仅在一台机器执行即可（nn1或其他任意机器） hadoop-daemons.sh start datanode ``` ### hdfs集群启动 ```bash start-dfs.sh ```