Hello World

Hello World /posts/16107.html Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

Quick Start

Create a new post

$ hexo new "My New Post"

More info: Writing

Run server

$ hexo server

More info: Server

Generate static files

$ hexo generate

More info: Generating

Deploy to remote sites

$ hexo deploy

More info: Deployment

]]> page /posts/1441.html

deploy

]]> 机器学习 /posts/29139.html k近邻算法（K-Nearest Neighbors）KNN

将当前样本的类别归类于距离最近的k个样本的类别

距离公式(2维)

欧式距离
$$
d = \sqrt{(x_1-y_1)^2 + (x_2 - y_2)^2}
$$
曼哈顿距离
$$
d = |x_1 - x_2| + |y_1 - y_2|
$$
切比雪夫距离
$$
d = \max\left(|x_1 - x_2|, |y_1 - y_2|\right)
$$

k值选择问题

k值	影响
越大	模型过拟合，准确率波动较大
越小	模型欠拟合，准确率趋于稳定但可能较低

特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

归一化
将数据变换到指定区间（默认是[0,1]）
$$ x’ = \frac{x- x_{\text {min}}}{x_{\text{max}} - x_{\text{min}}} $$
若需要缩放到任意区间 ([a, b])，公式为： $$ x’ = a + \frac{(x - x_{\text{min}}) \cdot (b - a)}{x_{\text{max}} - x_{\text{min}}} $$
其中：( [a, b] )：目标区间的范围
归一化受到数据集的异常值的影响，需要进行标准化处理（更加合理）
from sklearn.preprocessing import MinMaxScaler # 归一化
标准化
将数据调整为均值为 0，标准差为 1 的标准正态分布
$$ z = \frac{x - \mu}{\sigma} $$
( z )：标准化后的值 ( x )：原始数据值 ( $\mu$ )：数据的均值 ( $\sigma$)：数据的标准差
from sklearn.preprocessing import StandardScaler # 标准化

]]> machinelearning script /posts/34849.html 查看CPU、内存使用率

#!/bin/bash

# 定义颜色
RED='\033[0;31m'
GREEN='\033[0;32m'
YELLOW='\033[0;33m'
BLUE='\033[0;34m'
NC='\033[0m' # 无颜色

while true; do
    # 获取所有进程的CPU使用率和内存使用率
    cpu_usage=$(ps aux | awk '{sum_cpu += $3} END {print sum_cpu}')
    mem_usage=$(ps aux | awk '{sum_mem += $4} END {print sum_mem}')
    
    # 打印结果，带有时间戳、分隔线和颜色高亮
    echo -e "${BLUE}==============================${NC}"
    echo -e "${YELLOW}Timestamp: $(date)${NC}"
    echo -e "${BLUE}==============================${NC}"
    echo -e "${GREEN}Total CPU usage: ${RED}$cpu_usage%${NC}"
    echo -e "${GREEN}Total Memory usage: ${RED}$mem_usage%${NC}"
    echo -e "${BLUE}==============================${NC}"
    
    # 等待5秒后再次执行
    sleep 5
done

保存脚本到/usr/local/bin目录下

mv usage.sh /usr/local/bin/usage

Shell脚本编写的基本信息

#! /bin/bash
# -------------------------------------------------
# Filename:     test.sh
# Version:      1.0
# Date:         2024/05/02
# Author:       shenjianZ
# Email:        shenjianZLT@gmail.com
# Website:      https://blog.shenjianl.cn
# Description:  this is a test shell
# CopyRight:    2024 All rights reserved shenjianZ
# License       GPL
# ------------------------------------------------


# Your script logic goes here

]]> Docker被墙，如何继续使用？ /posts/47807.html Docker Download

自从docker官方仓库在中国大陆被墙后，docker的部署方式也发生了改变。
解决docker安装问题：https://github.com/shenjianZ/docker_installer

安装docker

sudo curl -fsSL https://gitee.com/tech-shrimp/docker_installer/releases/download/latest/linux.sh| bash -s docker --mirror Aliyun

启动docker
sudo systemctl start docker
设置开机自启
sudo systemctl enable docker
Docker pull images

将image下载到阿里云镜像仓库中
解决docker pull 镜像问题:https://github.com/shenjianZ/docker_image_pusher
1. 登录阿里云镜像服务 https://cr.console.aliyun.com/,
  
  启用个人实例，创建一个命名空间（ALIYUN_NAME_SPACE）
2. 在访问凭证 可以看到账号用户名（ALIYUN_REGISTRY_USER)
  
  密码（ALIYUN_REGISTRY_PASSWORD)
  
  仓库地址（ALIYUN_REGISTRY）
3. 启动Action
  进入您自己的项目，点击Action，启用Github Action功能
4. 配置环境变量
  进入Settings->Secret and variables->Actions->New Repository secret
  将上一步的四个值
  ALIYUN_NAME_SPACE,
  
  ALIYUN_REGISTRY_USER，
  
  ALIYUN_REGISTRY_PASSWORD，
  
  ALIYUN_REGISTRY
  配置成环境变量
5. 添加镜像
  打开images.txt文件，添加你想要的镜像可以加tag
6. 使用镜像
  回到阿里云，镜像仓库，点击任意镜像，可查看镜像状态。(可以改成公开，拉取镜像免登录)

]]> 网络相关 /posts/41168.html uniapp 开发 /posts/58817.html

uniapp component

]]> uniapp 组件使用 /posts/33957.html 组件自动导入

"easycom":{
  "autoscan": true,
  "custom": {
    "^tui-(.*)": "@/components/thorui/tui-$1/tui-$1.vue"  // 匹配components目录内的vue文件
  }
}

`tui-sticky 吸顶容器`

包含以下 tui 组件 :

tui-sticky

tui-list-view

tui-list-cell

<tui-sticky :scrollTop="scrollTop" stickyHeight="104rpx" container>
    <!-- header start -->
    <template v-slot:header>
        <view class="sticky-item">
            <view class="setting">设置</view>
        </view>
    </template>
    <!-- header end -->
    <!--内容 start-->
    <template v-slot:content>
        <tui-list-view class="content">
            <tui-list-cell  :arrow="false">
                <switch class='switch' checked color="#FFCC33" />
            </tui-list-cell>
        </tui-list-view>
    </template>
    <!--内容 end-->
</tui-sticky>

<script setup>
    import { ref } from 'vue'
    import { onPageScroll } from '@dcloudio/uni-app'

    // 定义 scrollTop 响应式变量
    const scrollTop = ref(0)
    // 监听页面滚动事件
    onPageScroll((e) => {
        scrollTop.value = e.scrollTop
    })
</script>

]]> uniapp 郑伯克段于鄢 /posts/58638.html 原文如下：

初，郑武公娶于申【申国】，曰武姜【武为武公谥号，姜为其宗族之性】。生庄公及共叔段【共表示其曾出逃到共，叔为老三，段为名】。庄公寤生【出生时头先出，难产】，惊姜氏，故名曰“寤生”，遂恶之，爱【喜爱】共叔段，欲立【立为储君】之，亟（qì）【多次】请于武公，及庄公即位，为之【共叔段】请制【一个叫制的封地，虎牢关所在】。公曰：“制，岩邑【险要的城邑】也，虢叔死焉，佗【通“他”，其他】邑唯命（是听）。”请京，使居之，谓之“京城大叔”。

]]> 古文观止古文观止 Hadoop集群搭建基础环境 /posts/61253.html 防火墙关闭

# 在 6 台主机执行
systemctl stop firewalld
systemctl disable firewalld

配置yum源

下载 repo 文件：
Centos-7.repo
并上传到/tmp，进入到/tmp

备份并且替换系统的repo文件

 	cp Centos-7.repo /etc/yum.repos.d/ 
cd /etc/yum.repos.d/ 
mv CentOS-Base.repo CentOS-Base.repo.bak 
mv Centos-7.repo CentOS-Base.repo

将nn1上的CentOS-Base.repo拷贝到其他主机

scp /etc/yum.repos.d/CentOS-Base.repo root@nn2:/etc/yum.repos.d
scp /etc/yum.repos.d/CentOS-Base.repo root@nn3:/etc/yum.repos.d
scp /etc/yum.repos.d/CentOS-Base.repo root@s1:/etc/yum.repos.d
scp /etc/yum.repos.d/CentOS-Base.repo root@s2:/etc/yum.repos.d
scp /etc/yum.repos.d/CentOS-Base.repo root@s3:/etc/yum.repos.d

执行yum源更新命令

yum clean all
yum makecache 
yum update -y

安装常用软件

yum install -y openssh-server vim gcc gcc-c++ glibc-headers bzip2-devel lzo-devel curl wget openssh-clients zlib-devel autoconf automake cmake libtool openssl-devel fuse-devel snappy-devel telnet unzip zip net-tools.x86_64 firewalld systemd ntp unrar bzip2

JDK安装

注意需要在六台机器依次执行

上传到/tmp目录下，安装
cd /tmp
rpm -ivh jdk-8u144-linux-x64.rpm

配置环境变量

ln -s /usr/java/jdk1.8.0_144/ /usr/java/jdk1.8
echo 'export JAVA_HOME=/usr/java/jdk1.8' >> /etc/profile.d/myEnv.sh 
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile.d/myEnv.sh 
source /etc/profile 
java -version

修改主机名和主机名映射

vim /etc/hostname

6台机器分别为nn1、nn2、nn3、s1、s2、s3

vim /etc/hosts

修改为

192.168.1.30 nn1
192.168.1.31 nn2
192.168.1.32 nn3
192.168.1.33 s1
192.168.1.34 s2
192.168.1.35 s3

创建hadoop用户

#创建hadoop用户 
useradd hadoop 
#给hadoop用户设置密码: 12345678 
passwd hadoop

禁止非 wheel 组用户切换到root，配置免密切换root

修改/etc/pam.d/su配置

sed -i 's/#auth\t\trequired\tpam_wheel.so/auth\t\trequired\tpam_wheel.so/g' '/etc/pam.d/su' 
sed -i 's/#auth\t\tsufficient\tpam_wheel.so/auth\t\tsufficient\tpam_wheel.so/g' '/etc/pam.d/su'

修改/etc/login.defs文件

echo "SU_WHEEL_ONLY yes" >> /etc/login.defs

添加用户到管理员，禁止普通用户su 到 root

#把hadoop用户加到wheel组里
gpasswd -a hadoop wheel
#查看wheel组里是否有hadoop用户
cat /etc/group | grep wheel

给hadoop用户，配置SSH密钥

配置hadoop用户ssh免密码登录到hadoop

仅在nn1执行这段脚本命令即可
但是 su - hadoop , mkdir ~/.ssh 需要在其他主机执行一下

#切换到hadoop用户 
su - hadoop
#生成ssh公私钥 
ssh-keygen -t rsa -f ~/.ssh/id_rsa -P ''
ssh-copy-id nn1
ssh-copy-id nn2
ssh-copy-id nn3
ssh-copy-id s1
ssh-copy-id s2
ssh-copy-id s3
scp /home/hadoop/.ssh/id_rsa hadoop@nn2:/home/hadoop/.ssh
scp /home/hadoop/.ssh/id_rsa hadoop@nn3:/home/hadoop/.ssh
scp /home/hadoop/.ssh/id_rsa hadoop@s1:/home/hadoop/.ssh
scp /home/hadoop/.ssh/id_rsa hadoop@s2:/home/hadoop/.ssh
scp /home/hadoop/.ssh/id_rsa hadoop@s3:/home/hadoop/.ssh

配置hadoop用户ssh免密码登录到root

同上

ssh-copy-id root@nn1
ssh-copy-id root@ nn2
ssh-copy-id root@nn3
ssh-copy-id root@s1
ssh-copy-id root@s2
ssh-copy-id root@s3
scp /home/hadoop/.ssh/id_rsa root@nn2:/root/.ssh
scp /home/hadoop/.ssh/id_rsa root@nn3:/root/.ssh
scp /home/hadoop/.ssh/id_rsa root@s1:/root/.ssh
scp /home/hadoop/.ssh/id_rsa root@s2:/root/.ssh
scp /home/hadoop/.ssh/id_rsa root@s3:/root/.ssh

脚本配置

ips

vim /home/hadoop/bin/ips

nn1 
nn2
nn3
s1 
s2 
s3

ssh_all.sh

vim /home/hadoop/bin/ssh_all.sh

#! /bin/bash
# 进入到当前脚本所在目录
cd `dirname $0`
# 获取当前脚本所在目录
dir_path=`pwd`
#echo $dir_path
# 读ips文件得到数组(里面是一堆主机名)
ip_arr=(`cat $dir_path/ips`)
# 遍历数组里的主机名
for ip in ${ip_arr[*]}
do
        # 拼接ssh命令: ssh hadoop@nn1.hadoop ls
        cmd_="ssh hadoop@${ip} \"$*\"  "
        echo $cmd_
        # 通过eval命令 执行 拼接的ssh 命令
        if eval ${cmd_} ; then
                echo "OK"
        else
                echo "FAIL"
        fi
done

ssh_root.sh

#! /bin/bash
# 进入到当前脚本所在目录
cd `dirname $0`
# 获取当前脚本所在目录
dir_path=`pwd`
#echo $dir_path
# 读ips文件得到数组(里面是一堆主机名)
ip_arr=(`cat $dir_path/ips`)
# 遍历数组里的主机名
for ip in ${ip_arr[*]}
do
        # 拼接ssh命令: ssh hadoop@nn1.hadoop ls
        cmd_="ssh  hadoop@${ip} ~/bin/exe.sh \"$*\""
        echo $cmd_
        # 通过eval命令 执行 拼接的ssh 命令
        if eval ${cmd_} ; then
                echo "OK"
        else
                echo "FAIL"
        fi
done

scp_all.sh

#! /bin/bash
# 进入到当前脚本所在目录
cd `dirname $0`
# 获取当前脚本所在目录
dir_path=`pwd`
#echo $dir_path
# 读ips文件得到数组(里面是一堆主机名)
ip_arr=(`cat $dir_path/ips`)
# 源
source_=$1
# 目标
target=$2
# 遍历数组里的主机名
for ip in ${ip_arr[*]}
do
        # 拼接scp命令: scp 源 hadoop@nn1.hadoop:目标
        cmd_="scp -r ${source_} hadoop@${ip}:${target}"
        echo $cmd_
        # 通过eval命令 执行 拼接的scp 命令
        if eval ${cmd_} ; then
                echo "OK"
        else
                echo "FAIL"
        fi
done

exe.sh

#切换到root用户执行cmd命令
cmd=$*
su - << EOF
$cmd
EOF

赋予执行权限

chmod +x ssh_all.sh 
chmod +x scp_all.sh
chmod +x ssh_root.sh
chmod +x exe.sh

分发到其他主机

./ssh_all.sh mkdir /home/hadoop/bin
./scp_all.sh /home/hadoop/bin/ips /home/hadoop/bin/
./scp_all.sh /home/hadoop/bin/exe.sh /home/hadoop/bin/
./scp_all.sh /home/hadoop/bin/ssh_all.sh /home/hadoop/bin/
./scp_all.sh /home/hadoop/bin/scp_all.sh /home/hadoop/bin/
./scp_all.sh /home/hadoop/bin/ssh_root.sh /home/hadoop/bin/

将 /home/hadoop/bin添加到hadoop用户的环境变量，需要切换到hadoop用户

echo 'export PATH=$PATH:/home/hadoop/bin' >> ~/.bashrc && source ~/.bashrc
scp_all.sh /home/hadoop/.bashrc /home/hadoop/
ssh_all.sh source ~/.bashrc

]]> 无法访问外网？需要订阅代理服务？ /posts/14011.html

由于中国大陆的GFW（防火墙）限制，无法访问外网网络，因此需要访问像GitHub、YouTube这样的
的网站将被屏蔽拦截，接下来我将给出一种使用VPN服务的可行的方案来保证服务的可靠性。

介绍

根据测试，许多提供服务的提供商所在的网站需要使用外部网络才能打开，仅有少部分的网站(比较贵)可以直接使用
国内网络环境打开直接购买订阅服务。

那么你现在可以有两个选择：

方案一：使用无需外部网络便能开通订阅服务的VPN，费用高，如果你选择此方案，那么你可自行搜索解决，此处仅仅讨论方案二。
方案二：如果使用此方案，详见下方。

解决方案

采用方案二方式

这是一些订阅服务推广的链接： https://9.234456.xyz/abc.html?t=638586217737356738 (此链接打开无需使用VPN，但进入对应的机场页面却仍无法打开)

此教程中我们使用的机场是

一元机场: https://xn--4gq62f52gdss.com/

赔钱机场：https://xn--mes358aby2apfg.com/

机场选择的建议：

一元机场

可以看到
- 12元/年,每月50GB的可用额度，下个月重置流量额度
- 15元/季，即为60元/年，每月有4000GB的可用额度，下个月重置流量额度
- 7元/月，即为84元/年，每个月8000GB的可用额度，下个月重置流量额度
  根据我个人的使用情况，大多数情况下我每月的流量使用未超过50GB，如果没有频繁的流量使用，
  建议选择12元/年，否则可以选择15元/季，这意味着每月将有4000GB的可用额度
赔钱机场

赔钱机场的订阅共有9种方案，这里我仅显示自己正在使用的，个人认为十分优惠：
- 34.99元/年,每月500GB的可用额度，根据我观察和使用，这个订阅方案比一元机场的性价比更高，且流量使用额度也不用担心

如何订阅？

由于需要外部网络才能完成订阅服务的购买，你可以向我的邮箱15202078626@163.com发送你的订阅计划方案，
扫描付款二维码，我将为你开通订阅（您只需要付款对应的订阅金额即可）

完成订阅后如何使用？

你可以在 Windows、Mac、Android等平台使用此服务
使用订阅的对应链接： https://flowus.cn/shenjian/22f76d4f-e7b3-4b8a-8a89-561566f6eb60

]]> 网络代理 Hadoop集群HDFS配置 /posts/61252.html 上传hadoop-3.1.4.tar.gz到/tmp，解压

注意在六台机器均上传到/tmp

# 在6台机器执行
sudo tar -zxvf /tmp/hadoop-3.1.4.tar.gz -C /usr/local/
# 分发到其他主机
ssh_root.sh chown -R hadoop:hadoop /usr/local/hadoop-3.1.4
ssh_root.sh ln -s /usr/local/hadoop-3.1.4/ /usr/local/hadoop

配置环境变量

echo 'export HADOOP_HOME=/usr/local/hadoop' >> /etc/profile.d/myEnv.sh
echo 'export PATH=$PATH:$HADOOP_HOME/bin' >> /etc/profile.d/myEnv.sh
echo 'export PATH=$PATH:$HADOOP_HOME/sbin' >> /etc/profile.d/myEnv.sh

# 分发到nn2、nn3、s1、s2、s3
scp_all.sh /etc/profile.d/myEnv.sh /etc/profile.d/
# source 环境变量
ssh_root.sh source /etc/profile

还需要创建 /data这个目录，由于nn1、nn2、nn3已经创建/data，其他三台需要创建一下

### 在s1、s2、s3执行
sudo mkdir /data
sudo chown -R hadoop:hadoop /data

修改core-site.xml

vim /usr/local/hadoop/etc/hadoop/core-site.xml

<configuration>
	<property>
	    <name>fs.defaultFS</name>
	    <value>hdfs://ns1</value>
	    <description>默认文件服务的协议和NS逻辑名称，和hdfs-site.xml里的对应此配置替代了1.0里的fs.default.name</description>
	</property>
	
	<property>
	    <name>hadoop.tmp.dir</name>
	    <value>/data/tmp</value>
	    <description>数据存储目录</description>
	</property>
	
	<property>
	    <name>hadoop.proxyuser.root.groups</name>
	    <value>hadoop</value>
	    <description>
	        hdfs dfsadmin –refreshSuperUserGroupsConfiguration,
	        yarn rmadmin –refreshSuperUserGroupsConfiguration
	        使用这两个命令不用重启就能刷新
	    </description>
	</property>
	
	<property>
	    <name>hadoop.proxyuser.root.hosts</name>
	    <value>localhost</value>
	    <description>本地代理</description>
	</property>
	
	<!-- zkfc的配置 -->
	<property> 
		<name>ha.zookeeper.quorum</name> 
		<value>nn1:2181,nn2:2181,nn3:2181</value> 
		<description>HA使用的zookeeper地址</description> 
	</property>
</configuration>

修改`hdfs-site.xml`

vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/data/namenode</value>
        <description>namenode本地文件存放地址</description>
    </property>
    
    <property>
        <name>dfs.nameservices</name>
        <value>ns1</value>
        <description>提供服务的NS逻辑名称，与core-site.xml里的对应</description>
    </property>
    
    <!-- namenode的配置 -->
    <!-- 主要的 -->
    <property>
        <name>dfs.ha.namenodes.ns1</name>
        <value>nn1,nn2,nn3</value>
        <description>列出该逻辑名称下的NameNode逻辑名称</description>
    </property>
    
    <property>
        <name>dfs.namenode.rpc-address.ns1.nn1</name>
        <value>nn1:9000</value>
        <description>指定NameNode的RPC位置</description>
    </property>
    
    <property>
        <name>dfs.namenode.http-address.ns1.nn1</name>
        <value>nn1:50070</value>
        <description>指定NameNode的Web Server位置</description>
    </property>
    
    <property>
        <name>dfs.namenode.rpc-address.ns1.nn2</name>
        <value>nn2:9000</value>
        <description>指定NameNode的RPC位置</description>
    </property>
    
    <property>
        <name>dfs.namenode.http-address.ns1.nn2</name>
        <value>nn2:50070</value>
        <description>指定NameNode的Web Server位置</description>
    </property>
    
    <property>
        <name>dfs.namenode.rpc-address.ns1.nn3</name>
        <value>nn3:9000</value>
        <description>指定NameNode的RPC位置</description>
    </property>
    
    <property>
        <name>dfs.namenode.http-address.ns1.nn3</name>
        <value>nn3:50070</value>
        <description>指定NameNode的Web Server位置</description>
    </property>
    
    <property>
        <name>dfs.namenode.handler.count</name>
        <value>77</value>
        <description>namenode的工作线程数</description>
    </property>

    <!-- journaldata配置,使得其他两个namenode同步第一个namenode数据 --> 
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://nn1:8485;nn2:8485;nn3:8485/ns1</value>
        <description>指定用于HA存放edits的共享存储，通常是namenode的所在机器</description>
    </property>
    
    <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/data/journaldata/</value>
        <description>journaldata服务存放文件的地址</description>
    </property>
    
    <property>
        <name>ipc.client.connect.max.retries</name>
        <value>10</value>
        <description>namenode和journalnode的链接重试次数10次</description>
    </property>
    
    <property>
        <name>ipc.client.connect.retry.interval</name>
        <value>10000</value>
        <description>重试的间隔时间10s</description>
    </property>

    <!-- zkfc的配置 -->
    <property>
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence</value>
        <description>指定HA做隔离的方法，缺省是ssh，可设为shell，稍后详述</description>
    </property>
    
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/home/hadoop/.ssh/id_rsa</value>
        <description>杀死命令脚本的免密配置秘钥</description>
    </property>
    
    <property>
        <name>dfs.client.failover.proxy.provider.ns1</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
        <description>指定客户端用于HA切换的代理类，不同的NS可以用不同的代理类以上示例为Hadoop 2.0自带的缺省代理类</description>
    </property>
    
    <property>
        <name>dfs.client.failover.proxy.provider.auto-ha</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property> 
    
    <property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>
	<!-- datanode配置 -->
	<property>
	    <name>dfs.datanode.data.dir</name>
	    <value>/data/datanode</value>
	    <description>datanode本地文件存放地址</description>
	</property>
	<property>
	    <name>dfs.replication</name>
	    <value>3</value>
	    <description>文件复本数</description>
	</property>
	<property>
	    <name>dfs.namenode.datanode.registration.ip-hostname-check</name>
	    <value>false</value>
	</property>
	<property>
	    <name>dfs.client.use.datanode.hostname</name>
	    <value>true</value>
	</property>
	<property>
	    <name>dfs.datanode.use.datanode.hostname</name>
	    <value>true</value>
	</property>
</configuration>

修改`hadoop-env.sh`

vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

# 添加这两行
source /etc/profile 
export HADOOP_HEAPSIZE_MAX=512

分发这些配置文件

scp_all.sh /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/hadoop/etc/hadoop/
scp_all.sh /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/hadoop/etc/hadoop/
scp_all.sh /usr/local/hadoop/etc/hadoop/hadoop-env.sh /usr/local/hadoop/etc/hadoop/

集群初始化

需要先启动zookeeper集群

ssh_all_zookeeper.sh /usr/local/zookeeper/bin/zkServer.sh start

# 第一次启动先启动journalnode，便于3个namenode的元数据同步
ssh_all_zookeeper.sh hadoop-daemon.sh start journalnode

zkfc搭建

#在nn1节点执行 
hdfs zkfc -formatZK
#nn1 nn2 nn3启动zkfc 
hadoop-daemon.sh start zkfc

初始化nn1的namenode，在nn1执行

hdfs namenode -format 
hadoop-daemon.sh start namenode

格式化第二台和第三台namenode，并且启动namenode,在nn2、nn3执行
hdfs namenode -bootstrapStandby
hadoop-daemon.sh start namenode

修改workers

vim /usr/local/hadoop/etc/hadoop/workers

修改为

s1
s2
s3

分发给其他机器

scp_all.sh /usr/local/hadoop/etc/hadoop/workers /usr/local/hadoop/etc/hadoop

启动datanode节点，在s1、s2、s3执行

#启动各个节点的datanode
hadoop-daemons.sh start datanode

集群启动

start-dfs.sh

]]> Hadoop集群Zookeeper配置 /posts/61251.html Zookeeper脚本配置

拷贝ips
cp ips ips_zookeeper
修改为
nn1
nn2
nn3

拷贝三个脚本

cp scp_all.sh scp_all_zookeeper.sh 
cp ssh_all.sh ssh_all_zookeeper.sh 
cp ssh_root.sh ssh_root_zookeeper.sh

修改脚本

vim scp_all_zookeeper.sh 
vim ssh_all_zookeeper.sh 
vim ssh_root_zookeeper.sh

将三个脚本中的ips改为ips_zookeeper

Zookeeper安装

上传到/tmp目录下，解压

sudo tar -zxvf /tmp/zookeeper-3.4.8.tar.gz -C /usr/local/
scp -r /usr/local/zookeeper-3.4.8/ root@nn2:/usr/local/
scp -r /usr/local/zookeeper-3.4.8/ root@nn3:/usr/local/
ssh_root_zookeeper.sh chown -R hadoop:hadoop /usr/local/zookeeper-3.4.8
ssh_root_zookeeper.s ln -s /usr/local/zookeeper-3.4.8/ /usr/local/zookeeper

Zookeeper配置

zoo.cfg配置

cd /usr/local/zookeeper/conf/
cp zoo_sample.cfg zoo.cfg

然后vim zoo.cfg,修改如下：

# 修改dataDir
dataDir=/data/zookeeper
# 添加一下内容
server.1=nn1:2888:3888 
server.2=nn2:2888:3888 
server.3=nn3:2888:3888

分发给nn2、nn3
scp_all_zookeeper.sh /usr/local/zookeeper/conf/zoo.cfg /usr/local/zookeeper/conf/

zkEnv.sh配置
vim /usr/local/zookeeper/bin/zkEnv.sh

分发到nn2、nn3

scp_all_zookeeper.sh /usr/local/zookeeper/bin/zkEnv.sh /usr/local/zookeeper/bin/

创建zookeeper数据目录

ssh_root_zookeeper.sh mkdir -p /data/zookeeper
ssh_root_zookeeper.sh chown -R hadoop:hadoop /data

创建myid文件

ssh nn1 'echo "1" > /data/zookeeper/myid'
ssh nn2 'echo "2" > /data/zookeeper/myid'
ssh nn3 'echo "3" > /data/zookeeper/myid'

配置Zookeeper环境变量

# 在其他所有主机也执行
sudo chown -R hadoop:hadoop /etc/profile.d/myEnv.sh

echo 'export ZOOKEEPER_HOME=/usr/local/zookeeper' >> /etc/profile.d/myEnv.sh
echo 'export PATH=$PATH:$ZOOKEEPER_HOME/bin' >> /etc/profile.d/myEnv.sh

# 分发到nn2、nn3
scp_all_zookeeper.sh /etc/profile.d/myEnv.sh /etc/profile.d/
# source 环境变量
ssh_all_zookeeper.sh source /etc/profile

Zookeeper的命令

#启动zk服务
ssh_all_zookeeper.sh /usr/local/zookeeper/bin/zkServer.sh start
#查看每个机器ZK运行的状态
ssh_all_zookeeper.sh /usr/local/zookeeper/bin/zkServer.sh status
#整体停止服务
ssh_all_zookeeper.sh /usr/local/zookeeper/bin/zkServer.sh stop 
#重启zk服务
ssh_all_zookeeper.sh /usr/local/zookeeper/bin/zkServer.sh restart

#启动zookeeper客户端，并连接zookeeper集群
/usr/local/zookeeper/bin/zkCli.sh -server nn1:2181
# 可以简化为:
zkCli.sh

]]>

Quick Start

Create a new post

Run server

Generate static files

Deploy to remote sites

距离公式(2维)

k值选择问题

特征预处理

Shell脚本编写的基本信息

tui-sticky 吸顶容器

配置yum源

JDK安装

修改主机名和主机名映射

创建hadoop用户

禁止非 wheel 组用户切换到root，配置免密切换root

给hadoop用户，配置SSH密钥

配置hadoop用户ssh免密码登录到hadoop

配置hadoop用户ssh免密码登录到root

脚本配置

介绍

解决方案

机场选择的建议：

如何订阅？

完成订阅后如何使用？

配置环境变量

修改core-site.xml

修改hdfs-site.xml

修改hadoop-env.sh

分发这些配置文件

集群初始化

集群启动

Zookeeper安装

Zookeeper配置

Zookeeper的命令

`tui-sticky 吸顶容器`

修改`hdfs-site.xml`

修改`hadoop-env.sh`