2022年8月

企业级架构ELKF集群


图片

服务器

A:10.10.1.3

B:10.10.1.4

C:10.10.1.5

客户端

D:10.10.1.6

下面将用ABC代表服务器了

ABC修改计算机名称




A服务器:hostnamectl set-hostname node1B服务器:hostnamectl set-hostname node2C服务器:hostnamectl set-hostname node3


ADCD更新源并安装java




curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repocurl -o /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repoyum install lrzsz vim java-1.8.0-openjdk java-1.8.0-openjdk-devel-y   java –version -y


ABC都切换到 


cd /usr/local/src/


吧文件下面文件都拷贝到上面的这个目录







apache-zookeeper-3.6.0-bin.tar.gzelasticsearch-7.13.1-x86_64.rpmfilebeat-7.13.1-x86_64.rpmkafka_2.12-2.5.0.tgzkibana-7.13.1-x86_64.rpmlogstash-7.13.1-x86_64.rpm


图片


ABC都要进行更新源,和安装java




curl -o /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repocurl -o /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repoyum install lrzsz vim java-1.8.0-openjdk java-1.8.0-openjdk-devel-y   java –version -y


ABC安装ES集群服务,进行连接



cd /usr/local/src/yum localinstall elasticsearch-7.13.1-x86_64.rpm -y


 JVM的内存限制更改,根据实际环境调整,更具服务器内存修改,如果服务器8G,这里可以改为6G,给服务器预留1-2G即可



vi /etc/elasticsearch/jvm.options -Xms4g 改为 -Xmx2g





ES集群实战注意

  集群交互是使用证书交互

  搭建集群前需要先创建证书文件

ES集群交互CA证书创建  A服务器上


/usr/share/elasticsearch/bin/elasticsearch-certutil ca           #一直回车


查看证书位置


ll -rht /usr/share/elasticsearch/elastic-stack-ca.p12


创建证书


/usr/share/elasticsearch/bin/elasticsearch-certutil cert --ca /usr/share/elasticsearch/elastic-stack-ca.p12           #一直回车


查看证书



ll -rht /usr/share/elasticsearch/elastic-certificates.p12cp /usr/share/elasticsearch/elastic-certificates.p12 /etc/elasticsearch/elastic-certificates.p12


证书要求权限修改,不然集群搭建失败



chmod 600 /etc/elasticsearch/elastic-certificates.p12chown elasticsearch:elasticsearch /etc/elasticsearch/elastic-certificates.p12


吧加密ca证书拷贝到BC服务器



scp /etc/elasticsearch/elastic-certificates.p12 10.10.1.4:/etc/elasticsearch/scp /etc/elasticsearch/elastic-certificates.p12 10.10.1.5:/etc/elasticsearch/


图片


ABC服务器对比MD5值是否一致


md5sum /etc/elasticsearch/elastic-certificates.p12


图片


B服务器和C服务器都要执行



chmod 600 /etc/elasticsearch/elastic-certificates.p12chown elasticsearch:elasticsearch /etc/elasticsearch/elastic-certificates.p12


ADC服务器都要进行修改


















vi /etc/elasticsearch/elasticsearch.ymlcluster.name: maixiaolunnode.name: node1   #服务器A就改为nede1,服务器B改为node2,服务器C改为node3node.master: truenode.data: truepath.data: /var/lib/elasticsearchpath.logs: /var/log/elasticsearchnetwork.host: 0.0.0.0http.port: 9200discovery.seed_hosts: ["10.10.1.3", "10.10.1.4", "10.10.1.5"]cluster.initial_master_nodes: ["10.10.1.3", "10.10.1.4", "10.10.1.5"]xpack.security.enabled: truexpack.monitoring.enabled: truexpack.security.transport.ssl.enabled: truexpack.security.transport.ssl.verification_mode: certificatexpack.security.transport.ssl.keystore.path: /etc/elasticsearch/elastic-certificates.p12xpack.security.transport.ssl.truststore.path: /etc/elasticsearch/elastic-certificates.p12


ABC防火墙要放通端口









firewall-cmd --zone=public --add-port=9300/tcp --permanentfirewall-cmd --zone=public --add-port=9300/udp --permanentfirewall-cmd --zone=public --add-port=9200/tcp --permanentfirewall-cmd --zone=public --add-port=9200/udp --permanentfirewall-cmd --zone=public --add-port=5601/tcp --permanentfirewall-cmd --zone=public --add-port=5601/udp --permanentfirewall-cmd --zone=public --add-port=80/tcp --permanentfirewall-cmd --zone=public --add-port=3000/tcp --permanent

重新载入


firewall-cmd --reload


图片


图片


图片


ABC服务器顺序启动ES服务



systemctl enable elasticsearchsystemctl restart elasticsearch


继续看第一台服务器日志


图片


出现valid,表示成功了

接下来是查看3台集群中间的互动



yum -y install net-tools  安装 netstatnetstat -anp |grep 10.0.0.20:9300   查看集群之间的交互


检查9300端口连接情况


图片


确认集群中所有es的日志正常再设置密码maixiaolun..123

在主服务器(服务器A,想把那个当主服务器就在那个服务器上运行)上运行

ES设置密码/usr/share/elasticsearch/bin/elasticsearch-setup-passwords interactive


图片


ES设置随机密码/usr/share/elasticsearch/bin/elasticsearch-setup-passwords auto

验证集群是否成功,标记为*的为master节点。网页访问或者curl访问

http://10.10.1.3:9200    账号:elastic   密码:刚刚设置的

http://10.10.1.3:9200/_cat/nodes?v    //查看节点信息  带*的就是主的


图片


http://xxx:9200/_cat/indices?v

命令方式查看 输入账号密码

curl -u elastic:maixiaolun..123 http://10.10.1.3:9200/_cat/nodes?v


图片


B服务器安装Kibana (因为是前端,蹦了就蹦了,不要紧,所有不需要每个地方都搭建来)

B服务器安装



cd /usr/local/src/yum localinstall kibana-7.13.1-x86_64.rpm -y


图片


Kibana配置连接ES集群








vi /etc/kibana/kibana.ymlserver.port: 5601server.host: "0.0.0.0"elasticsearch.hosts: ["http://10.10.1.3:9200", "http://10.10.1.4:9200", "http://10.10.1.5:9200"]elasticsearch.username: "elastic"elasticsearch.password: "maixiaolun..123"logging.dest: /tmp/kibana.log



B服务器Kibana的启动和访问



systemctl enable kibanasystemctl restart kibana



Kibana监控开启


netstat -tulnp


图片


http://10.10.1.3:5601

账号:elastic

密码:maixiaolun..123


BC服务器安装logstash日志分析 (就是蹦了一台也不要紧,此做法为高可用做法,安装一台的话也是可以的)



cd /usr/local/src/yum localinstall logstash-7.13.1-x86_64.rpm -y


图片


内存配置jvm.options 1g,根据自己实际情况改


vi /etc/logstash/jvm.options

配置logstash配置文件



































vi /etc/logstash/conf.d/logstash.conf#监听5044传来的日志input {   beats {   host => '0.0.0.0'   port => 5044 }}#这里是正则表达式,分析日志filter {grok {match => {"message" => '%{IP:remote_addr} - (%{WORD:remote_user}|-) [%{HTTPDATE:time_local}] "%{WORD:method} %{NOTSPACE:request} HTTP/%{NUMBER}" %{NUMBER:status} %{NUMBER:body_bytes_sent} %{QS} %{QS:http_user_agent}'}remove_field => ["message"]}date {match => ["time_local", "dd/MMM/yyyy:HH:mm:ss Z"]target => "@timestamp"}}

#发送给所有ES服务器output {elasticsearch {hosts => ["http://10.10.1.3:9200", "http://10.10.1.4:9200", "http://10.10.1.5:9200"]user => "elastic"password => "maixiaolun..123"index => "mxlnginx-%{+YYYY.MM.dd}"}}


启动Logstash,配置重载:kill -1 pid



systemctl restart logstashsystemctl enable logstash


等待启动,查看日志

/var/log/logstash   日志生成的地方


tail -f logstash-plain.log


图片


ZK集群部署

所有服务器都要进行安装







cd /usr/local/src/tar -zxvf apache-zookeeper-3.6.0-bin.tar.gzmv apache-zookeeper-3.6.0-bin /usr/local/zookeepermkdir -pv /usr/local/zookeeper/datacd /usr/local/zookeeper/confcp zoo_sample.cfg zoo.cfg

  zk集群至少需要三台机器

集群配置zoo.cfg 












vi zoo.cfgtickTime=2000initLimit=10syncLimit=5dataDir=/usr/local/zookeeper/dataclientPort=2181autopurge.snapRetainCount=3autopurge.purgeInterval=1server.1=10.10.1.3:2888:3888server.2=10.10.1.4:2888:3888server.3=10.10.1.5:2888:3888


更改zk集群的id


vi /usr/local/zookeeper/data/myid

第一台就填写1

第二台就填写2

第三台就填写3


图片


图片

分别为1 2 3

systemctl管理











vi /usr/lib/systemd/system/zookeeper.service[Unit]Description=zookeeperAfter=network.target[Service]Type=forkingExecStart=/usr/local/zookeeper/bin/zkServer.sh startUser=root[Install]WantedBy=multi-user.target


启动zk



systemctl enable zookeepersystemctl restart zookeeper


启动zk集群查看状态




cd /usr/local/zookeeper/bin/./zkServer.sh start./zkServer.sh status


图片

报错的话,检查防火墙。

正确显示为下


图片

Kafka集群部署

下载地址:http://kafka.apache.org/downloads

安装



cd /usr/local/src/tar -zxvf kafka_2.12-2.5.0.tgz -C /usr/local/

  Jvm内存修改/usr/local/kafka_2.12-2.5.0/bin/kafka-server-start.sh,根据实际情况修

改,每台服务器都要改


图片


修改Kafka配置server.properties



cd /usr/local/kafka_2.12-2.5.0/config/vi server.properties


图片













broker.id=0listeners=PLAINTEXT://xxx:9092 log.retention.hours=1  #根据实际情况修改  日志保留时间zookeeper.connect=xxx:2181,xxx:2181,xxx:2181zookeeper.connection.timeout.ms=18000 改为 zookeeper.connection.timeout.ms=60000拷贝到其他服务器上scp server.properties 10.0.0.21:/usr/local/kafka_2.12-2.5.0/config/然后在新的服务器上vi /usr/local/kafka_2.12-2.5.0/config/server.properties改listeners=PLAINTEXT://xxx:9092 对应当前服务器的ipbroker.id=0 改为broker.id=1

如果启动的时候报如下错误,是因为链接超时,吧60000改为 1200000也就是2分钟


图片


Kafka使用systemctl管理











vi /usr/lib/systemd/system/kafka.service[Unit]Description=kafkaAfter=network.target[Service]Type=simpleExecStart=/usr/local/kafka_2.12-2.5.0/bin/kafka-server-start.sh /usr/local/kafka_2.12-2.5.0/config/server.propertiesUser=root[Install]WantedBy=multi-user.target

Kafka启动



systemctl enable kafka systemctl restart kafka


查看kafka日志



cd /usr/local/kafka_2.12-2.5.0/logstail -f server.log


图片


创建topic,创建成功说明kafka集群搭建成功

--replication-factor 3 代表3台服务器



cd /usr/local/kafka_2.12-2.5.0/bin/./kafka-topics.sh --create --zookeeper 10.10.1.4:2181 --replication-factor 3 --partitions 1 --to


图片


logstash获取kafka数据 


vi /etc/logstash/conf.d/logstash.conf


#获取kafka的日志






















































input { kafka {   bootstrap_servers => "10.10.1.3:9092,10.10.1.4:9092,10.10.1.5:9092"   topics => ["mxlkafka"]   group_id => "mxlgroup"   codec => "json" }}





filter { mutate {   remove_field => ["agent","ecs","log","input","[host][os]"] }}



#正则表达式分析日志filter {grok {match => {"message" => '%{IP:remote_addr} - (%{WORD:remote_user}|-) [%{HTTPDATE:time_local}] "%{WORD:method} %{NOTSPACE:request} HTTP/%{NUMBER}" %{NUMBER:status} %{NUMBER:body_bytes_sent} %{QS} %{QS:http_user_agent}'}remove_field => ["message"]}date {match => ["time_local", "dd/MMM/yyyy:HH:mm:ss Z"]target => "@timestamp"}}



#吧分析过后的日志发送给ESoutput {elasticsearch {hosts => ["http://10.10.1.3:9200", "http://10.10.1.4:9200", "http://10.10.1.5:9200"]user => "elastic"password => "maixiaolun..123"index => "mxlnginx-%{+YYYY.MM.dd}"     #这里代表日志的名字,不通服务器可以写不通的名字}}

重载



ps auxfww | grep logstashkill -1 804


图片


看日志

cd /var/log/logstash/

tail -f logstash-plain.log


图片


测试环境是否正常

效果同ELFK,但架构做了优化

Kafka查看队列信息,验证新架构是否生效




cd /usr/local/kafka_2.12-2.5.0/bin/./kafka-consumer-groups.sh --bootstrap-server 10.10.1.4:9092 --list./kafka-consumer-groups.sh --bootstrap-server 10.10.1.4:9092 --group mxlgroup -describe


  LOG-END-OFFSET不断增大,LAG不堆积说明架构生效


图片


LOG-END-OFFSET 一直增加就代表kafka在消费

LAG 一直在堆积

Logstash扩展

  配置保持一致,启动即可




客户端D进行安装nginx进行测试数据是否传入服务器集群

安装nginx做测试,如果有其他服务可以直接测试



yum install nginx -ysystemctl start nginx


安装filebeat,用于发送日志到服务器



cd /usr/local/src/yum localinstall filebeat-7.13.1-x86_64.rpm -y




配置filebeat进行监控nginx



















vi /etc/filebeat/filebeat.ymlfilebeat.inputs:- type: log  tail_files: true  backoff: "1s"  paths:     - /var/log/nginx/access.log

processors:- drop_fields:   fields: ["agent","ecs","log","input"]

output:  kafka:    hosts: ["10.10.1.3:9092", "10.10.1.4:9092", "10.10.1.5:9092"]    topic: mxlkafka   #这里代表日志的名字,不通服务器可以写不通的名字


启动filebeat



systemctl start filebeatsystemctl enable filebeat


登入B服务器网页

http://10.10.1.4:5601

账号:elastic

密码:maixiaolun..123


打开Stack Management


图片



添加日志数据 Index Patterns


图片


添加


图片



输入刚刚设置的名字 mxlnginx* 点击下一步

图片


选择@timestamp  下一步


图片


这时候就能看到添加的内容了



图片



访问客户端地址nginx页面 10.10.1.6  多刷新几次


图片

就可以去看数据了


图片



看到日志已经上来了



图片


读者可在公众号后台回复关键字 ELKF集群7搭建 获取二进制安装包


1、日志

在Kubernetes或者说Docker中都可以查看容器的日志,但如果直接通过命令行的方式去看的话会很麻烦,要不断的去敲命令,去找容器名称,很不方便操作!

在没有使用容器的项目中,我们也知道有ELK这一套组合拳是专门用来操作日志的,那K8S肯定也是可以用它们来进行日志收集、查看的。

1.1 日志查看

1.1.1 命令方式

1.1.1.1 docker

  • docker ps 查看 container id

    image.png

  • docker logs container_id 查看日志

    image.png

1.1.1.2 Kubernetes命令

  • kubectl 命令查看

    image.png

    • kubectl logs -f <pod-name> [-c <container-name>]

  • Pod日志

    image.png

    • kubectl describe pod <pod-name>

      kubectl describe除了能够查看pod的日志信息,还能查看比如Node、RC、Service、Namespace等信息。

      注意 :要是想查看指定命名空间之下的,可以-n=namespace

  • 组件服务级别

    比如kube-apiserver、kube-schedule、kubelet、kube-proxy、kube-controller-manager等都可以使用journalctl进行查看

    如果K8S中出现问题了,一般就可以通过这些命令来查看是不是组件出异常了

    image.png

1.1.2 ELK

Elasticsearch搜索引擎与名为Logstash的数据收集和日志解析引擎以及名为Kibana的分析和可视化平台一起开发。这三个产品被设计成一个集成解决方案,称为 Elastic Stack(ELK Stack)

日志采集可以有多种方式选择,ELK中的Logstash可以由其他具有相同功能的多个组件替换,如Logpilot、fluentd等,本章节我们采用 Logpilot 进行演示。

1.1.2.1 结构图

  • Pod中的日志通过mount挂载到宿主机中的某个目录

  • Logpilot采集这个目录下日志之后交给Elasticsearch去做搜索引擎的规则

  • 最后通过Kibana做可视化的展示

image.png

1.1.2.2 部署ELK

1.1.2.2.1 部署LogPilot
  • 准备YAML文件

    由于环境被我弄坏了,我这边重新安装了K8S集群,并且采用了最新版的1.18.2

    下面的yaml文件可能会不兼容旧版本,如果不兼容,大家网上搜一份修改下

    apiVersion: apps/v1kind: DaemonSet                   # 日志采集需要在所有节点都运行,所以采用DaemonSet资源metadata:
      name: log-pilot  namespace: kube-system  labels:
        k8s-app: log-pilot    kubernetes.io/cluster-service: "true"spec:
      selector: 
        matchLabels: 
          k8s-app: log-es      kubernetes.io/cluster-service: "true"
          version: v1.22  template:
        metadata:
          labels:
            k8s-app: log-es        kubernetes.io/cluster-service: "true"
            version: v1.22    spec:
          tolerations:                # 这里的配置表示允许将资源部署到Master节点中
          - key: node-role.kubernetes.io/master        effect: NoSchedule      containers:
          - name: log-pilot        image: registry.cn-hangzhou.aliyuncs.com/acs/log-pilot:0.9.5-filebeat        resources:                # 资源限制
              limits: 
                memory: 200Mi          requests:
                cpu: 100m            memory: 200Mi        env:                  # 定义与Elasticsearch通信的一些环境变量
              - name: "FILEBEAT_OUTPUT"
                value: "elasticsearch"
              - name: "ELASTICSEARCH_HOST"
                value: "elasticsearch-api"
              - name: "ELASTICSEARCH_PORT"
                value: "9200"
              - name: "ELASTICSEARCH_USER"
                value: "elastic"
              - name: "ELASTICSEARCH_PASSWORD"
                value: "elastic"
            volumeMounts:         # 挂载日志目录
            - name: sock          mountPath: /var/run/docker.sock        - name: root          mountPath: /host          readOnly: true
            - name: varlib          mountPath: /var/lib/filebeat        - name: varlog          mountPath: /var/log/filebeat        securityContext:
              capabilities:
                add:
                - SYS_ADMIN      terminationGracePeriodSeconds: 30
          volumes:
          - name: sock        hostPath:
              path: /var/run/docker.sock      - name: root        hostPath:
              path: /      - name: varlib        hostPath:
              path: /var/lib/filebeat          type: DirectoryOrCreate      - name: varlog        hostPath:
              path: /var/log/filebeat          type: DirectoryOrCreate
    • log-pilot.yaml

  • 创建资源

    [root@master-kubeadm-k8s log]# kubectl apply -f log-pilot.yamldaemonset.extensions/log-pilot created
  • 查看资源

    [root@master-kubeadm-k8s log]# kubectl get pods -n kube-system -o wide | grep loglog-pilot-8f4nv                              1/1     Running            0          2m4s   192.168.221.88    worker02-kubeadm-k8s   <none>           <none>log-pilot-h25fc                              1/1     Running            0          2m4s   192.168.16.250    master-kubeadm-k8s     <none>           <none>
        [root@master-kubeadm-k8s log]# kubectl get daemonset -n kube-systemNAME          DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR                 AGEcalico-node   3         3         3       3            3           beta.kubernetes.io/os=linux   41d
    kube-proxy    3         3         3       3            3           <none>                        41d
    log-pilot     2         2         2       2            2           <none>                        26s
1.1.2.2.2 部署Elasticsearch
  • 准备YAML文件

    注意这里的资源要求还是比较高的,自己注意下系统资源是否够用

    apiVersion: v1kind: Service             # 这里的service是为外部访问ElasticSearch提供metadata:
      name: elasticsearch-api # 这里的名称要与logPilot中的ElasticHost环境变量一致
      namespace: kube-system  
      labels:
        name: elasticsearchspec:
      selector:
        app: es  ports:
      - name: transport    port: 9200
        protocol: TCP---apiVersion: v1kind: Service             # # 这里的service是为ElasticSearch集群之间通信提供的metadata:
      name: elasticsearch-discovery  namespace: kube-system  labels:
        name: elasticsearchspec:
      selector:
        app: es  ports:
      - name: transport    port: 9300
        protocol: TCP---apiVersion: apps/v1kind: StatefulSet         # 希望Elasticsearch是有序启动的,所以使用StatefulSetmetadata:
      name: elasticsearch  namespace: kube-system  labels:
        kubernetes.io/cluster-service: "true"spec:
      replicas: 3
      serviceName: "elasticsearch-service"
      selector:
        matchLabels:
          app: es  template:
        metadata:
          labels:
            app: es    spec:
          tolerations:            # 同样elasticsearch也部署到Master节点中
          - effect: NoSchedule        key: node-role.kubernetes.io/master      initContainers:     # 这里是指在创建容器之前要先进行初始化操作
          - name: init-sysctl        image: busybox:1.27
            command:
            - sysctl        - -w        - vm.max_map_count=262144        securityContext:
              privileged: true
          containers:
          - name: elasticsearch        image: registry.cn-hangzhou.aliyuncs.com/log-monitor/elasticsearch:v5.5.1        ports:
            - containerPort: 9200
              protocol: TCP        - containerPort: 9300
              protocol: TCP        securityContext:
              capabilities:
                add:
                  - IPC_LOCK              - SYS_RESOURCE        resources:
              limits:
                memory: 4000Mi          requests:
                cpu: 100m            memory: 2000Mi        env:
              - name: "http.host"
                value: "0.0.0.0"
              - name: "network.host"
                value: "_eth0_"
              - name: "cluster.name"
                value: "docker-cluster"
              - name: "bootstrap.memory_lock"
                value: "false"
              - name: "discovery.zen.ping.unicast.hosts"
                value: "elasticsearch-discovery"
              - name: "discovery.zen.ping.unicast.hosts.resolve_timeout"
                value: "10s"
              - name: "discovery.zen.ping_timeout"
                value: "6s"
              - name: "discovery.zen.minimum_master_nodes"
                value: "2"
              - name: "discovery.zen.fd.ping_interval"
                value: "2s"
              - name: "discovery.zen.no_master_block"
                value: "write"
              - name: "gateway.expected_nodes"
                value: "2"
              - name: "gateway.expected_master_nodes"
                value: "1"
              - name: "transport.tcp.connect_timeout"
                value: "60s"
              - name: "ES_JAVA_OPTS"
                value: "-Xms2g -Xmx2g"
            livenessProbe:                    # 健康检查
              tcpSocket:
                port: transport          initialDelaySeconds: 20
              periodSeconds: 10
            volumeMounts:
            - name: es-data          mountPath: /data      terminationGracePeriodSeconds: 30
          volumes:
          - name: es-data        hostPath:
              path: /es-data
    • elasticsearch.yaml

  • 创建资源

    [root@master-kubeadm-k8s log]# kubectl apply -f elasticsearch.yamlservice/elasticsearch-api created
    service/elasticsearch-discovery created
    statefulset.apps/elasticsearch created
  • 查看资源

    # Pod会进行有序的创建[root@master-kubeadm-k8s log]# kubectl get pods -n kube-system -o wide | grep elasticelasticsearch-0                              1/1     Running           0          4m36s   10.244.221.69    worker02- kubeadm-k8s   <none>           <none>elasticsearch-1                              1/1     Running           0          4m33s   10.244.14.4      worker01-kubeadm-k8s   <none>           <none>elasticsearch-2                              0/1     PodInitializing   0          101s    10.244.16.194    master-kubeadm-k8s     <none>           <none>[root@master-kubeadm-k8s log]# kubectl get svc -n kube-system -o wide | grep elasticelasticsearch-api         ClusterIP   10.104.144.183   <none>        9200/TCP                 5m2s   app=es
    elasticsearch-discovery   ClusterIP   10.109.137.36    <none>        9300/TCP                 5m2s   app=es[root@master-kubeadm-k8s log]# kubectl get statefulset -n kube-systemNAME            READY   AGEelasticsearch   3/3     6m14s
1.1.2.2.3 部署Kibana

kibana主要是对外提供访问的,所以这边需要配置Service和Ingress
前提:要有Ingress Controller的支持,比如Nginx Controller

  • 准备YAML文件

    • kibana.yaml

      # DeploymentapiVersion: apps/v1kind: Deploymentmetadata:
        name: kibana  namespace: kube-system  labels:
          component: kibanaspec:
        replicas: 1
        selector:
          matchLabels:
           component: kibana  template:
          metadata:
            labels:
              component: kibana    spec:
            containers:
            - name: kibana        image: registry.cn-hangzhou.aliyuncs.com/log-monitor/kibana:v5.5.1        env:
              - name: CLUSTER_NAME          value: docker-cluster        - name: ELASTICSEARCH_URL   # elasticsearch 地址
                value: http://elasticsearch-api:9200/        resources:
                limits:
                  cpu: 1000m          requests:
                  cpu: 100m        ports:
              - containerPort: 5601
                name: http---# ServiceapiVersion: v1kind: Servicemetadata:
        name: kibana  namespace: kube-system  labels:
          component: kibanaspec:
        selector:
          component: kibana  ports:
        - name: http    port: 80
          targetPort: http---# IngressapiVersion: extensions/v1beta1kind: Ingressmetadata:
        name: kibana  namespace: kube-systemspec:
        rules:
        - host: log.k8s.sunny.com     # 本地hosts配置域名
          http:
            paths:
            - path: /        backend:
                serviceName: kibana          servicePort: 80
  • 创建资源

    [root@master-kubeadm-k8s log]# kubectl apply -f kibana.yamldeployment.apps/kibana created
    service/kibana created
    ingress.extensions/kibana created
  • 查看资源

    [root@master-kubeadm-k8s log]# kubectl get pods -n kube-system | grep kibanakibana-8747dff7d-l627g                       1/1     Running   0          2m2s[root@master-kubeadm-k8s log]# kubectl get svc  -n kube-system | grep kibanakibana                    ClusterIP   10.109.177.214   <none>        80/TCP                   2m40s[root@master-kubeadm-k8s log]# kubectl get ingress  -n kube-system | grep kibanakibana   <none>   log.k8s.sunny.com             80      2m43s
  • 测试

image.png

2、监控

2.1 Prometheus简介

这里的监控是指监控K8S集群的健康状态,包括节点、K8S组件以及Pod都会监控。

Prometheus 是一个开源的监控和警报系统,它直接从目标主机上运行的代理程序中抓取指标,并将收集的样本集中存储在其服务器上。

2016 年 Prometheus 成为继 Kubernetes 之后,成为 CNCF (Cloud Native Computing Foundation)中的第二个项目成员。

2.1.2 主要功能

  • 多维 数据模型(时序由 metric 名字和 k/v 的 labels 构成)。

  • 灵活的查询语句(PromQL)。

  • 无依赖存储,支持 local 和 remote 不同模型。

  • 采用 http 协议,使用 pull 模式,拉取数据,简单易懂。

  • 监控目标,可以采用服务发现或静态配置的方式。

  • 支持多种统计数据模型,图形化友好。

2.1.3 Prometheus架构

image.png

从这个架构图,也可以看出 Prometheus 的主要模块包含:Server、Exporters、Pushgateway、PromQL、Alertmanager、WebUI 等。

它大致使用逻辑是这样:

  • Prometheus server 定期从静态配置的 target 或者服务发现的 target 拉取数据。

  • 当新拉取的数据大于配置内存缓存区的时候,Prometheus 会将数据持久化到磁盘(如果使用 remote storage 将持久化到云端)。

  • Prometheus 可以配置 rule,然后定时查询数据,当条件触发的时候,会将 alert 推送到配置的 Alertmanager。

  • Alertmanager 收到警告的时候,可以根据配置,聚合、去重、降噪,最后发送警告。

  • 可以使用 API、Prometheus Console 或者 Grafana 查询和聚合数据。

2.1.4 Prometheus知识普及

  • 支持pull、push数据添加方式

  • 支持k8s服务发现

  • 提供查询语言PromQL

  • 时序(time series)是由名字(Metric)以及一组key/value标签定义的数据类型

2.2 数据采集

  • 服务器数据

    • 在每一个节点中部署工具:Node-Exporter

  • K8S组件数据

    • IP:2379/metrics 拿到ETCD数据

    • IP:6443/metrics 拿到apiServer数据

    • IP:10252/metrics 拿到controller manager数据

    • IP:10251/metrics 拿到scheduler数据

    • 访问集群中不同端口下的metrics接口即可拿到

    • 比如

  • 容器数据

    • 在kubelet中有个cAdvisor组件,默认就可以拿到容器的数据

2.2.1 服务器数据采集

Prometheus可以从Kubernetes集群的各个组件中采集数据,比如kubelet中自带的cAdvisor,api-server等,而node-export就是其中一种来源。

Exporter是Prometheus的一类数据采集组件的总称。它负责从目标处搜集数据,并将其转化为Prometheus支持的格式。

服务器的指标采集是通过 Node-Exporter 进行采集,比如服务器CPU、内存、磁盘、I/O等信息

image.png

2.2.1.1 部署NodeExporter

  • 准备YAML文件

    • namespace.yaml

      我们将监控的资源都放到这个命名空间下,方便管理

      apiVersion: v1kind: Namespacemetadata: 
        name: ns-monitor  labels:
          name: ns-monitor
    • node-exporter.yaml

      kind: DaemonSetapiVersion: apps/v1metadata: 
        labels:
          app: node-exporter  name: node-exporter  namespace: ns-monitorspec:
        revisionHistoryLimit: 10
        selector:
          matchLabels:
            app: node-exporter  template:
          metadata:
            labels:
              app: node-exporter    spec:
            containers:
              - name: node-exporter          image: prom/node-exporter:v0.16.0          ports:
                  - containerPort: 9100
                    protocol: TCP              name: http      hostNetwork: true
            hostPID: true
            tolerations:
              - effect: NoSchedule          operator: Exists---# 本来NodeExporter是不需要对外提供访问的,但我们这里一步一步来,先保证每一步都正确再往后进行kind: ServiceapiVersion: v1metadata:
        labels:
          app: node-exporter  name: node-exporter-service  namespace: ns-monitorspec:
        ports:
          - name: http      port: 9100
            nodePort: 31672
            protocol: TCP  type: NodePort  selector:
          app: node-exporter
  • 创建资源

    [root@master-kubeadm-k8s prometheus]# kubectl apply -f node-exporter.yamldaemonset.apps/node-exporter created
    service/node-exporter-service created
  • 查看资源

    [root@master-kubeadm-k8s prometheus]# kubectl get pods -n ns-monitorNAME                  READY   STATUS    RESTARTS   AGEnode-exporter-dsjbq   1/1     Running   0          2m32s
    node-exporter-mdnrj   1/1     Running   0          2m32s
    node-exporter-sxwxx   1/1     Running   0          2m32s[root@master-kubeadm-k8s prometheus]# kubectl get svc -n ns-monitorNAME                    TYPE       CLUSTER-IP     EXTERNAL-IP   PORT(S)          AGEnode-exporter-service   NodePort   10.109.226.6   <none>        9100:31672/TCP   2m46s
  • 测试

    image.png

2.2.1 部署Prometheus

  • 准备YAML文件

    • prometheus.yaml

      prometheus的yaml文件很值得学习,很多常用的资源类型这里都用到了

      apiVersion: rbac.authorization.k8s.io/v1kind: ClusterRolemetadata:
        name: prometheusrules:
        - apiGroups: [""] # "" indicates the core API group
          resources:
            - nodes      - nodes/proxy      - services      - endpoints      - pods    verbs:
            - get      - watch      - list  - apiGroups:
            - extensions    resources:
            - ingresses    verbs:
            - get      - watch      - list  - nonResourceURLs: ["/metrics"]
          verbs:
            - get---apiVersion: v1kind: ServiceAccountmetadata:
        name: prometheus  namespace: ns-monitor  labels:
          app: prometheus---apiVersion: rbac.authorization.k8s.io/v1kind: ClusterRoleBindingmetadata:
        name: prometheussubjects:
        - kind: ServiceAccount    name: prometheus    namespace: ns-monitorroleRef:
        kind: ClusterRole  name: prometheus  apiGroup: rbac.authorization.k8s.io---apiVersion: v1kind: ConfigMapmetadata:
        name: prometheus-conf  namespace: ns-monitor  labels:
          app: prometheusdata:
        prometheus.yml: |-
          # my global config
          global:
            scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
            evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
            # scrape_timeout is set to the global default (10s).
      
          # Alertmanager configuration
          alerting:
            alertmanagers:
            - static_configs:
              - targets:
                # - alertmanager:9093
      
          # Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
          rule_files:
            # - "first_rules.yml"
            # - "second_rules.yml"
      
          # A scrape configuration containing exactly one endpoint to scrape:
          # Here it's Prometheus itself.
          scrape_configs:
            # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
            - job_name: 'prometheus'
      
              # metrics_path defaults to '/metrics'
              # scheme defaults to 'http'.
      
              static_configs:
                - targets: ['localhost:9090']
            - job_name: 'grafana'
              static_configs:
                - targets:
                    - 'grafana-service.ns-monitor:3000'
      
            - job_name: 'kubernetes-apiservers'
      
              kubernetes_sd_configs:
              - role: endpoints        # Default to scraping over https. If required, just disable this or change to
              # `http`.
              scheme: https        # This TLS & bearer token file config is used to connect to the actual scrape
              # endpoints for cluster components. This is separate to discovery auth
              # configuration because discovery & scraping are two separate concerns in
              # Prometheus. The discovery auth config is automatic if Prometheus runs inside
              # the cluster. Otherwise, more config options have to be provided within the
              # <kubernetes_sd_config>.
              tls_config:
                ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt          # If your node certificates are self-signed or use a different CA to the
                # master CA, then disable certificate verification below. Note that
                # certificate verification is an integral part of a secure infrastructure
                # so this should only be disabled in a controlled environment. You can
                # disable certificate verification by uncommenting the line below.
                #
                # insecure_skip_verify: true
              bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token        # Keep only the default/kubernetes service endpoints for the https port. This
              # will add targets for each API server which Kubernetes adds an endpoint to
              # the default/kubernetes service.
              relabel_configs:
              - source_labels: [__meta_kubernetes_namespace, __meta_kubernetes_service_name, __meta_kubernetes_endpoint_port_name]
                action: keep          regex: default;kubernetes;https      # Scrape config for nodes (kubelet).
            #
            # Rather than connecting directly to the node, the scrape is proxied though the
            # Kubernetes apiserver.  This means it will work if Prometheus is running out of
            # cluster, or can't connect to nodes for some other reason (e.g. because of
            # firewalling).
            - job_name: 'kubernetes-nodes'
      
              # Default to scraping over https. If required, just disable this or change to
              # `http`.
              scheme: https        # This TLS & bearer token file config is used to connect to the actual scrape
              # endpoints for cluster components. This is separate to discovery auth
              # configuration because discovery & scraping are two separate concerns in
              # Prometheus. The discovery auth config is automatic if Prometheus runs inside
              # the cluster. Otherwise, more config options have to be provided within the
              # <kubernetes_sd_config>.
              tls_config:
                ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt        bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token        kubernetes_sd_configs:
              - role: node        relabel_configs:
              - action: labelmap          regex: __meta_kubernetes_node_label_(.+)        - target_label: __address__          replacement: kubernetes.default.svc:443
              - source_labels: [__meta_kubernetes_node_name]
                regex: (.+)          target_label: __metrics_path__          replacement: /api/v1/nodes/${1}/proxy/metrics      # Scrape config for Kubelet cAdvisor.
            #
            # This is required for Kubernetes 1.7.3 and later, where cAdvisor metrics
            # (those whose names begin with 'container_') have been removed from the
            # Kubelet metrics endpoint.  This job scrapes the cAdvisor endpoint to
            # retrieve those metrics.
            #
            # In Kubernetes 1.7.0-1.7.2, these metrics are only exposed on the cAdvisor
            # HTTP endpoint; use "replacement: /api/v1/nodes/${1}:4194/proxy/metrics"
            # in that case (and ensure cAdvisor's HTTP server hasn't been disabled with
            # the --cadvisor-port=0 Kubelet flag).
            #
            # This job is not necessary and should be removed in Kubernetes 1.6 and
            # earlier versions, or it will cause the metrics to be scraped twice.
            - job_name: 'kubernetes-cadvisor'
      
              # Default to scraping over https. If required, just disable this or change to
              # `http`.
              scheme: https        # This TLS & bearer token file config is used to connect to the actual scrape
              # endpoints for cluster components. This is separate to discovery auth
              # configuration because discovery & scraping are two separate concerns in
              # Prometheus. The discovery auth config is automatic if Prometheus runs inside
              # the cluster. Otherwise, more config options have to be provided within the
              # <kubernetes_sd_config>.
              tls_config:
                ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt        bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token        kubernetes_sd_configs:
              - role: node        relabel_configs:
              - action: labelmap          regex: __meta_kubernetes_node_label_(.+)        - target_label: __address__          replacement: kubernetes.default.svc:443
              - source_labels: [__meta_kubernetes_node_name]
                regex: (.+)          target_label: __metrics_path__          replacement: /api/v1/nodes/${1}/proxy/metrics/cadvisor      # Scrape config for service endpoints.
            #
            # The relabeling allows the actual service scrape endpoint to be configured
            # via the following annotations:
            #
            # * `prometheus.io/scrape`: Only scrape services that have a value of `true`
            # * `prometheus.io/scheme`: If the metrics endpoint is secured then you will need
            # to set this to `https` & most likely set the `tls_config` of the scrape config.
            # * `prometheus.io/path`: If the metrics path is not `/metrics` override this.
            # * `prometheus.io/port`: If the metrics are exposed on a different port to the
            # service then set this appropriately.
            - job_name: 'kubernetes-service-endpoints'
      
              kubernetes_sd_configs:
              - role: endpoints        relabel_configs:
              - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]
                action: keep          regex: true
              - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scheme]
                action: replace          target_label: __scheme__          regex: (https?)        - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_path]
                action: replace          target_label: __metrics_path__          regex: (.+)        - source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]
                action: replace          target_label: __address__          regex: ([^:]+)(?::\d+)?;(\d+)          replacement: $1:$2        - action: labelmap          regex: __meta_kubernetes_service_label_(.+)        - source_labels: [__meta_kubernetes_namespace]
                action: replace          target_label: kubernetes_namespace        - source_labels: [__meta_kubernetes_service_name]
                action: replace          target_label: kubernetes_name      # Example scrape config for probing services via the Blackbox Exporter.
            #
            # The relabeling allows the actual service scrape endpoint to be configured
            # via the following annotations:
            #
            # * `prometheus.io/probe`: Only probe services that have a value of `true`
            - job_name: 'kubernetes-services'
      
              metrics_path: /probe        params:
                module: [http_2xx]
      
              kubernetes_sd_configs:
              - role: service        relabel_configs:
              - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_probe]
                action: keep          regex: true
              - source_labels: [__address__]
                target_label: __param_target        - target_label: __address__          replacement: blackbox-exporter.example.com:9115
              - source_labels: [__param_target]
                target_label: instance        - action: labelmap          regex: __meta_kubernetes_service_label_(.+)        - source_labels: [__meta_kubernetes_namespace]
                target_label: kubernetes_namespace        - source_labels: [__meta_kubernetes_service_name]
                target_label: kubernetes_name      # Example scrape config for probing ingresses via the Blackbox Exporter.
            #
            # The relabeling allows the actual ingress scrape endpoint to be configured
            # via the following annotations:
            #
            # * `prometheus.io/probe`: Only probe services that have a value of `true`
            - job_name: 'kubernetes-ingresses'
      
              metrics_path: /probe        params:
                module: [http_2xx]
      
              kubernetes_sd_configs:
                - role: ingress        relabel_configs:
                - source_labels: [__meta_kubernetes_ingress_annotation_prometheus_io_probe]
                  action: keep            regex: true
                - source_labels: [__meta_kubernetes_ingress_scheme,__address__,__meta_kubernetes_ingress_path]
                  regex: (.+);(.+);(.+)            replacement: ${1}://${2}${3}
                  target_label: __param_target          - target_label: __address__            replacement: blackbox-exporter.example.com:9115
                - source_labels: [__param_target]
                  target_label: instance          - action: labelmap            regex: __meta_kubernetes_ingress_label_(.+)          - source_labels: [__meta_kubernetes_namespace]
                  target_label: kubernetes_namespace          - source_labels: [__meta_kubernetes_ingress_name]
                  target_label: kubernetes_name      # Example scrape config for pods
            #
            # The relabeling allows the actual pod scrape endpoint to be configured via the
            # following annotations:
            #
            # * `prometheus.io/scrape`: Only scrape pods that have a value of `true`
            # * `prometheus.io/path`: If the metrics path is not `/metrics` override this.
            # * `prometheus.io/port`: Scrape the pod on the indicated port instead of the
            # pod's declared ports (default is a port-free target if none are declared).
            - job_name: 'kubernetes-pods'
      
              kubernetes_sd_configs:
              - role: pod        relabel_configs:
              - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
                action: keep          regex: true
              - source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_path]
                action: replace          target_label: __metrics_path__          regex: (.+)        - source_labels: [__address__, __meta_kubernetes_pod_annotation_prometheus_io_port]
                action: replace          regex: ([^:]+)(?::\d+)?;(\d+)          replacement: $1:$2          target_label: __address__        - action: labelmap          regex: __meta_kubernetes_pod_label_(.+)        - source_labels: [__meta_kubernetes_namespace]
                action: replace          target_label: kubernetes_namespace        - source_labels: [__meta_kubernetes_pod_name]
                action: replace          target_label: kubernetes_pod_name---apiVersion: v1kind: ConfigMapmetadata:
        name: prometheus-rules  namespace: ns-monitor  labels:
          app: prometheusdata:
        cpu-usage.rule: |
          groups:
            - name: NodeCPUUsage
              rules:
                - alert: NodeCPUUsage
                  expr: (100 - (avg by (instance) (irate(node_cpu{name="node-exporter",mode="idle"}[5m])) * 100)) > 75
                  for: 2m
                  labels:
                    severity: "page"
                  annotations:
                    summary: "{{$labels.instance}}: High CPU usage detected"
                    description: "{{$labels.instance}}: CPU usage is above 75% (current value is: {{ $value }})"---apiVersion: v1kind: PersistentVolumemetadata:
        name: "prometheus-data-pv"
        labels:
          name: prometheus-data-pv    release: stablespec:
        capacity:
          storage: 5Gi  accessModes:
          - ReadWriteOnce  persistentVolumeReclaimPolicy: Recycle  nfs:
          path: /nfs/data/prometheus  # 定义持久化存储目录
          server: 192.168.50.111      # NFS服务器---apiVersion: v1kind: PersistentVolumeClaimmetadata:
        name: prometheus-data-pvc  namespace: ns-monitorspec:
        accessModes:
          - ReadWriteOnce  resources:
          requests:
            storage: 5Gi  selector:
          matchLabels:
            name: prometheus-data-pv      release: stable---kind: DeploymentapiVersion: apps/v1metadata:
        labels:
          app: prometheus  name: prometheus  namespace: ns-monitorspec:
        replicas: 1
        revisionHistoryLimit: 10
        selector:
          matchLabels:
            app: prometheus  template:
          metadata:
            labels:
              app: prometheus    spec:
            serviceAccountName: prometheus      securityContext:
              runAsUser: 0
            containers:
              - name: prometheus          image: prom/prometheus:latest          imagePullPolicy: IfNotPresent          volumeMounts:
                  - mountPath: /prometheus              name: prometheus-data-volume            - mountPath: /etc/prometheus/prometheus.yml              name: prometheus-conf-volume              subPath: prometheus.yml            - mountPath: /etc/prometheus/rules              name: prometheus-rules-volume          ports:
                  - containerPort: 9090
                    protocol: TCP      volumes:
              - name: prometheus-data-volume          persistentVolumeClaim:
                  claimName: prometheus-data-pvc        - name: prometheus-conf-volume          configMap:
                  name: prometheus-conf        - name: prometheus-rules-volume          configMap:
                  name: prometheus-rules      tolerations:
              - key: node-role.kubernetes.io/master          effect: NoSchedule---kind: ServiceapiVersion: v1metadata:
        annotations:
          prometheus.io/scrape: 'true'
        labels:
          app: prometheus  name: prometheus-service  namespace: ns-monitorspec:
        ports:
          - port: 9090
            targetPort: 9090
        selector:
          app: prometheus  type: NodePort
    • 创建资源

      [root@master-kubeadm-k8s prometheus]# kubectl apply -f prometheus.yamlclusterrole.rbac.authorization.k8s.io/prometheus created
      serviceaccount/prometheus created
      clusterrolebinding.rbac.authorization.k8s.io/prometheus created
      configmap/prometheus-conf created
      configmap/prometheus-rules created
      persistentvolume/prometheus-data-pv created
      persistentvolumeclaim/prometheus-data-pvc created
      deployment.apps/prometheus created
      service/prometheus-service created
    • 查看资源

      [root@master-kubeadm-k8s prometheus]# kubectl get pods -n ns-monitorNAME                          READY   STATUS              RESTARTS   AGEnode-exporter-dsjbq           1/1     Running             1          26m
      node-exporter-mdnrj           1/1     Running             1          26m
      node-exporter-sxwxx           1/1     Running             2          26m
      prometheus-5f7cb6d955-mm8d2   1/1     Running             1          28s[root@master-kubeadm-k8s prometheus]# kubectl get pv -n ns-monitorNAME                 CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM                            STORAGECLASS   REASON   AGEprometheus-data-pv   5Gi        RWO            Recycle          Bound    ns-monitor/prometheus-data-pvc                           53s[root@master-kubeadm-k8s prometheus]# kubectl get pvc -n ns-monitorNAME                  STATUS   VOLUME               CAPACITY   ACCESS MODES   STORAGECLASS   AGEprometheus-data-pvc   Bound    prometheus-data-pv   5Gi        RWO                           60s[root@master-kubeadm-k8s prometheus]# kubectl get svc -n ns-monitorNAME                    TYPE       CLUSTER-IP       EXTERNAL-IP   PORT(S)          AGEnode-exporter-service   NodePort   10.109.226.6     <none>        9100:31672/TCP   27m
      prometheus-service      NodePort   10.101.128.125   <none>        9090:31615/TCP   64s
    • 测试

      image.png

2.2.4 部署Grafana监控UI

  • 准备YAML文件

    • grafana.yaml

      apiVersion: v1kind: PersistentVolumemetadata:
        name: "grafana-data-pv"
        labels:
          name: grafana-data-pv    release: stablespec:
        capacity:
          storage: 5Gi  accessModes:
          - ReadWriteOnce  persistentVolumeReclaimPolicy: Recycle  nfs:
          path: /nfs/data/grafana    server: 192.168.50.111---apiVersion: v1kind: PersistentVolumeClaimmetadata:
        name: grafana-data-pvc  namespace: ns-monitorspec:
        accessModes:
          - ReadWriteOnce  resources:
          requests:
            storage: 5Gi  selector:
          matchLabels:
            name: grafana-data-pv      release: stable---kind: DeploymentapiVersion: apps/v1metadata:
        labels:
          app: grafana  name: grafana  namespace: ns-monitorspec:
        replicas: 1
        revisionHistoryLimit: 10
        selector:
          matchLabels:
            app: grafana  template:
          metadata:
            labels:
              app: grafana    spec:
            securityContext:
              runAsUser: 0
            containers:
              - name: grafana          image: grafana/grafana:latest          imagePullPolicy: IfNotPresent          env:
                  - name: GF_AUTH_BASIC_ENABLED              value: "true"
                  - name: GF_AUTH_ANONYMOUS_ENABLED              value: "false"
                readinessProbe:
                  httpGet:
                    path: /login              port: 3000
                volumeMounts:
                  - mountPath: /var/lib/grafana              name: grafana-data-volume          ports:
                  - containerPort: 3000
                    protocol: TCP      volumes:
              - name: grafana-data-volume          persistentVolumeClaim:
                  claimName: grafana-data-pvc---kind: ServiceapiVersion: v1metadata:
        labels:
          app: grafana  name: grafana-service  namespace: ns-monitorspec:
        ports:
          - port: 3000
            targetPort: 3000
        selector:
          app: grafana  type: NodePort
    • grafana-ingress.yaml

      #ingressapiVersion: extensions/v1beta1kind: Ingressmetadata:
        name: grafana-ingress  namespace: ns-monitorspec:
        rules:
        - host: monitor.k8s.sunny.com    http:
            paths:
            - path: /        backend:
                serviceName: grafana-service          servicePort: 3000
  • 创建资源

    [root@master-kubeadm-k8s prometheus]# kubectl apply -f grafana.yamlpersistentvolume/grafana-data-pv created
    persistentvolumeclaim/grafana-data-pvc created
    deployment.apps/grafana created
    service/grafana-service created[root@master-kubeadm-k8s prometheus]# kubectl apply -f grafana-ingress.yamlingress.extensions/grafana-ingress created
  • 查看资源

    [root@master-kubeadm-k8s prometheus]# kubectl get deploy -n ns-monitorNAME         READY   UP-TO-DATE   AVAILABLE   AGEgrafana      1/1     1            1           2m52s
    prometheus   1/1     1            1           6m41s[root@master-kubeadm-k8s prometheus]# kubectl get pv -n ns-monitorNAME                 CAPACITY   ACCESS MODES   RECLAIM POLICY   STATUS   CLAIM                            STORAGECLASS   REASON   AGEgrafana-data-pv      5Gi        RWO            Recycle          Bound    ns-monitor/grafana-data-pvc                              3m10s
    prometheus-data-pv   5Gi        RWO            Recycle          Bound    ns-monitor/prometheus-data-pvc                           7m[root@master-kubeadm-k8s prometheus]# kubectl get pvc -n ns-monitorNAME                  STATUS   VOLUME               CAPACITY   ACCESS MODES   STORAGECLASS   AGEgrafana-data-pvc      Bound    grafana-data-pv      5Gi        RWO                           3m14s
    prometheus-data-pvc   Bound    prometheus-data-pv   5Gi        RWO                           7m4s[root@master-kubeadm-k8s prometheus]# kubectl get svc -n ns-monitorNAME                    TYPE       CLUSTER-IP       EXTERNAL-IP   PORT(S)          AGEgrafana-service         NodePort   10.111.192.206   <none>        3000:31828/TCP   3m5s
    node-exporter-service   NodePort   10.109.226.6     <none>        9100:31672/TCP   33m
    prometheus-service      NodePort   10.101.128.125   <none>        9090:31615/TCP   7m4s[root@master-kubeadm-k8s prometheus]# kubectl get ingress -n ns-monitorNAME              CLASS    HOSTS                   ADDRESS   PORTS   AGEgrafana-ingress   <none>   monitor.k8s.sunny.com             80      2m15s
  • 测试

    账号密码都是 admin

    image.png



作者:Suny____
链接:https://www.jianshu.com/p/6d3c29f87bcc
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


一、概述

Apiserver是 kubernetes 集群交互的入口,封装了核心对象的增删改查操作,提供了 RESTFul 风格的 API 接口,通过etcd来实现持久化并维护对象的一致性。所以在整个K8S集群中,Apiserver服务至关重要,一旦宕机,整个K8S平台将无法使用,所以保障企业高可用是运维必备的工作之一。

二、安装keepalived

1.安装keepalived

yum install keepalived.x86_64

2.修改配置

cd /etc/keepalived/
vi keepalived.conf
  • 修改master1配置文件keepalived.conf

global_defs {
 router_id keepalive-master}vrrp_script check_apiserver {
 # 检测脚本路径
 script "/etc/keepalived/check-apiserver.sh"
 # 多少秒检测一次
 interval 3
 # 失败的话权重-2
 weight -2}vrrp_instance VI-kube-master {
   state MASTER  # 定义节点角色
   interface eth0 # 网卡名称
   virtual_router_id 68
   priority 100
   dont_track_primary
   advert_int 3
   virtual_ipaddress {
     # 自定义虚拟ip
     192.168.1.199
   }
   track_script {
       check_apiserver   }}
  • 修改master2配置文件keepalived.conf

global_defs {
 router_id keepalive-master}vrrp_script check_apiserver {
 # 检测脚本路径
 script "/etc/keepalived/check-apiserver.sh"
 # 多少秒检测一次
 interval 3
 # 失败的话权重-2
 weight -2}vrrp_instance VI-kube-master {
   state BACKUP  # 定义节点角色
   interface eth0  # 网卡名称
   virtual_router_id 68
   priority 99
   dont_track_primary
   advert_int 3
   virtual_ipaddress {
     # 自定义虚拟ip
     192.168.1.199
   }
   track_script {
       check_apiserver   }}
  • 修改master3配置文件keepalived.conf

global_defs {
 router_id keepalive-master}vrrp_script check_apiserver {
 # 检测脚本路径
 script "/etc/keepalived/check-apiserver.sh"
 # 多少秒检测一次
 interval 3
 # 失败的话权重-2
 weight -2}vrrp_instance VI-kube-master {
   state BACKUP  # 定义节点角色
   interface eth0  # 网卡名称
   virtual_router_id 68
   priority 99
   dont_track_primary
   advert_int 3
   virtual_ipaddress {
     # 自定义虚拟ip
     192.168.1.199
   }
   track_script {
       check_apiserver   }}

3.重启keepalived

systemctl start keepalived.service

systemctl status keepalived.service

虚拟vip出现在网卡上



作者:sknfie
链接:https://www.jianshu.com/p/4b4725a1e6c9
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


一、什么sftp服务器
sftp是Secure File Transfer Protocol的缩写,安全文件传送协议。可以为传输文件提供一种安全的加密方法。sftp 与 ftp 有着几乎一样的语法和功能。SFTP 为 SSH的一部份,是一种传输档案至 Blogger 伺服器的安全方式。本身没有守护进程,是包含在ssh中,端口也是22。
sftp采用的是ssh加密隧道,安装性方面较ftp强,而且依赖的是系统自带的ssh服务,不像ftp还需要额外的进行安装。

二、安装sftp服务器

创建用户组

groupadd sftpgroup

创建完成之后使用cat /etc/group命令组的信息

cat /etc/group

创建用户并且加入到这个用户组,并修改mysftp用户的密码

useradd -g sftpgroup -M -s /sbin/nologin  mysftp
passwd  mysftp

密码 Java_521

创建/data/sftp/mysftp目录,并将它指定为mysftp组用户的home目录

mkdir -p /data/sftp/mysftp
usermod -d /data/sftp/mysftp  mysftp

设置Chroot目录权限

chown root:sftpgroup /data/sftp/mysftp
chmod 755 /data/sftp/mysftp

新建一个目录供stp用户mysftp上传文件,这个目录所有者为mysftp所有组为sftp,所有者有写入权限所有组无写入权限

mkdir -p /data/sftp/mysftp/project
chown -R mysftp:sftpgroup /data/sftp/mysftp/project
chmod 755 /data/sftp/mysftp/project

chmod 755 设置用户的权限为

三、修改配置文件

vi /etc/ssh/sshd_config
将Subsystem sftp /usr/libexec/openssh/sftp-server 注释掉
在文件末尾添添加 加以下几行
Subsystem sftp internal-sftp
Match Group sftpgroup
X11Forwarding no
AllowTcpForwarding no
ChrootDirectory  /data/sftp/mysftp
ForceCommand internal-sftp

四、测试sftp

重启sshd服务,然后测试 sftp 用户名@ip地址

systemctl restart sshd.service

sftp本地登录

sftp mysftp@127.0.0.1

测试上传

put abc.txt

测试下载

get abc.txt /opt



作者:老街老街
链接:https://www.jianshu.com/p/e4207bf09185
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


看看一般情况下网卡基本配置是怎么样的?

使用DHCP自动获取IP:

vim /etc/sysconfig/network-scripts/ifcfg-eth0

DEVICE=eth0

BOOTPROTO=dhcp

ONBOOT=yes

NAME=eth0

TYPE=Ethernet

IPV6INIT=no

HWADDR=xx:xx:xx:xx:xx:xx

如果是手工配静态IP:

TYPE=Ethernet

BOOTPROTO=static

NAME=eth0

ONBOOT=yes

IPADDR=192.168.1.1

NETMASK=255.255.255.0

GATEWAY=192.168.1.254

DNS=192.168.100.1


配置双网卡高可用:

方法一:teaming

常用的两种策略:轮询式(roundrobin)的流量负载均衡;热备份(activebackup)连接冗余

①建立虚拟网卡team0   ,可参考 man teamd.conf

nmcli connection add  type team con-name team0  ifname team0 autoconnect yes  

config '{"runner": {"name": "activebackup"}}'

解析:nmcli connection  添加   类型  team 配置文件名 team0   网卡名  team0  开机自动启用

team的工作模式为热备份,若手误敲错,可将其删除 nmcli connection delete team0

②为team0添加两块真实网卡(team-slave)

nmcli connection add type team-slave  con-name team0-1 ifname  eth1  master team0

nmcli connection add type team-slave  con-name team0-2 ifname  eth2  master team0

nmcli con modify team0-1 connection.autoconnect yes

nmcli con modify team0-2 connection.autoconnect yes

若手误敲错,可将其删除 nmcli connection delete team0-1

③配值虚拟网卡team0的IP地址

nmcli connection modify team0 ipv4.method manual ipv4.addresses 192.168.1.1/24 connection.autoconnect  yes

④激活网卡

nmcli connection up team0

nmcli connection up team0-1

nmcli connection up team0-2

⑤查看绑定状态

teamdctl team0 state

方法二:bonding

①网卡一配置文件内容:

TYPE=Ethernet

BOOTPROTO=none

ONBOOT=yes

USERCTL=no         

DEVICE=eth0

MASTER=bond0

SLAVE=yes

②网卡二配置文件内容:

TYPE=Ethernet

BOOTPROTO=none

ONBOOT=yes

USERCTL=no

DEVICE=eth1

MASTER=bond0

SLAVE=yes

③创建绑定网卡

vim /etc/sysconfig/network-scripts/ifcfg-bond0

TYPE=Ethernet

BOOTPROTO=none

ONBOOT=yes

USERCTL=no

DEVICE=bond0

IPADDR=192.168.1.1

PREFIX=24

NM_CONTROLLED=no

DNS=xxxx

GATEWAY=xxxx

BONDING_OPTS="mode=6 miimon=100"    ##等同于步骤⑤

④让内核支持网卡绑定驱动

modprobe --first-time bonding

lsmod |grep bonding

⑤创建一个网卡绑定内核驱动文件(若做了步骤③可省略此步)

vim /etc/modprobe.d/bond.conf

alias bond0 bonding

options bond0 miimon=100 mode=6

解析:定义网卡绑定为mode6平衡负载模式,且当出现故障时自动切换时间为100毫秒

常见的网卡绑定驱动模式有:

mode0平衡负载模式:平时两块网卡均工作,且自动备援,采用交换机设备支援。

mode1自动备援模式:平时只有一块网卡工作,故障后自动替换为另外的网卡。

mode6平衡负载模式:平时两块网卡均工作,且自动备援,无须交换机设备支援

⑥重启网络生效

systemctl restart network

⑦查看验证

 ifconfig  ; ip a s  ;

 cat /proc/net/bonding/bond0



作者:Jaxgogo
链接:https://www.jianshu.com/p/862c42a6765d
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。