쿠버네티스 네임스페이스가 삭제되지 않을 때 강제 삭제하기

문제

가끔식 문제가 발생하여, 네임스페이스(namespace)를 삭제할때, 상태만 Terminating으로 변하고, 계속 기다려도 삭제가 되지 않는 경우가 있다.

이럴 경우에는 네임스페이스의 finalizers를 제거해 주면 된다. (하지만 정상작으로 삭제될때까지 기다리는게 가장 좋다)

해결 방법

foo라는 네임스페이스가 있다고 가정한다.

다음과 같은 명령어로 네임스페이스 정의 내역을 json 파일로 저장한다.

$ kubectl get namespace foo -o json > foo.json

foo.json 파일을 영어서 finalizers 부분에 있는 kubernetes 값을 삭제하고, 저장한다.

그런 다음 쿠베 프락시를 실행한다. 쿠버네티스 api를 호출할 예정인데, 인증 토큰이 필요하다. kubectl proxy를 이용하면, 저장되어 있는 인증토큰을 자동으로 이용한다.

$ kubectl proxy
Starting to serve on 127.0.0.1:8001

다른 터미널을 열어서 쿠버네티스 api를 호출한다. 다음과 같이 api를 호출하면 변경된 finalizers 부분이 쿠버네티스에 반영된다.

curl -k -H "Content-Type: application/json" -X PUT --data-binary @foo.json http://127.0.0.1:8001/api/v1/namespaces/foo/finalize

Prometheus를 사용해서 NVIDIA GPU 모니터링 하기

Node의 GPU 모니터링 하기

prometheus를 사용해서 노드들의 매트틱을 수집하고 있다면, 아마 node-exporter를 사용하고 있을 것이다. NVIDIA에서는 dcgm-exporter라는 GPU 매트릭 출력용 이미지를 제공하고 있다. 이 dcgm-exporter과 node-exporter를 결합하여 사용하면, GPU 매트릭을 수집할 수 있다.

dcgm-exporter

dcgm(Data Center GPU Manager) exporter는 nv-hostenging을 시작해서, 매초마다 GPU 매트릭을 읽어서 prometheus 형식으로 출력해주는 간단한 쉘 스크립트이다.

Node 설정하기

우선 일반 노드와 GPU 노드를 분리하기 위해서 taint와 label을 설정해주었다. 대부분 node-exporter를 실행하기 위해서 DaemonSet을 사용했을 것이다.

일반 노드에서는 node-exporter만을 실행하기 위해서 taint nvidia.com/gpu=:NoSchedule를 사용하였고, GPU 노드에서는 node-exporter + dcgm-exporter를 실행하기 위해서 label hardware-type=NVIDIAGPU를 사용하였다.

nvidia.com/brand는 현재로는 별의미가 없지만 붙여주었다.

kubectl taint nodes ${node} nvidia.com/gpu=:NoSchedule

kubectl label nodes ${node} "nvidia.com/brand=${label}"
kubectl label nodes ${node} hardware-type=NVIDIAGPU

기존 node-exporter에 dcgm-exporter 추가하기

dcgm-exporter가 GPU 매트릭을 파일로 남기고, prometheus는 그 파일을 읽어서 GPU 매트릭을 같이 출력한다.

GPU 노드용

apiVersion: apps/v1
kind: DaemonSet
metadata:
  labels:
    app.kubernetes.io/name: node-exporter
    app.kubernetes.io/instance: gpu-node-exporter
    app.kubernetes.io/part-of: prometheus
    app.kubernetes.io/managed-by: argo-system
  name: prometheus-gpu-node-exporter
  namespace: argo-system
spec:
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      app.kubernetes.io/name: node-exporter
      app.kubernetes.io/instance: gpu-node-exporter
      app.kubernetes.io/part-of: prometheus
      app.kubernetes.io/managed-by: argo-system
  template:
    metadata:
      labels:
        app.kubernetes.io/name: node-exporter
        app.kubernetes.io/instance: gpu-node-exporter
        app.kubernetes.io/part-of: prometheus
        app.kubernetes.io/managed-by: argo-system
    spec:
      nodeSelector:
        hardware-type: NVIDIAGPU
      containers:
      - args:
        - --path.procfs=/host/proc
        - --path.sysfs=/host/sys
        - "--collector.textfile.directory=/run/prometheus"
        image: prom/node-exporter:v0.18.1
        imagePullPolicy: IfNotPresent
        name: prometheus-node-exporter
        ports:
        - containerPort: 9100
          hostPort: 9100
          name: metrics
          protocol: TCP
        resources:
          limits:
            cpu: 500m
            memory: 200Mi
          requests:
            cpu: 100m
            memory: 100Mi
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
        volumeMounts:
        - mountPath: /host/proc
          name: proc
          readOnly: true
        - mountPath: /host/sys
          name: sys
          readOnly: true
        - name: collector-textfiles
          readOnly: true
          mountPath: /run/prometheus
      - image: nvidia/dcgm-exporter:1.4.6
        name: nvidia-dcgm-exporter
        securityContext:
          runAsNonRoot: false
          runAsUser: 0
        volumeMounts:
          - name: collector-textfiles
            mountPath: /run/prometheus
      dnsPolicy: ClusterFirst
      hostNetwork: true
      hostPID: true
      restartPolicy: Always
      serviceAccount: prometheus-node-exporter
      serviceAccountName: prometheus-node-exporter
      terminationGracePeriodSeconds: 30
      tolerations:
      - effect: NoSchedule
        key: node-role.kubernetes.io/master
      - effect: NoSchedule
        key: node-role.kubernetes.io/ingress
        operator: Exists
      - effect: NoSchedule
        key: nvidia.com/gpu
        operator: Exists
      volumes:
      - hostPath:
          path: /proc
          type: ""
        name: proc
      - hostPath:
          path: /sys
          type: ""
        name: sys
      - name: collector-textfiles
        emptyDir:
          medium: Memory
      - name: pod-gpu-resources
        hostPath:
          path: /var/lib/kubelet/pod-resources
  updateStrategy:
    type: OnDelete

일반 노드용

apiVersion: apps/v1
kind: DaemonSet
metadata:
  labels:
    app.kubernetes.io/name: node-exporter
    app.kubernetes.io/instance: node-exporter
    app.kubernetes.io/part-of: prometheus
    app.kubernetes.io/managed-by: argo-system
  name: prometheus-node-exporter
  namespace: argo-system
spec:
  revisionHistoryLimit: 10
  selector:
    matchLabels:
      app.kubernetes.io/name: node-exporter
      app.kubernetes.io/instance: node-exporter
      app.kubernetes.io/part-of: prometheus
      app.kubernetes.io/managed-by: argo-system
  template:
    metadata:
      labels:
        app.kubernetes.io/name: node-exporter
        app.kubernetes.io/instance: node-exporter
        app.kubernetes.io/part-of: prometheus
        app.kubernetes.io/managed-by: argo-system
    spec:
      containers:
      - args:
        - --path.procfs=/host/proc
        - --path.sysfs=/host/sys
        image: prom/node-exporter:v0.18.1
        imagePullPolicy: IfNotPresent
        name: prometheus-node-exporter
        ports:
        - containerPort: 9100
          hostPort: 9100
          name: metrics
          protocol: TCP
        resources:
          limits:
            cpu: 500m
            memory: 200Mi
          requests:
            cpu: 100m
            memory: 100Mi
        terminationMessagePath: /dev/termination-log
        terminationMessagePolicy: File
        volumeMounts:
        - mountPath: /host/proc
          name: proc
          readOnly: true
        - mountPath: /host/sys
          name: sys
          readOnly: true
      dnsPolicy: ClusterFirst
      hostNetwork: true
      hostPID: true
      restartPolicy: Always
      serviceAccount: prometheus-node-exporter
      serviceAccountName: prometheus-node-exporter
      terminationGracePeriodSeconds: 30
      tolerations:
      - effect: NoSchedule
        key: node-role.kubernetes.io/master
      - effect: NoSchedule
        key: node-role.kubernetes.io/ingress
        operator: Exists
      volumes:
      - hostPath:
          path: /proc
          type: ""
        name: proc
      - hostPath:
          path: /sys
          type: ""
        name: sys
  updateStrategy:
    type: OnDelete

kubebuilder

Install

Install kubebuilder

os=$(go env GOOS)
arch=$(go env GOARCH)

# download kubebuilder and extract it to tmp
curl -sL https://go.kubebuilder.io/dl/2.0.0-beta.0/${os}/${arch} | tar -xz -C /tmp/

# move to a long-term location and put it on your path
# (you'll need to set the KUBEBUILDER_ASSETS env var if you put it somewhere else)
sudo mv /tmp/kubebuilder_2.0.0-beta.0_${os}_${arch} /usr/local/kubebuilder
export PATH=$PATH:/usr/local/kubebuilder/bin

Create a Project

mkdir namespace-operator
cd namespace-operator

go mod init kangwoo.github.io/namespace-operator

kubebuilder init --domain kangwoo.github.io

Adding a new API

kubebuilder create api --group tenant --version v1 --kind NamespaceRequest --namespaced false

Adding a new Webhook

kubebuilder create webhook --group tenant --version v1 --kind NamespaceRequest --defaulting --programmatic-validation

Kubernets ServiceAccount로 kuebconfig 파일 생성하기

서비스계정(ServiceAccount) 생성

kubectl create serviceaccount super-man

ClusterRole 또는 Role Binding

kubectlcreate clusterrolebinding cluster-admin:super-man --clusterrole=cluster-admin --serviceaccount=default:super-man

Kubernets ServiceAccount로 kuebconfig 파일 생성하기

# your server name goes here
server=https://localhost:6443
# the name of the service account
name=SERVICE_ACCOUNT_NAME
# the name of the namespace
namespace=default

token_name=$(kubectl -n $namespace get serviceaccount $name -o jsonpath='{.secrets[].name}')
ca=$(kubectl -n $namespace get secret/$token_name -o jsonpath='{.data.ca\.crt}')
token=$(kubectl -n $namespace get secret/$token_name -o jsonpath='{.data.token}' | base64 --decode)
namespace=$(kubectl -n $namespace get secret/$token_name -o jsonpath='{.data.namespace}' | base64 --decode)

echo "
apiVersion: v1
kind: Config
clusters:
- name: default-cluster
  cluster:
    certificate-authority-data: ${ca}
    server: ${server}
contexts:
- name: default-context
  context:
    cluster: default-cluster
    namespace: ${namespace}
    user: ${name}
current-context: default-context
users:
- name: ${name}
  user:
    token: ${token}
" > kubeconfig

Istio client go

시작하기전에..

애플리케이션에서 Istio CR(Custom Resources)을 생성해야 하는데, 공식적으로 제공하는 라이브러리가 없다.

구글에 검색해 본 결과 istio-client-go가 존재한다. 하지만, 필요한 리소그 몇개가 빠져 있어어서 재미삼아 만들어봤다.

주소 : https://github.com/kangwoo/istio-client-go

준비물

처음에는 kubebuilder를 사용하려 했으나, 현재 버전(2.0.0-beta.0)에서는 복수개의 그룹을 지원하지 않는다. (Multiple groups are not supported yet) 그래서 operator-sdk를 사용한다.

  • golang
  • operator-sdk

프로젝트 생성

operator-sdk의 new 명령어를 사용해서 프로젝트 생성한다.

$ operator-sdk new istio-client-go --repo github.com/kangwoo/istio-client-go
$ cd istio-client-go

istio 추가

$ go get istio.io/api

필요한 리소스 추가

$ operator-sdk add api --api-version=authentication.istio.io/v1alpha1 --kind=Policy
$ operator-sdk add api --api-version=networking.istio.io/v1alpha3 --kind=Gateway
$ operator-sdk add api --api-version=rbac.istio.io/v1alpha1 --kind=ServiceRole
$ operator-sdk add api --api-version=rbac.istio.io/v1alpha1 --kind=ServiceRoleBinding

불필요한 파일 삭제 및 코드 수정

  • PolicySpec 타입 위의 // +k8s:openapi-gen=true 제거
  • PolicyStatus 타입 제거 및 Policy 타입에 Status 제거
  • json 변환 및 deepcopy 구현
import (
      "bufio"
      "bytes"
      "log"
    
      "github.com/gogo/protobuf/jsonpb"
      metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
      istiov1alpha1 "istio.io/api/authentication/v1alpha1"
  )
    
  ...
    
        
  func (p *PolicySpec) MarshalJSON() ([]byte, error) {
      buffer := bytes.Buffer{}
      writer := bufio.NewWriter(&buffer)
      marshaler := jsonpb.Marshaler{}
      err := marshaler.Marshal(writer, &p.Policy)
      if err != nil {
          log.Printf("Could not marshal PolicySpec. Error: %v", err)
          return nil, err
      }
    
      writer.Flush()
      return buffer.Bytes(), nil
  }
    
  func (p *PolicySpec) UnmarshalJSON(b []byte) error {
      reader := bytes.NewReader(b)
      unmarshaler := jsonpb.Unmarshaler{}
      err := unmarshaler.Unmarshal(reader, &p.Policy)
      if err != nil {
          log.Printf("Could not unmarshal PolicySpec. Error: %v", err)
          return err
      }
      return nil
  }
    
  // DeepCopyInto is a deepcopy function, copying the receiver, writing into out. in must be non-nil.
  // Based of https://github.com/istio/istio/blob/release-0.8/pilot/pkg/config/kube/crd/types.go#L450
  func (in *PolicySpec) DeepCopyInto(out *PolicySpec) {
      *out = *in
  }

참고 코드

원본 파일

package v1alpha1
    
  import (
      metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
  )
    
  // EDIT THIS FILE!  THIS IS SCAFFOLDING FOR YOU TO OWN!
  // NOTE: json tags are required.  Any new fields you add must have json tags for the fields to be serialized.
    
  // PolicySpec defines the desired state of Policy
  // +k8s:openapi-gen=true
  type PolicySpec struct {
      // INSERT ADDITIONAL SPEC FIELDS - desired state of cluster
      // Important: Run "operator-sdk generate k8s" to regenerate code after modifying this file
      // Add custom validation using kubebuilder tags: https://book-v1.book.kubebuilder.io/beyond_basics/generating_crd.html
  }
    
  // PolicyStatus defines the observed state of Policy
  // +k8s:openapi-gen=true
  type PolicyStatus struct {
      // INSERT ADDITIONAL STATUS FIELD - define observed state of cluster
      // Important: Run "operator-sdk generate k8s" to regenerate code after modifying this file
      // Add custom validation using kubebuilder tags: https://book-v1.book.kubebuilder.io/beyond_basics/generating_crd.html
  }
    
  // +k8s:deepcopy-gen:interfaces=k8s.io/apimachinery/pkg/runtime.Object
    
  // Policy is the Schema for the policies API
  // +k8s:openapi-gen=true
  // +kubebuilder:subresource:status
  type Policy struct {
      metav1.TypeMeta   `json:",inline"`
      metav1.ObjectMeta `json:"metadata,omitempty"`
    
      Spec   PolicySpec   `json:"spec,omitempty"`
      Status PolicyStatus `json:"status,omitempty"`
  }
    
  // +k8s:deepcopy-gen:interfaces=k8s.io/apimachinery/pkg/runtime.Object
    
  // PolicyList contains a list of Policy
  type PolicyList struct {
      metav1.TypeMeta `json:",inline"`
      metav1.ListMeta `json:"metadata,omitempty"`
      Items           []Policy `json:"items"`
  }
    
  func init() {
      SchemeBuilder.Register(&Policy{}, &PolicyList{})
  }

수정 후 파일

package v1alpha1
    
  import (
      "bufio"
      "bytes"
      "log"
    
      "github.com/gogo/protobuf/jsonpb"
      metav1 "k8s.io/apimachinery/pkg/apis/meta/v1"
      istiov1alpha1 "istio.io/api/authentication/v1alpha1"
  )
    
  // EDIT THIS FILE!  THIS IS SCAFFOLDING FOR YOU TO OWN!
  // NOTE: json tags are required.  Any new fields you add must have json tags for the fields to be serialized.
    
  // PolicySpec defines the desired state of Policy
  type PolicySpec struct {
      // INSERT ADDITIONAL SPEC FIELDS - desired state of cluster
      // Important: Run "operator-sdk generate k8s" to regenerate code after modifying this file
      // Add custom validation using kubebuilder tags: https://book-v1.book.kubebuilder.io/beyond_basics/generating_crd.html
      istiov1alpha1.Policy
  }
    
    
  // +k8s:deepcopy-gen:interfaces=k8s.io/apimachinery/pkg/runtime.Object
    
  // Policy is the Schema for the policies API
  // +k8s:openapi-gen=true
  // +kubebuilder:subresource:status
  type Policy struct {
      metav1.TypeMeta   `json:",inline"`
      metav1.ObjectMeta `json:"metadata,omitempty"`
    
      Spec   PolicySpec   `json:"spec,omitempty"`
  }
    
  // +k8s:deepcopy-gen:interfaces=k8s.io/apimachinery/pkg/runtime.Object
    
  // PolicyList contains a list of Policy
  type PolicyList struct {
      metav1.TypeMeta `json:",inline"`
      metav1.ListMeta `json:"metadata,omitempty"`
      Items           []Policy `json:"items"`
  }
    
  func init() {
      SchemeBuilder.Register(&Policy{}, &PolicyList{})
  }
    
  func (p *PolicySpec) MarshalJSON() ([]byte, error) {
      buffer := bytes.Buffer{}
      writer := bufio.NewWriter(&buffer)
      marshaler := jsonpb.Marshaler{}
      err := marshaler.Marshal(writer, &p.Policy)
      if err != nil {
          log.Printf("Could not marshal PolicySpec. Error: %v", err)
          return nil, err
      }
    
      writer.Flush()
      return buffer.Bytes(), nil
  }
    
  func (p *PolicySpec) UnmarshalJSON(b []byte) error {
      reader := bytes.NewReader(b)
      unmarshaler := jsonpb.Unmarshaler{}
      err := unmarshaler.Unmarshal(reader, &p.Policy)
      if err != nil {
          log.Printf("Could not unmarshal PolicySpec. Error: %v", err)
          return err
      }
      return nil
  }
    
  // DeepCopyInto is a deepcopy function, copying the receiver, writing into out. in must be non-nil.
  // Based of https://github.com/istio/istio/blob/release-0.8/pilot/pkg/config/kube/crd/types.go#L450
  func (in *PolicySpec) DeepCopyInto(out *PolicySpec) {
      *out = *in
  }

코드 생성

$ operator-sdk generate k8s

Kubernetes operator-sdk를 이용한 Go Operator 만들기

Install the Operator SDK CLI

Install from Homebrew

$ brew install operator-sdk

Create an operator

작업할 디렉토리를 생성하고, operator-sdk를 사용해서 operator를 생성한다. go 모듈을 사용하기 위해서 GO111MODULE=on을 설정하거나, GOPATH가 아닌 경로에 디렉토리를 생성해야한다.

$ mkdir -p ~/workspace
$ cd ~/workspace
$ export GO111MODULE=on
$ operator-sdk new jupyter-operator --repo github.com/kangwoo/jupyter-operator
INFO[0000] Creating new Go operator 'jupyter-operator'.
INFO[0000] Created go.mod
INFO[0000] Created tools.go
INFO[0000] Created cmd/manager/main.go
INFO[0000] Created build/Dockerfile
INFO[0000] Created build/bin/entrypoint
INFO[0000] Created build/bin/user_setup
INFO[0000] Created deploy/service_account.yaml
INFO[0000] Created deploy/role.yaml
INFO[0000] Created deploy/role_binding.yaml
INFO[0000] Created deploy/operator.yaml
INFO[0000] Created pkg/apis/apis.go
INFO[0000] Created pkg/controller/controller.go
INFO[0000] Created version/version.go
INFO[0000] Created .gitignore
INFO[0000] Validating project
go: finding github.com/operator-framework/operator-sdk master
INFO[0108] Project validation successful.
INFO[0108] Project creation complete.

Mercurial 설치

만일 operator를 생성하는 중 다음과 같이 hg 실행 파일을 찾을 수 없다는 에러가 발생한다면, hg를 별도로 설치해야한다.

$ operator-sdk new jupyter-operator --repo github.com/kangwoo/jupyter-operator
...
go: finding github.com/operator-framework/operator-sdk master
go: bitbucket.org/ww/goautoneg@v0.0.0-20120707110453-75cd24fc2f2c: hg clone -U https://bitbucket.org/ww/goautoneg . in /Users/lineplus/go/pkg/mod/cache/vcs/59c2185b80ea440a7c3b8c5eff3d8abb68c53dea1f20f615370c924c4150b27f: exec: "hg": executable file not found in $PATH
go: error loading module requirements
Error: failed to exec []string{"go", "build", "./..."}: exit status 1
...

hg도 ‘brew’를 사용해서 설치할 수 있다. 참고로 ‘hg’는 [Mercurial]https://www.mercurial-scm.org/ 이라는 크로스 플랫폼 분산 버전 관리 도구의 명령툴이다.

$ brew install hg

생성한 operator 디렉토리 이동

생성한 operator 디렉토리로 이동한다.

$ cd jupyter-operator

CR(Custom Resource) 생성

operator-sdk add api 명령어를 이용해서, API를 생성한다.

$ operator-sdk add api --api-version=kangwoo.github.io/v1alpha1 --kind=Jupyter
INFO[0000] Generating api version kangwoo.github.io/v1alpha1 for kind Jupyter.
INFO[0000] Created pkg/apis/kangwoo/group.go
INFO[0003] Created pkg/apis/kangwoo/v1alpha1/jupyter_types.go
INFO[0003] Created pkg/apis/addtoscheme_kangwoo_v1alpha1.go
INFO[0003] Created pkg/apis/kangwoo/v1alpha1/register.go
INFO[0003] Created pkg/apis/kangwoo/v1alpha1/doc.go
INFO[0003] Created deploy/crds/kangwoo_v1alpha1_jupyter_cr.yaml
INFO[0011] Created deploy/crds/kangwoo_v1alpha1_jupyter_crd.yaml
INFO[0011] Running deepcopy code-generation for Custom Resource group versions: [kangwoo:[v1alpha1], ]
INFO[0019] Code-generation complete.
INFO[0019] Running OpenAPI code-generation for Custom Resource group versions: [kangwoo:[v1alpha1], ]
INFO[0036] Created deploy/crds/kangwoo_v1alpha1_jupyter_crd.yaml
INFO[0036] Code-generation complete.
INFO[0036] API generation complete.

Controller 생성

operator-sdk add controller 명령어를 이용해서, Controller를 생성한다.

$ operator-sdk add controller --api-version=kangwoo.github.io/v1alpha1 --kind=Jupyter
INFO[0000] Generating controller version kangwoo.github.io/v1alpha1 for kind Jupyter.
INFO[0000] Created pkg/controller/jupyter/jupyter_controller.go
INFO[0000] Created pkg/controller/add_jupyter.go
INFO[0000] Controller generation complete.

빌드(Build) 하기

$ operator-sdk build kangwoo/jupyter-operator:latest

코드 생성 하기

리소스의 Spec이 변경되었을 경우, 코드를 다시 생성해줘야한다.

$ operator-sdk generate k8s
$ operator-sdk generate openapi

참고 자료

  • https://github.com/operator-framework/operator-sdk/blob/master/doc/user/install-operator-sdk.md
  • https://github.com/operator-framework/operator-sdk/blob/master/doc/user-guide.md
  • https://github.com/operator-framework/operator-sdk/blob/master/doc/operator-scope.md

쿠버네티스 메트릭 서버 인증 실패

쿠버네티스 v1.11.x에서 metrics-server를 설치하였으나, 한개의 마스터 서버에서만 정상적으로 작동하는 문제가 발생하였습니다. (3개의 마스터 서버로 HA 구성 상태)

kubectl top node 명령어를 사용하면, 약 1/3 확률로 정상 응답을 하고, 나머지는 아래와 같이 권한이 없다는 메시지가 나옵니다.

F0531 10:41:33.286003 52081 helpers.go:119] error: You must be logged in to the server (Unauthorized)

그래서 kube-apiserver를 로드 밸런서 없이, 마스터 서버 아이피로 직접 연결해서 테스트해보았는데, 단 1개의 마스터 서버만 정상 응답하고, 나머지는 권한이 없다는 메시지가 나왔습니다.

metrics-server는 어그리게이션 레이어를 사용하는데, kube-apiserver와 metrics-server 간에 인증서로 상호 연동을 합니다. 문제는 해당 쿠버네티스 클러스터를 설치하는 과정에서, 이 인증서를 마스터 서버마다 따로 생성을 해버려서, 한군데만 정상적으로 작동한다는 것이였습니다. (kubeadm을 이용해서 설치하였는데, 해당 인증서를 복사해서 사용하지 않고, 서버 마다 직접 설치하여서 자동으로 생성된 경우입니다.) 그래서, 인증서를 다시 생성한 후, 각 마스터 서버에 복사하고, kube-api-server를 재시작 하였고, metrics-server를 재시작 해서 문제를 해결하였습니다.

쿠버네티스 버전이 1.11이기 때문에 kubeadm.k8s.io/v1alpha1 형식으로 파일을 만들어야 했습니다. 로드 밸런서 도메인 이름과, IP 주소, 각 마스터 서버의 IP 주소를 apiServerCertSANs 에 추가하여 kube-config.yaml 파일을 생성하였습니다

apiVersion: kubeadm.k8s.io/v1alpha1
kind: MasterConfiguration
api:
  advertiseAddress: xx.xx.xx.xx
...
apiServerCertSANs:
  - lb.xx.xx.xx
  - lb.xx.xx.xx
  - ma.xx.xx.xx
  - ma.xx.xx.xx
  - ma.xx.xx.xx

그리고 kubeadm을 실행해서 front-proxy 인증서를 생성하였습니다.

kubeadm alpha phase certs front-proxy-ca --config kube-config.yaml
kubeadm alpha phase certs front-proxy-client --config kube-config.yaml

위의 명령을 실행하면 해당 파일들이 생성됩니다.

  • front-proxy-ca.crt
  • front-proxy-ca.key
  • front-proxy-client.crt
  • front-proxy-client.key

생성한 파일들을, 나머지 마스터 서버에 복사하고, kube-api-server를 재시작합니다.

모든 마스터 서버의 작업이 끝났으면, metrics-server를 재시작합니다.

flannel : failed to find IPv4 address

flannel을 설치하였으나, 아이피를 찾을 수 없다는 에러가 발생하고 작동하지 않는 문제가 발생하였습니다.

$ kubectl -n kube-system get pod -lapp=flannel
NAME                    READY     STATUS             RESTARTS   AGE
kube-flannel-ds-2vnhj   1/1       CrashLoopBackOff   5          1m12s
kube-flannel-ds-b6mqq   1/1       CrashLoopBackOff   5          1m12s
kube-flannel-ds-f2bpz   1/1       CrashLoopBackOff   5          1m12s
$ kubectl -n kube-system logs kube-flannel-ds-2vnhj
I0601 19:31:31.628591       1 main.go:475] Determining IP address of default interface
E0601 19:31:31.630621       1 main.go:193] Failed to find any valid interface to use: failed to find IPv4 address for interface eth0.100

flannel은 기본적으로 eth0 인터페이스에서 아이피를 찾게 되는데, 해당 서버는 bond0에 IP가 할당 되어 있었습니다. 이 문제를 해결하기 위해서는 실행 플래그에 --iface=bond0을 추가해 주면 됩니다.

$ kubectl -n kube-system edit daemonset kube-flannel-ds
 
...
    spec:
      containers:
      - args:
        - --ip-masq
        - --kube-subnet-mgr
        - --iface=bond0
        - --iface=eth0
        command:
        - /opt/bin/flanneld
        env:
        - name: POD_NAME
...

쿠버네티스 메트릭 서버(metrics-server) 설치하기

쿠버네티스 v1.11부터 heapster가 deprecated 되었습니다 (자세한 내용은 문서를 참고 바랍니다.) 그래서 HPA(horizontal pod autoscaler)나 kubectl top 명령어를 사용하라면 metrics-server를 사용해야 합니다.

Metrics Server 란?

Metrics Server는 클래스터 전체의 리소스 사용 데이터를 어그리게이션합니다. 각 노드에 설치된 kublet을 통해서 노드나 컨테인너의 CPU나 메모리 사용량 같은 메트릭을 수집합니다.

설치 방법

요구 사항

Metrics Server를 배포하려면, 쿠버네티스 클러스터에 어그리게이션 레이어가 활성화되어 있어야합니다. 대부분은 기본적으로 활성화되어 있습니다. 혹시 직접 활성화해야하는 경우라면, 아래 링크를 참조하세요. https://kubernetes.io/docs/tasks/access-kubernetes-api/configure-aggregation-layer

설치

Metrics Server git 저장소(https://github.com/kubernetes-incubator/metrics-server)를 복제(clone)하고, 다음과 같이 설치하세요.

git clone https://github.com/kubernetes-incubator/metrics-server.git
cd metrics-server
kubectl apply -f deploy/1.8+/

kubectl을 이용해서 적용하면, v1beta1.metrics.k8s.io 라는 apiservce가 생성되고, metrics-server 라는 디플로이먼트와 서비스가 생성됩니다.

설치가 잘 진행되었다면, 다음과 같이 apiservice를 확인할 수 있습니다.

kubectl get apiservices | grep metrics

v1beta1.metrics.k8s.io                 2019-05-31T06:24:16Z

그리고 디플로이먼트와 서비스도 확인할 수 있습니다

kubectl -n kube-system get deploy,svc | grep metrics-server

deployment.extensions/metrics-server               1         1         1            1           1h
service/metrics-server               ClusterIP   10.96.106.172   <none>        443/TCP         1h

kubectl top node 명령어를 사용하면, 노드의 사용현황을 볼 수 있습니다.

$ kubectl top node
NAME                           CPU(cores)   CPU%      MEMORY(bytes)   MEMORY%
kube-node-001                  9736m        24%       99265Mi         38%
kube-node-002                  12060m       30%       115793Mi        44%
kube-node-003                  12349m       30%       117894Mi        45%
kube-master-001                248m         0%        20110Mi         7%
kube-master-002                289m         0%        7035Mi          2%
kube-master-003                268m         0%        7087Mi          2%

Troubleshooting

metrics-server 의 포드에 다음과 같은 에러 로그가 있을 경우, 파라메터를 추가해야합니다.

E0531 08:27:57.249840       1 manager.go:111] unable to fully collect metrics: [unable to fully scrape metrics from source kubelet_summary:kube-xxxx: unable to fetch metrics from Kubelet kube-xxx (kube-xxx): Get https://kube-xxx:10250/stats/summary/: dial tcp: lookup kube-xxx on xx.xx.xx.xx:x: no such host]

E0531 08:34:42.750007       1 manager.go:111] unable to fully collect metrics: [unable to fully scrape metrics from source kubelet_summary:kube-xxxx: unable to fetch metrics from Kubelet kube-xxx (xx.xx.xx.xx): Get https://xx.xx.xx.xx:10250/stats/summary/: x509: cannot validate certificate for xx.xx.xx.xx because it doesn't contain any IP SANs]

dial tcp: lookup kube-xxx on xx.xx.xx.xx:x: no such host 에러인 경우에는 kubelet-preferred-address-types 파라메터를, x509: cannot validate certificate for xx.xx.xx.xx because it doesn't contain any IP SANs인 경우에는 kubelet-insecure-tls 파라메터를 사용하면 된다.

metrics-server-deployment.yaml 파일을 편집해서, image: k8s.gcr.io/metrics-server-amd64:v0.3.3 밑에다 아래 파라메터를 추가하면 됩니다.

        command:
          - /metrics-server
          - --kubelet-preferred-address-types=InternalIP
          - --kubelet-insecure-tls

Unable to get metrics for resource cpu

상황

쿠버네티스 v1.11.x에서 HPA를 사용하려고 했으나, 에러가 발생하였습니다.

에러 메시지

Warning  FailedGetResourceMetric       3m (x21 over 13m)  horizontal-pod-autoscaler  unable to get metrics for resource cpu: unable to fetch metrics from resource metrics API: the server could not find the requested resource (get pods.metrics.k8s.io)

해결 방법

위의 에러 메시지는는 metrics-server가 설치되어 있지 않아서 생기는 것입니다. metrics-server 설치 문서를 참고해서 설치 하시기 바랍니다.