블로그 이미지
평범하게 살고 싶은 월급쟁이 기술적인 토론 환영합니다.같이 이야기 하고 싶으시면 부담 말고 연락주세요:이메일-bwcho75골뱅이지메일 닷컴. 조대협


Archive»


 
 

VM 수준의 보안을 제공하는 gVisor

조대협 (http://bcho.tistory.com)


Docker와 같은 일반적인 컨테이너 모델의 문제점은 Host Kernel을 공유하기 때문에, privilege escalation을 통해서 Host Kernel 을 접근해서 전체 시스템을 장악할 수 있다는 문제점이 있다. privilege escalation을 SeLinux나 컨테이너 정책으로 막는다고 하더라도, 버그등으로 인해서 Host Kernel 로의 접근을 허용할 수 있는 잠재적인 보안 위협이 있다.

컨테이너에 비해서 VM은 하드웨어 계층 부터 가상화를 해서, 전체를 Isolation 시키기 때문에, 보안적으로는 상대적으로 우세하지만, 전체적으로 무겁다는 단점을 가지고 있다.

이런 문제를 해결하기 위해서 VM과 컨테이너의 장점을 조합해서 만든 것이 gVisor 라는 오픈소스이다.


기본적으로 Host Kernel 위에서 KVM을 통해서 Kernel 을 Emulation한다. VM처럼 하드웨어 전체를 Emulate 하는 것이 아니라, Emulated 된 커널을 올릴 수 있도록 하고, 이 커널과 컨테이너는 User space에서 실행된다.

일반적인 컨테이너의 경우 컨테이너는 User space에서 실행되지만, system call을 통해서 Kernel space로 접근이 가능한데, gVisor의 경우에는 user space에 emulated 된 커널을 올려서, system call이 발생하더라도 user space를 벗어나지 않도록 해준다. 


아래 그림은 gVisor와 K8S의 관계 개념도인데, 쿠버네티스가 컨테이너를 생성 관리 하려면 컨테이너런 타임이 있어야 하는데,  gVisor의 runtime은 runsc이다. runsc는 OCI 규격을 준수하고 있기 때문에 쿠버네티스에서 기존의 컨테이너등과 호환이 가능하게 된다.   gVisor의 컨테이너는 컨테이너와 Sentry라는 가상화된 커널로 구성되며 이는 user space에서 기동된다. 


<출처 : https://www.youtube.com/embed/TQfc8OlB2sg


이러한 구조를 통해서 VM 수준의 Isolation을 제공함으로써 높은 보안을 제공한다. 

현재 Google Kubernetes Engine (이하 GKE)에서 옵션으로 활성화가 가능하며, Pod spec에 아래 그림과 같이 runtimeClassName 을 gvisor로 정해주면 된다.


apiVersion: apps/v1

kind: Deployment

metadata:

  name: httpd

  labels:

    app: httpd

spec:

  replicas: 1

  selector:

    matchLabels:

      app: httpd

  template:

    metadata:

      labels:

        app: httpd

    spec:

      runtimeClassName: gvisor

      containers:

      - name: httpd

        image: httpd


이렇게 하면 이 Pod는 gvisor를 통해서 isolation이 된다. 일반적인 애플리케이션인 java,node.js,ruby 나 redis나 mysql과 같은 범용 애플리케이션은 잘 동작하지만


gVisor는 높은 수준의 보안을 요구 하는 애플리케이션이나 특히 대외로 서비스 되는 Multi tenant application의 경우 높은 isolation 레벨을 제공해서, 다른 Pod 들이 영향을 받지 않도록 하는데 유용하게 사용할 수 있다. 


이러한 장점은 있지만 역시 만능은 아니고 제약 사항이 분명히 있다.

  • HostPath 볼륨 사용불가

  • Istio 사용불가

  • 일부 PSP 사용불가

  • Pod나 컨테이너 레벨 모니터링 불가

  • Kernel 의 특정 보안 모듈 secomp,Apparmor,Selinux 등 사용 불가

  • GPU 등 사용불가

자세한 제약 사항은 https://cloud.google.com/kubernetes-engine/docs/how-to/sandbox-pods#limitations 문서를 참고하기 바란다. 



본인은 구글 클라우드의 직원이며, 이 블로그에 있는 모든 글은 회사와 관계 없는 개인의 의견임을 알립니다.

댓글을 달아 주세요

  1. 조윤희 2019.09.24 08:22  댓글주소  수정/삭제  댓글쓰기

    GPU, TPU 지원되는 VM 이나, privilege 설정없이 TPU를 사용할수있는 docker는 없나요?

CRI & OCI


기본적으로 도커 기반의 쿠버네티스는 다음과 같은 구조로 작동을 했었다. Kubelet이 명령을 받으면, Docker runtime을 통해서 컨테이너를 생성하거나 삭제하는 것과 같은 생명 주기를 관리하는 구조를 가지고 있었다. 



그런데, Docker 이외에도 여러가지 컨테이너 기술이 나오면서 쿠버네티스에서 이런 다양한 컨테이너 런타임에 대한 지원 요건이 생기기 시작하였고, 다양한 컨테이너 런타임을 지원하기 위해서 그때 마다 Kubelet의 코드를 수정해야 하는 문제가 생겼다.


그래서, kubelet의 코드를 수정하지 않고, 다양한 컨테이너 런타임을 지원하기 위해서, kubelet과 컨테이너 런타임 사이의 인터페이스를 통일화하는 스펙이 등장하였는데, 이것이 CRI (Container Runtime Interface)이다. 컨테이너의 생성,삭제 등의 생명 주기를 관리하는 스펙으로 gRPC 기반의 API 스펙으로 되어 있고, 새로운 컨테이너 런타임은 CRI 스펙에 맞춰서 CRI 컴포넌트를 구현하면 되는 구조가 되었다. 


그래서, 컨테이너 런타임이 CRI 스펙에 맞춰서 구현이 되면, kubelet의 코드 변화 없이 새로운 컨테이너 런타임을 플러그인 구조로 추가할 수 있는 구조가 된것이다.  Docker의 경우에는 docker shim 이라는 CRI 인터페이스를 준수하는 구현체를 제공하고 있고, rkt 컨테이너의 경우는 rktlet 이라는 이름의 CRI 구현체를 제공하고 있다. 

그런데, 지원되는 컨테이너의 종류가 계속해서 늘어가고 있고, 그때마다, CRI를 다시 구현해야 하는 문제가 생김에 따라 컨테이너 런타임 자체를 표준화하고자 하는 노력이 있었는데, 그로 인해서 정해진 스펙이 OCI (Open Container Initiative) 이다. OCI 스펙을 맞춰서 구현된 컨테이너 런타임을 별도의 CRI 구현이 없이 OCI를 지원하는 CRI 구현체에 의해서 관리가 가능해진다. OCI 스펙에 따른 컨테이너 런타임을 관리하는 CRI 컴포넌트는 CRI-O 라는 컴포넌트로 구현되어 있다. 즉 OCI 스펙을 준수한다면, CRI-O를 통해서 kubelet으로 부터 명령을 받을 수 있는 구조가 된다. 



본인은 구글 클라우드의 직원이며, 이 블로그에 있는 모든 글은 회사와 관계 없는 개인의 의견임을 알립니다.

댓글을 달아 주세요