[TIL - 230818] netdata 지표 설명

프림·2023년 8월 18일
0

항해 TIL

목록 보기
15/19
  • 시스템 개요 항목

스크린샷 2023-08-18 오후 1.09.03.png

CPU, Network 트래픽, 디스크 I/O 등 성능 지표를 한 눈에 볼 수 있다.

여기서 말하는 Node란 “모니터링되는 개별 컴퓨터 또는 서버” 를 뜻한다.

해석을 하면 서버 1대당 평균 CPU는 3.02%, 평균 램 사용률은 65.52% 라는 뜻이다.


  • CPU 항목

스크린샷 2023-08-18 오후 1.17.07.png

steal : 컴퓨터의 한 부분이 다른 부분이 작업을 마칠 때까지 기다려야 하는 CPU 시간의 백분율

softirq : CPU가 방해 받는 작업을 처리하는데 걸리는 시간. softirq가 높다는 것은 CPU가 자주 중단되고 주요 작업에 효율적으로 집중하지 못할 수 있음을 의미

user : 사용자 수준(응용 프로그램)에서 실행하는 동안 발생하는 CPU 사용률

system : CPU가 원활하게 작동하는 데 필요한 작업에 소요하는 시간

nice : 긴급하지는 않지만 시스템에 도움이 되는 작업에 CPU가 소비하는 시간. 소프트 웨어 업데이트 혹은 데이터를 미리 로드해서 필요할 때 빠르게 액세스 할 수 있게 만드는 작업 등이 있음.

iowait : CPU가 디스크 I/O 또는 네트워크 I/O가 완료될 때까지 기다리는 시간. 낮을 수록 좋음


  • CPU 압력 항목

스크린샷 2023-08-18 오후 1.12.56.png

CPU가 받는 부하를 뜻함. CPU 부하가 올라감에 따라 CPU가 더 많은 열을 생성하고 더 많은 전력을 소비하며 잠재적으로 시스템의 전체 성능이 느려질 수 있음.

또한 압력이 없음은 0%을, 최대 압력은 100%을 나타내는데 이 그래프의 최소 압력은 1.6%으로 부하 상태가 매우 낮음을 의미.

some 10 에서 숫자 10은 ‘**지난 10초 동안**’ 이라는 뜻이다.

즉, 하단의 지표를 해석하면 “지난 10초 동안 1.6% 의 CPU 사용률을 보였다” 가 된다.


  • 압력 정지 시간

스크린샷 2023-08-18 오후 2.02.18.png

CPU some pressure stall time : CPU가 대기하는 데 소요되는 시간

압력 정지 시간이 길면 CPU가 리소스를 기다리는 데 상당한 시간을 소비하고 있어 성능 저하로 이어질 수 있음

일반적으로 압력 정지 시간이 낮을수록 CPU가 리소스를 기다리는 시간이 줄어들고 작업을 처리하는 데 더 많은 시간이 소요됨을 나타내므로 더 좋음. 부하가 높을 때 이 값이 급증 하는건 정상적인 반응.


  • 부하

스크린샷 2023-08-18 오후 2.06.26.png

load1 : 지난 1분 동안의 시스템에 걸린 부하

만약 CPU 갯수가 2개라면 모든 코어가 완전히 활용 될 때의 값은 2.0임.

이상적인 최대 부하값은 코어 수와 같은 값임.

이 그래프에서 부하가 1.4까지 올라갔는데 이 의미는 ‘CPU가 한 번에 처리할 수 있는 것보다 더 많은 작업이 있으므로 일부 작업은 차례를 기다려야 한다’는 의미임. 즉, 병목 현상이 발생 했다는 의미임.


  • Disk I/O ,

스크린샷 2023-08-18 오후 2.14.58.png

디스크에서 읽고(인) 디스크에(아웃) 데이터를 쓰는 속도. 일반적으로 디스크 I/O가 낮을수록 전체 시스템 성능이 향상

스크린샷 2023-08-18 오후 2.15.33.png

in : 하드 드라이브에서 RAM으로 이동 되는 양

out : RAM에서 하드로 이동되는 양

데이터 페이지가 요청되면 디스크에서 메모리로 "페이지 인"됨. 메모리가 가득 차면 최근에 사용되지 않은 페이지가 디스크로 "페이지 아웃” 됨.

그래프를 해석하면 "in" 값이 11.1kiB/s이면 매초 11.1kb의 데이터가 하드 드라이브에서 RAM으로 이동하고 있음을 의미. "out" 값이 0.0kiB/s 인 경우 현재 RAM에서 하드 드라이브로 이동 중인 데이터가 없음을 나타냄.

즉, "in"과 "out" 모두에 대해 높은 값이 표시되면 많은 페이징 활동을 나타낸다는 의미. RAM이 부족하여 하드 드라이브를 RAM의 확장으로 사용해야 한다는 신호일 수 있음.

반대로 두 값이 모두 0에 가까우면 페이징 활동이 거의 또는 전혀 발생하지 않는다는 것을 의미하며 이는 일반적으로 좋은 신호.


  • I/O some pressure

스크린샷 2023-08-18 오후 2.44.33.png

some 10 시스템이 I/O 작업이 완료될 때까지 기다려야 했던 지난 10초 동안의 시간 비율

일반적으로 낮은 I/O 압력 값은 시스템이 I/O 작업이 완료될 때까지 기다리는 시간이 적고 생산적인 작업에 더 많은 시간을 할애할 수 있음을 나타내기 때문에 더 좋음.


  • I/O full pressure

스크린샷 2023-08-18 오후 2.50.19.png

시스템의 I/O 용량이 완전히 활용되어 데이터 처리가 지연되고 느려질 수 있는 시간의 백분율

높은 I/O 전체 압력 값은 시스템의 I/O 용량이 워크로드에 충분하지 않아 성능 병목 현상 및 속도 저하로 이어질 수 있음을 나타낼 수 있음. 따라서 저장장치를 업그레이드 하거나 캐싱을 사용하거나 코드 리팩토링을 해야 할 수 있음.


  • network Physical Network Interfaces Aggregated Bandwidth

스크린샷 2023-08-18 오후 2.42.20.png

서버의 모든 물리적 네트워크 인터페이스에서 보내고 받는 총 데이터 양

received : 네트워크에서 서버로 들어오는 데이터의 양

sent : 서버가 네트워크로 전송하는 데이터의 양

그래프를 해석하면 서버가 초당 45.2킬로비트의 속도로 데이터를 수신하고 초당 97.6킬로비트의 속도로 데이터를 전송하고 있음을 의미.

이 값은 네트워크 용량에 따라 해석이 달라지는데 예를들어 대 용량이 10Mbps인 네트워크 연결의 경우 최대 용량에 비해 현재 45.2kb/s 및 97.6kb/s의 활용도는 상당히 낮음. (1메가비트(Mb)는 1000킬로비트(Kb)와 같음). 하지만 10Kbps 의 네트워크 연결 상태 라면 모두 네트워크 연결 용량 보다 훨씬 높아 네트워크 병목 현상이 발생하고 있다고 해석 할 수 있음.

profile
백엔드

1개의 댓글

comment-user-thumbnail
2023년 8월 18일

좋은 정보 얻어갑니다, 감사합니다.

답글 달기

관련 채용 정보