[CS] lecture13

Minsol·2024년 12월 14일

🖥️CS

목록 보기

12/12

Chapter 6: Parallel Processors from Client to Cloud(클라이언트에서 클라우드까지의 병렬 프로세서)

Domain-Specific Architectures(DSAs) (도메인 특화 아키텍처)

🚨5개의 원칙 대해 암기!!

5가지 원칙
- 1. 데이터를 이동하는 거리를 최소화하기 위해 전용 메모리를 사용(use dedicated memories)
- 1. 고급 마이크로아키텍처 최적화를 제외하고(dropping), 절약된 자원을 더 많이 산술 유닛(arithmetic units)이나 더 큰 메모리에 투자(invest)
- 1. 도메인에 맞는 가장 간단한 형태의 병렬성(parallelism)을 사용
- 1. 도메인에 필요한 최소한의 데이터 크기와 타입을 사용
- 1. DSA에 code를 port할 수 있도록 도메인에 특화된 프로그래밍 언어를 사용할 것
  - ex. 머신러닝을 위한 Tensorflow

Message Passing(MP)(메세지 전달)

전역 메모리(global memory)없이 프로세서 집합 간에 데이터를 전달하는 데 사용
각 PE(프로세서 요소)는 자체 local memory를 가지고 있으며, 다른 PE와 message를 통해 통신함
각 프로세서는 개인적인 물리적 주소 공간을 가짐
하드웨어는 프로세서 간에 message를 송/수신(send/receives)

Clusters

여러 대의 컴퓨터(node)가 상호 연결되어 하나의 통합된(unified) 컴퓨터 자원처럼 동작하며 하나의 기계처럼 보이게 하는(illusion) 시스템
클러스터의 장점
- 절대적 확장성(absolute scalability)
  - 클러스터는 수백 대의 기계로 구성될 수 있으며, 각 기계는 멀티프로세서 시스템일 수 있음
- 점진적 확장성(incremental scalability)
  - 클러스터는 최소한의 서비스 중단(service disruption)으로 작은 단위(small increments)로 확장 가능
- 고가용성(High availabilty)
  - 소프트웨어에서의 장애(fault-tolerant) 허용 기능
- 높은 가격/성능 비율(High price/performance ratio)
  - 상용 부품(Off-the shelf building blocks)을 사용한 구축

Warehouse-Scale Computers (WSC) (대규모의 컴퓨터)

인터넷 서비스를 제공
- 검색, 소셜 네트워킹, 온라인 지도, 동영상 공유, 온라인 쇼핑, 이메일, 클라우드 컴퓨팅 등
HPC 클러스터와의 차이점
- 클러스터는 더 높은 성능의 프로세서 & 네트워크를 사용
- 스레드 수준의 병렬성을 강조 & WSC는 요청/작업 수준(request/task-level)의 병렬성을 강조
데이터센터와의 차이점
- 데이터센터는 다양한 기계와 소프트웨어를 하나의 위치로 통합(consolidate)
- 다양한 고객을 지원하기 위해서 가상머신(virtual machines)과 하드웨어의 heterogeneity(다양성)을 강조함

Three major distinctions of WSC(WSC의 세 가지 주요 차이점)

1. 풍부하고 쉬운 병렬처리(Ample, easy parallelism)
- 배치 애플리케이션(ex. MapReduce)은 독립적인 데이터 세트를 대량으로 처리해야하므로 병렬처리에서 큰 이점을 얻음
- interactive internet service 애플리케이션(ex. Saas)은 수백만 명의 독립적인 사용자가 인터넷 서비스를 이용하므로 병렬처리의 이점을 얻을 수 있음
1. 운영 비용(Operantional Costs)의 중요성
- WSC는 긴 수명을 가지고 있으며 건물,전력,냉각 인프라는 10년 또는 20년에 걸쳐 분할되어 회수됨(amoritized)
1. 규모(scale) 및 규모와 관련된 문제
- 하나의 WSC를 구축하려면 50,000개의 서버와 이를 지원하는 인프라를 구매해야 하며 이는 volume discounts를 제공함
- 이러한 대규모의 경제(economies of scale)는 클라우드 컴퓨팅의 발전을 이끌었음

Grid Computing vs Cloud computing

Grid Computing(그리드 컴퓨팅)
- 분산 컴퓨팅 아키텍처(distributed computing architecture)를 따름
- 확장성(scalability)가 보통임
- 클라우드 컴퓨팅보다 덜 유연(flexible x)
- Grid는 분산 관리 시스템(decentralized management system)으로 운영됨
- 그리드 컴퓨팅에서, Grid는 조직(organization)이 소유하고 관리함
Cloud Computing(클라우드 컴퓨팅)
- 클라이언트-서버 컴퓨팅 아키텍처(client-server computing architecture)를 따름
- 확장성(scalability)가 높음
- 그리드 컴퓨팅보다 훨씬 유연(flexible)
- Cloud는 중앙집중식 관리 시스템(centralized management system)으로 운영됨
- 클라우드 컴퓨팅에서, 클라우드 서버는 인프라 제공자(infrastructure providers)가 소유함

Interconnection Networks

🚨원리 알기

병렬 기계에서 source node에서 원하는 목적지 node로 정보를 전송하는 시스템
기술
- link와 switch로 구성되어 있음, 이를 통해 출발노드에서 목적지 노드로 정보를 전송함
- topology와 routing algorithm에 의해 정의됨

Modeling Performance

Arithmetic intensity(산술 강도)
- 프로그램의 부동 소수점 연산(floating-point operations)과 주 메모리에서 프로그램이 액세스한 data bytes의 비율

Roofline Diagram(루프라인 다이어그램)

(추가설명) 프로그램의 성능을 시각적으로 표현한 도구로, 주어진 시스템 내에서 가능한 최적 성능의 한계 & 실제 성능을 비교할 수 있게 함
산술 강도(Arithmetic intensity==> floating-point 연산 대비 메모리 접근)를 기반으로 성능을 나타내고, 성능의 상한선=루프라인을 보여줌
수식: 최대 성능은 두 값 중 더 작은 값에 의해 제한되며, 시스템의 병목 현상을 나타냄 => 피크 메모리 대역폭이 중요하다면 메모리 액세스가 병목을 만들고, 부동 소수점 성능이 중요하다면 연산 처리 속도가 병목이 될 수 있음

Peak Memory Bandwidth (Peak Memory BW)

시스템에서 메모리에서 데이터를 읽고 쓰는 최대 속도 (이론적 최대 성능)
-"Stream": 대개 대용량 데이터 스트리밍 작업으로 메모리 대역폭을 최대화하는 작업

Peak Floating-point Performance (Peak FP Performance)

시스템에서 부동소수점 연산(예: 덧셈, 곱셈 등)의 최대 처리 능력을 의미
시스템이 초당 수행할 수 있는 최대 부동소수점 연산 수로 보통 "FLOP" (Floating Point Operations per second) 단위로 측정됨

=> 루프라인 다이어그램에서 Peak Memory BW와 Peak Floating-point Performance는 각기 다른 성능 한계를 나타내며, 이 값들이 다이어그램에서 교차하는 지점이 시스템 성능의 병목(bottleneck:시스템의 성능을 제한하는 지점)을 나타냄

메모리 대역폭이 부동소수점 성능보다 낮다면, 프로그램은 메모리 접근에 의해 성능이 제한될 수 있음

Minsol

👀

이전 포스트