
Apache Beam은 데이터 처리를 위한 오픈소스 분산처리 프레임워크로, 대규모 데이터 집합을 효율적으로 처리하고 분석하기 위해 설계되었다. 그래서 주로 batch나 stream으로 주어지는 데이터에 대해 효율적으로 병렬 처리를 하고 싶을 때 사용한다.beamApac

Pipeline은 데이터 처리 작업을 나타내는 directed acyclic graph이며, 사용자는 데이터를 읽고 변환하고 쓰는 등 다양한 데이터 작업을 수행할 수 있다.PTransform: pipeline의 데이터 처리 작업(단계)를 나타내며, 각 단계의 출력은 다