# ray

[ray]로 크롤링 속도 개선
문제상황 python 병렬처리 프레임워크인 ray를 기존 코드에 도입하여 속도 개선을 도모한다. > #### 현재상황 네이버, 유튜브, AI 모델에서 수집/생성되는 연관어 데이터를 pandas DataFrame으로 만들고 SQLAlchemy를 이용해 DB에 저장한다.

Kubernetes 환경에서 Kuberay 배포하기
오늘은 기구성된 쿠버네티스 환경 위에 Kuberay를 이용해서 ray 클러스터를 올려보고자 합니다.기존의 쿠버네티스 환경에서도 ray를 이용한 파드는 잘 사용했습니다만, top이나 bpytop으로 정확히 어떤 프로세스가 어느 CPU를 점유하고, 메모리를 얼마나 사용하고
Ray를 사용한 Cluster 분산 처리 후기
0. Intro 지난번에는 Ray를 이용하여 컴퓨터 한대(4개의 CPU)로 병렬 처리를 해보았다. 속도는 빨라졌다고 하지만, 수만개의 데이터를 처리하는 데에 턱없이 부족해보인다. 그래서 이번에는 GCP 내에서 Ray의 Cluster 분산 처리를 해보기로 하였다. 1.
Ray를 사용한 병렬 처리
0. Intro 이전 회사에 있었을 때, 몇 만 장의 이미지와 그에 대한 라벨링 데이터를 처리하면서 속도가 너무 낮아 애를 쓴 적이 있다. 이때부터 파이썬의 성능 개선 필요성을 느끼고 있었다. 그리고 앞으로 AI Engineer로 일하면서 python을 많이 사용하게
Python Ray
사용성 \- 기존 코드에서 약간의 수정만으로 병렬 처리 가능 (쉽고 범용성 높음)병렬처리 고려하지 않은 함수에 decorator로 마지막에 구현 가능 @ray.remote def, class 모두 가능 Cluster 환경에서 구축 가능 \- AWS, GCP,

Ray, Apache Arrow, zero-copy
분산/병렬 ML 프레임워크인 Ray에 대해 알아보다가, 직렬화 오버헤드가 적은 Apache Arrow를 사용하여 Zero-Copy 직렬화를 수행한다는 것이 이해가 되지 않아 조사한 내용