
이 글은 빅데이터에서 판다스를 사용할 때 너무 느린 속도를 빠르게 하는 방법을 정리한 글이다.판다스는 데이터 분석을 위해서 사용하는 대표적인 툴설치방법사용방법여기까지는 기본 판다스를 사용하는 방법이다. 참고했던 자료들에 따르면, 기존 판다스는 1GB 이내에서 사용할만

MSSQL을 파이썬에서 사용하기 위해서는 모듈을 다운 받아야 한다.하지만 C++ 컴파일러 버전이 안맞으면 파이참에서 안깔리는 문제가 발생한다.(pip 업그레이드도 해보고, 각종 방법들을 해봐도 안될 것이다.)아래 주소로 가서 pymssql‑2.1.5‑cp39‑cp39‑

데이터베이스 접속 방법을 생각하는 중에 클래스 하나를 간단하게 만들어보았다.ms 홈페이지에서 제공해주는 접속 방법을 활용해서 만들었다,서버주소, 데이터베이스 이름, 유저 이름, 암호, 쿼리텍스트를 입력하고 데이터베이스에 접속하면된다. 접속 자체는 간단하지만, 데이터 베


ActiveMQ는 전통적으로 많이 사용되는 메시지 브로커다. 토픽을 할당하여 데이터를 관리하는 툴이다.

기본 Localhost 포트인 3306에서 도커 구동하는 MySQL 컨테이너(Volume 설정되어 있음)로 데이터를 이관하는 방법아래에 사진에서 Export 주소를 확인한다.Connection 안에서 Export하고자 하는 Schema를 선택한다.Table도 세부적으로

Finance data reader를 사용해서 매일 실시간으로 전세계의 데이터를 나의 로컬 데이터베이스에 수집하고 싶은 경우에 쿼리문을 사용해서 데이터를 취득해야 하는 상황이 있다.Market은 오차가 있지만 KOSPI(958 종목), KOSDAQ(약 1700 종목),

1. 개요 카프카는 대용량 트래픽을 처리하는데 뛰어난 성능을 가진 브로커이다. 다른 말로는 고성능 분산 메시지 스트리밍 플랫폼이라고도 한다.. 얼마나 좋은 장점을 가지고 있어서 많은 회사들에서 이 카프카를 사용하는지 궁금하고, 앞으로 개발을 이어가기 위해서 오늘은 윈도

이번 글에서는 에어플로우를 설치하는 방법을 정리한다. Airflow를 설치하면서 constraint 파일을 설정해주는 곳에서 시간이 필요한데, 파이썬 3.9 버전 가상환경을 사용할 때 Airflow 3.0.4 버전을 많이 사용하는 것 같아서 파이썬 3.9 기준으로 설명

Docker compose를 사용한 airflow 3.1.3 버전 다운로드 방법

이번 글에서는 호스트 컴퓨터에 PostgresSQL을 다운로드 하고, Docker원하는 버전 정보 확인해서 넣기, 여디서는 윈도우에서 설치하므로 Window 전용 파일을 다운로드 한다.https://www.postgresql.org/ "Download the

이번 글에서는 postgresSQL 서버가 여러개 있을 때 pgAdmin 4에서 연결하는 방법을 설명한다.먼저 컨테이너를 사용해서 서버를 4개를 띄워놓은 상태이다.각각 포트 번호는 호스트 PC에서 5435, 5436, 5437, 5438로 설정하여 데이터베이스 서버를

데이터베이스를 변경하는 과정에서 같은 관계형 DB라고 하더라고 코드 부분에서도 미묘한 차이점을 확인해야한다.pip install pymysqlpip install psycopg2-binarypymysql.connect 모듈에 접속 정보를 입력한다.pymysql은 데이터

이번 글에서는 Apache spark 3.5.7 버전을 내 python3.9 가상환경에 설치해본다. 1. Jave 설치 pyspark를 설치하려면, java 부터 설치해야한다. 이번에 설치할 Apache spark는 3.5.7 버전이지만, 최신 버전은 4.0.1.이다