Python으로 웹 스크래퍼 만들기 ~5.21

📌 엑셀 파일로 job data 옮기기

- 먼저 기존 리플릿에서 자꾸 봇 오류가 떠서 vscode로 옮겨왔다.
(분명 어제는 됐었는데 오늘은 봇으로 인식해서 자꾸 보안으로 막혀버림...🥺)

- vscode에서 replit과 똑같이 모든 플러그인을 설치하고 돌려보면 이렇게 쾌적하게 되는 걸 확인할 수 있다. (진작 vscode 쓸걸..ㅎ)

- 기존 print를 지워주고, file을 변수를 하나 만든다.
- file에 open 내장함수를 사용해 파일 이름과 모드를 설정한다.
- 현재 keyword로 이름을 설정했고, w로 (쓰기 모드)로 지정.
- 이후 파일의 첫번째 줄을 (메인 탭)을 write로 적는다.
- title, location, company, link순으로 작성
- 끝에는 줄바꿈 표시가 있어야지 행이 나눠진다.
- 왜냐면 csv 파일은 열을 쉼표로 구분하고, 새행은 새줄로 구분하기 때문이다.
- 이후 for문을 이용하여 csv에 들어갈 요소들을 넣어준다.
- 여기서 중요한 부분은 f""를 사용해서 적기 때문에 안에 요소들은 ''로 적어줘야 한다.
- 그리고 첫번째 줄과 같이 내용이 끝나면 줄 바꿈을 해줘야한다.
- 마지막으로 file.close로 파일을 닫으면 자동으로 저장된다.

- 이런식으로 파일에 키워드 명으로 csv 형식으로 저장된다.

- 그런데 파일을 열어서 확인해보면 이런식으로 요소 안에 있었던 기존 콤마 때문에 나열이 이상하게 변한 걸 볼 수 있다.

- 해당 문제를 해결하게 위해서 for 문을 이용해 데이터가 none이 아니면 각 요소들에 들어가서 ,를 공백으로 바꿔버렸다.
- indeed와 wwr 파일에 모두 들어가서 job_data에 모두 설정해주자.

- 이후 다시 실행해서 파일을 확인해보면, 이렇게 예쁘게 나오는 걸 볼 수있다.

- 하지만 다시 문제 발생, 해당 파일을 엑셀로 열면 글자가 깨지는 문제가 있다.

- 해당 문자는 간단하게 encoding="utf-8-sig"를 파일 open에 추가해서 해결할 수 있다.
- 텍스트 파일을 UTF-8 인코딩으로 읽을 때 사용되는 옵션 중 하나임.

- 이후 다시 확인해보면 이렇게 엑셀로도 예쁘게 확인 가능하다 👍🏻