
국가법령정보센터에서 키워드 '보안', '회계' 를 검색해 나오는 문서들을 수집하는 일이었다.
크롤링을 하는 방법도 있었지만, 머리보다 몸을 움직이는 게 더 빠를 것 같아서 총 168개의 문서를 일일히 다운로드 했다 😓 크롤링 코드 짜며 스트레스 받지 않고, 마음 편하게 클릭 클릭을 반복해서 후회는 없다 😄
이 일이 정말 스트레스였다... 무슨 데이터를, 어디서, 어떻게 가져와야 할지 계속 헤맸다. 일의 방향이 잡히지 않아 집중력이 흐트러지기를 반복하다가, 밤 9시가 넘어서야 겨우 방향을 잡았다. 데이터 수집을 위해 아래 네 단계를 구축했다.
- 어떤 데이터가 필요한지 목록 나열
- 재무제표: 재무상태표, 손익계산서, ...
- 그 데이터가 어떤 정보를 담고 있으며, 왜 업무에 필요한지 공부
- 재무상태표: 회사가 특정 시점에 가진 자산, 부채, 자본이 각각 얼마인지 나타내는 표
- 데이터 수집 방법 조사
- 재무상태표는 공공데이터포털 활용, DART Open API 활용, 네이버 금융/증권 등 민간 포털 활용을 통해 수집할 수 있다.
- 데이터 수집 및 전처리
데이터 수집을 하기 전부터 너무 오래 헤맨 관계로, 현재는 3단계: 데이터 수집 방법 조사 까지만 끝냈다.
2단계: 데이터가 어떤 정보를 담고 있는지 공부하는 것이 중요하다는 것을 깨우쳤다. 처음에는 perplexity AI가 말한 데이터를 무작정 수집하려고 했었는데, 뭔지도 모르는 데이터를 무작정 다운로드 받는 게 맞나 싶고 답답했다. 키워드를 검색하면 파일이 9천 개씩 나오기도 했는데, 이걸 전부 다 다운로드 하는 게 맞을까 막막해했다.
이대로 가다가는 내 행동에 확신이 없을뿐더러, 전처리 단계에서 또 한 번 방황할 것이 뻔하니 필요한 데이터에 대해 공부를 해보자고 결론을 내렸다.

부서별로 어떤 데이터를 수집해야 할지 방향을 잡는 것부터 너무 헤매서, RAG 공부는 커녕 부서별 데이터 수집을 시작도 못했으니 스스로에게 아쉬운 마음이 크다.
하지만 내일 팀원분들께 부서별 데이터 수집을 위해 시간이 더 필요하다고 솔직하게 말씀드리고, 내규 데이터는 수집 했으니까 전처리 방식에 대해 같이 논의해봐야겠다.
할 일은 많은데 막막하기만 하니, 그냥 챗봇이 뚝딱하고 만들어지면 좋겠다는 터무니 없는 상상만 든다 😓 일단 너무 늦지 않게 빨리 자야겠다! 오늘 그래도 방향을 잡았으니, 내일은 조금 덜 헤매기를 기대해본다.