GenAI 해커톤에서 내가 해야 할 일은
DART(전자공시사이트)에 있는 상장기업+비상장기업의 재무제표 PDF를 받아오는 일이었다. 이것들을 AWS S3에 올려야 한다.
처음에는 간단할 것이라고 생각했지만, 정말 규모가 큰 작업이었다.
우선, DART에서는 기업의 재무제표를 PDF로 반환하는 API를 제공하지 않는다.
PDF를 받으려면 그 절차가 상당히 복잡하다.

1) 기업들의 고유번호를 xml 파일로 받아야 한다. 이 파일에는 기업들의 이름과 고유번호, 종목코드, 최종변경일자가 정리돼 있다.
그런데, 문제가 있었다. 하나의 기업이 여러 개의 고유번호를 갖고 있는 경우가 있었다. 하나은행이 그랬다. 세개의 고유번호가 있었고, 각각 날짜도 달랐다.
다른 팀원의 이야기를 들어보니 하나은행이 중간에 합병을 해서 고유번호가 달라진 거 같았다. 그래서, 먼저 고유번호가 담긴 xml파일을 받아서 가장 최신 날짜(최종변경일자 기준)인 것만 남게끔 했다.

2)이제 이 고유번호를 기준으로 공시 정보를 가져와야 한다.

1번의 결과물은 csv파일로 만들어서, 이를 2번을 시작할 때 읽어서 사용한다. 이때 회사의 고유번호와 최종변경일자를 파라미터로 넣어서 공시정보를 받아온다.

이러한 보고서들이 나오는데 우리가 필요한 것은 가장 최신의 분기 보고서다. 그래서, 2024년에 만든 분기보고서의 정보만 긁어오기로 했다.

이러한 정보를 받아오면 된다. rceptNo가 있어야 나중에 해당 보고서의 pdf파일을 다운받을 수 있다.
3)