판례데이터를 가져올라고 하던 중 open Api 승인을 받으려면 기한이 필요하다고 하길래....
허깅페이스에서 마침 내가 원하던 데이터셋을 찾아서 그걸 postgresDB 에 정제해서 저장했다.
고민이 여러가지 있었는데
대용량 판례 데이터를 어디다가 저장 해야 할지... → 원래는 로컬에 저장하거나 몽고 디비에 저장하려고 했으나 데이터의 형식을 보았을 때 관계형 DB에 저장하는 것이 더 좋다고 판단했다.. → postgresql 에 저장하는 것을 생각해보았다!!
데이터 가공은 psycopg2 을 이용하였고 StringIO도 이용하였다.
엘리스틱 서치를 이용할 수 없다고 생각했을 때 대용량의 판례 데이터를 어떻게 하면 잘 검색하여 가져올 수 있을까?? → mysql의 FULLTEXT 인덱싱 vs postgresql의 tsvectir와 tsquery 이건 아직 고민중이다...