[MYSQL] 프로젝트 진행 상황과 문제 발생

김바덕·2023년 8월 16일
0

프로젝트

목록 보기
4/9
post-thumbnail

요새 계속 크롤링 코드 고치고
DB에 데이터가 자꾸 중복으로 들어가서

ㅠㅠㅠㅠ 이거땜에 며칠동안 머리가 아팠다.

DELETE JOIN을 활용해서 중복된 데이터 값을 하나만 남기고 모두 지우려고 시도하다가

기존 데이터가 다 삭제되어 버려서 멘붕이 왔었지만

백업해둔 데이터가 있어서 다시 복구하였다.

백업을 일상화 하자.... 🤣

테이블들을 조인하여 원하는 결과를 뽑아내려고 하는데,
각 테이블의 id 값으로 조인을 하고 있었는데

한 테이블의 id값이 pk가 아니라 진짜 그냥 순차적으로 증가하는 값 그 이상도 이하도 아니였다.

그래서 id값으로 조인을 할 수 없게 되어서 머리가 복잡하다.

데이터는 7월 중순부터 크롤링해서 적어도 1만개가 넘을텐데

이미 크롤링된 데이터에 어떻게 원하는 값을 붙여 넣어야 할지

정말 고민이 된다

발생한 문제는 아래와 같다.

나는 id - title - emotion - date - [ORG] 이렇게 조인 하려고 했다.

ORG 데이터를 보면

1 GS건설
2 광안리 삼익비치
3 한국
4 한국은행
5 기획재정부
6 한은
7 아사히
8 세븐일레븐
9 뷰티스킨
10 롯데벤처스 펀드
11 와이랩
12 KDB캐피탈 L&S
13 한샘
14 IMM오퍼레이션즈그룹
15 메리츠운용
16 KCGI자산운용
17 씨엔티테크
18 렉서스
19 현대차
20 농심
21 삼양식품
22 제주삼다수는
23 일본의
24 슬로웨이브
25 시드
26 아마존
27 강원도
28 JYP Ent
29 에코프로
30 MSCI
31 SK하이닉스
32 아이파크
33 린드먼아시아인베스트먼트
34 국민연금
35 세명테크
36 농심
37 삼양식품
38 제주삼다수는
39 미
40 중
41 일
42 러
43 한국
44 한은
45 태국
46 현대차
47 인니
48 한미중
49 프랑스 정부
50 아마존
51 일본의
52 셀트리온
53 한미약품그룹
54 메디톡스
55 삼일제약
56 골드만삭스의
57 J-뷰티
58 아디다스
59 필에너지
60 지나인제약
61 LG에너지솔루션
62 LG화학
63 블랙록
64 삼성 반도체
65 삼성
66 삼성전자는
67 LG전자
68 나스닥
69 네이버
70 WHO
71 BNK금융
72 광윤사
73 일본 롯데
74 롯데
75 GS건설
76 새마을금고
77 에이엘티
78 버넥트
79 뷰티스킨
80 삼성전자
81 필에너지
82 카카오브레인
83 HLB그룹
84 미국의
85 C.O.A.X
86 금속노조
87 삼성전자
88 HB
89 한국벤처투자
90 한국토요타
91 한국도요타통상
92 혼다코리아
93 LG전자
94 하나금융그룹
95 토큰증권
96 순이엔티
97 중기
98 이스라엘
99 빅뱅엔젤스
100 대법원
101 애플
102 테슬라
103 일본의
104 다우
105 뉴욕
106 나스닥
107 MZ
108 토스뱅크
109 우리금융그룹
110 새마을금고
111 야쿠르트
112 삼성전자
113 중국 BOE
114 한 中기업
115 LG디스플레이
116 현대
117 KB
118 스레드테슬라
119 골드만삭스의
120 J-뷰티
121 KT
122 OCI
123 GS건설
124 한국토요타
125 한국도요타통상
126 혼다코리아
127 연합뉴스카카오
128 동서식품
129 나스닥
130 테슬라
131 아마존
132 MS
133 베트남
134 기아
135 환경부 메가스테이션
136 현대차
137 중국
138 하림
139 시지트로닉스
140 파로스아이바이오
141 센서뷰
142 뷰티스킨
143 트랜스링크인베스트먼트
144 우리넷
145 원익투자 디티앤인베 티인베
146 LG CNS
147 IMF
148 중앙은행
149 쿠팡
150 CJ올리브영
151 공정위
152 CJ그룹
153 아마존
154 포스코그룹
155 금양
156 브레인운용
157 케이와이프라이빗에쿼티
158 대신에프앤아이
159 사학연금
160 ADF운용
161 IBK기업은행
162 포스코홀딩스
163 서울시
164 갓
165 비비고
166 뉴욕
167 다우존스
168 IMF
169 정부
170 한국
171 AMD
172 삼성전자 커뮤니케이션실
173 TSMC
174 마젤란펀드
175 LG한강자이
176 현대
177 래미안강남힐즈
178 퀸잇
179 미래에셋벤처투자
180 티비티
181 메디키나바이오
182 경기혁신센터
183 포스코
184 LS그룹
185 포스코홀딩스
186 GS건설
187 효성중공업
188 포스코그룹
189 LG전자
190 삼성전자
191 미국공급자관리협회
192 쿠팡
193 아마존
194 금감원
195 SM
196 카카오
197 SK하이닉스
198 삼성전자
199 산업부는
200 대구銀
201 신용공제
202 국세청
203 YG플러스
204 토스뱅크
205 원안위
206 신한울
207 롯데쇼핑
208 미국
209 금감원에
210 대구은행
211 금감원하나은행
212 EU
213 LH
214 대한항공
215 한은
216 韓日
217 중국
218 한국
219 아기아
220 BNPL
221 일본
222 LH
223 케이뱅크
224 기아
225 다우
226 삼성화재
227 메리츠화재
228 아모레퍼시픽
229 부영그룹
230 금감원
231 LG전자
232 엔비디아
233 사우디아라비아
234 日
235 모건스탠리는
236 KOTRA
237 금융위원회
238 다우키움그룹
239 대동
240 나스닥
241 삼성생명
242 전경련
243 다올證
244 롯데마트
245 현대차기아 인도기술연구소
246 韓
247 롯데그룹
248 토스뱅크
249 LH 서울
250 제주항공
251 코트라는
252 삼성
253 삼성전자
254 포스코에코프로
255 정부가
256 보잉사
257 모건스탠리

id가 article_table의 id = assosiation_table의 article_id 처럼 같은 id가 아니라..
그냥 순차적으로 증가하는 무의미한 id값이라 조인 할 수가 없다....

저 ORG들이 어느 기사에서 나온건지도 모르기 때문에 사실상 저 테이블은 무의미한 테이블이 되었다..

그럼 이제 어떻게 해야 하지 ?

머리를 굴려 보았는데

  1. title 데이터에서 다시 org 추출을 한다 ->? 근데 추출 해서 그걸 기존의 데이터 옆에 붙일수가 있나? -> 음 가능할지도...?
  2. 어떻게든 방법을 찾아서 조인하기 -> 사실상 불가능
  3. 생각중......

큰일났다. ~~~

농담곰아 정답을 알려줘

profile
UXUI Designer

0개의 댓글

관련 채용 정보