๐Ÿ—‚๏ธ2024.07.05 TIL

Donghyunยท2024๋…„ 7์›” 5์ผ
0

TIL (Today I Learned)

๋ชฉ๋ก ๋ณด๊ธฐ
10/53
post-thumbnail

๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ถ„์•ผ์—์„œ์˜ ์—…๋ฌด ์ž๋™ํ™”

์ง์žฅ์ธ๋“ค์ด ์‚ฌ๋ฌด์‹ค์— ์ถœ๊ทผํ•˜์—ฌ ๋งค์ผ ์•„์นจ ๋ฃจํ‹ด์ฒ˜๋Ÿผ ํ•˜๋Š” ์ผ์ด ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฐ ๋ถ€๋ถ„์— ์žˆ์–ด์„œ ๋˜‘๊ฐ™๊ฑฐ๋‚˜, ๋น„์Šทํ•˜๋ฉด์„œ ๋ฐ˜๋ณต๋˜๋Š” ์ผ์ด ๋ถ„๋ช… ์žˆ์„ ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฐ ์—…๋ฌด๋“ค์—์„œ์˜ ์—…๋ฌด ์ž๋™ํ™”๋Š” ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ , ์˜ค๋ฅ˜๋ฅผ ์ค„์ด๋ฉฐ, ๋ฐ˜๋ณต์ ์ธ ์ž‘์—…์„ ์ค„์ด๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค.

์ฃผ์š” ์ž๋™ํ™” ์ข…๋ฅ˜ ๋ฐ ์˜ˆ์‹œ

1. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ถ”์ถœ ์ž๋™ํ™”

  • ์›น ์Šคํฌ๋ž˜ํ•‘: BeautifulSoup, Scrapy ๋“ฑ์„ ์‚ฌ์šฉํ•ด ์›น ์‚ฌ์ดํŠธ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™์œผ๋กœ ์ˆ˜์ง‘.
  • API ํ†ตํ•ฉ: ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ ์†Œ์Šค(API)๋กœ๋ถ€ํ„ฐ ์ž๋™์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ ๋ฐ ๊ฐฑ์‹ .
  • ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ์ถ”์ถœ: SQL ์Šคํฌ๋ฆฝํŠธ๋‚˜ ETL ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•ด ์ •๊ธฐ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœ.

2. ๋ฐ์ดํ„ฐ ์ •์ œ ๋ฐ ์ „์ฒ˜๋ฆฌ ์ž๋™ํ™”

  • ๋ฐ์ดํ„ฐ ํด๋ฆฌ๋‹ ์Šคํฌ๋ฆฝํŠธ: Pandas์™€ ๊ฐ™์€ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•ด ๊ฒฐ์ธก๊ฐ’ ์ฒ˜๋ฆฌ, ์ค‘๋ณต ์ œ๊ฑฐ, ๋ฐ์ดํ„ฐ ํ˜•์‹ ๋ณ€ํ™˜ ๋“ฑ์˜ ์ž‘์—…์„ ์ž๋™ํ™”.
  • ETL ํŒŒ์ดํ”„๋ผ์ธ: Apache NiFi, Talend, Airflow ๋“ฑ์„ ์‚ฌ์šฉํ•ด ๋ฐ์ดํ„ฐ ์ถ”์ถœ, ๋ณ€ํ™˜, ์ ์žฌ๋ฅผ ์ž๋™ํ™”.
  • ์ •๊ธฐ์ ์ธ ๋ฐ์ดํ„ฐ ์—…๋ฐ์ดํŠธ: ์ •๊ธฐ์ ์ธ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘๊ณผ ์ •์ œ๋ฅผ ์œ„ํ•œ ์Šค์ผ€์ค„๋ง (์˜ˆ: cron jobs).

3. ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ๋ชจ๋ธ๋ง ์ž๋™ํ™”

  • ์ž๋™ํ™”๋œ ๋ณด๊ณ ์„œ ์ƒ์„ฑ: Jupyter Notebook, R Markdown, Tableau ๋“ฑ์„ ์‚ฌ์šฉํ•ด ์ •๊ธฐ์ ์ธ ๋ณด๊ณ ์„œ๋ฅผ ์ž๋™์œผ๋กœ ์ƒ์„ฑ.
  • ๋ชจ๋ธ ํŠธ๋ ˆ์ด๋‹ ๋ฐ ํŠœ๋‹: scikit-learn์˜ GridSearchCV, AutoML ๋„๊ตฌ (์˜ˆ: H2O.ai, Google AutoML)๋ฅผ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ ํŠธ๋ ˆ์ด๋‹ ๋ฐ ์ตœ์ ํ™” ์ž๋™ํ™”.
  • ์˜ˆ์ธก ๋ชจ๋ธ ๋ฐฐํฌ: ML ๋ชจ๋ธ์„ ํ”„๋กœ๋•์…˜ ํ™˜๊ฒฝ์— ์ž๋™์œผ๋กœ ๋ฐฐํฌ (์˜ˆ: AWS SageMaker, Google Cloud AI Platform).

4. ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™” ์ž๋™ํ™”

  • ๋Œ€์‹œ๋ณด๋“œ ์—…๋ฐ์ดํŠธ: Tableau, Power BI, Looker ๋“ฑ์˜ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•ด ์‹ค์‹œ๊ฐ„ ๋ฐ์ดํ„ฐ ๋Œ€์‹œ๋ณด๋“œ๋ฅผ ์ž๋™์œผ๋กœ ๊ฐฑ์‹ .
  • ์ •๊ธฐ ๋ฆฌํฌํŠธ ์ƒ์„ฑ: Matplotlib, Seaborn, Plotly ๋“ฑ์„ ์‚ฌ์šฉํ•ด ์ •๊ธฐ์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ๋˜๋Š” ์‹œ๊ฐํ™” ๋ฆฌํฌํŠธ ์ƒ์„ฑ.
  1. ๋ฌธ์„œํ™” ๋ฐ ๊ธฐ๋ก ์ž๋™ํ™”
  • ์ž๋™ ๋ฌธ์„œํ™”: ๋ถ„์„ ๊ณผ์ •๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ž๋™์œผ๋กœ ๋ฌธ์„œํ™”ํ•˜๋Š” ๋„๊ตฌ ์‚ฌ์šฉ (์˜ˆ: Sphinx, MkDocs).
  • ๋ฒ„์ „ ๊ด€๋ฆฌ: Git๊ณผ ๊ฐ™์€ ๋ฒ„์ „ ๊ด€๋ฆฌ ์‹œ์Šคํ…œ์„ ์‚ฌ์šฉํ•ด ์ฝ”๋“œ์™€ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๊ด€๋ฆฌ.

์ฐธ๊ณ ํ•˜๋ฉด ์ข‹์€ ๋‚ด์šฉ: https://nadocoding.tistory.com/15

Python

sort(), sorte() ํ•จ์ˆ˜์˜ key ๋งค๊ฐœ๋ณ€์ˆ˜: ์ •๋ ฌ ํ˜•์‹์„ ์–ด๋–ป๊ฒŒ ํ•  ๊ฒƒ์ธ์ง€ ๊ธฐ์ค€์„ ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜

  • ์ด ๋งค๊ฐœ๋ณ€์ˆ˜์—๋Š” ๋‹จ์ผ ์ธ์ž๋ฅผ ์ทจํ•˜๊ณ  ์ •๋ ฌ ๋ชฉ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ํ‚ค๋ฅผ ๋ฐ˜ํ™˜ํ•˜๋Š” ํ•จ์ˆ˜(๋˜๋Š” ๋‹ค๋ฅธ ์ฝœ๋Ÿฌ๋ธ”)๋ฅผ ์ค˜์•ผ ํ•จ.

์ฐธ๊ณ : https://velog.io/@ehdtkd98/ํ”„๋กœ๊ทธ๋ž˜๋จธ์Šค๋ฌธ์ž์—ด-๋‚ด-๋งˆ์Œ๋Œ€๋กœ-์ •๋ ฌํ•˜๊ธฐ

profile
๋ฐ์ดํ„ฐ๋ถ„์„ ๊ณต๋ถ€ ์ผ๊ธฐ~!

0๊ฐœ์˜ ๋Œ“๊ธ€