[내일배움캠프] DAY5 - 커리어 세션, 히트맵 만들기

채은·2025년 12월 3일

QA/QC 내일배움캠프

내일배움캠프_QAQC_4기

목록 보기

5/60

1. 커리어 세션 녹화본
2. SQL 어드벤트
3. 튜터님의 방문
4. 개인 학습 시간
5. 커리어 세션

.
.
.

1. 커리어 세션 녹화본

어제 조퇴를 하면서 놓친 커리어 세션을 녹화본으로 봤다.

너무 오랜만에 동생말고 언니라는 호칭을 들어서 반가웠음ㅋㅋㅋㅋㅋ

김준성 튜터님 세션 내용
튜터님 상주 시간 -> 19:00~21:00

기계공학과 출신으로 첨엔 데이터 분석 쪽으로 일을 시작하신 게 아니었음
직장에서 일하시다가 개인적으로 공부하셔서 분석 역량을 기르셨고
모빌리티, 바이오 쪽 도메인으로 데이터 분석 진행한 경험이 있으심
그리고 생성형 AI에도 관심이 많으셔서 책도 출간하셨다고 함..!

준성튜터님이 하신 바이오 도메인 쪽 분석은 scRNA-seq 쪽이었음
이걸로 논문도 내셨다고...!
암튼 국내에선 이거 분석 진행하는 회사가 3-4개 정도로 적고, 그 회사 내에 인력도 적다고 함
=> 인원이 더 필요하다!!

근데 사실 데이터 분석가 입장에서는 별거 아닌 일이었음
진짜 부트캠프 커리큘럼으로 배운 내용만으로도 할 수 있는, 몇줄 안적어도 분석이 되는 간단한 일이었다고 하심

꼭 데이터 분석, 컴공, 통계 이런 전공이 아니어도 괜찮은 이유
-> 회사들도 도메인 지식을 가지고 있으면서 거기다가 파이썬 같은 분석 툴을 배우는 게 훨씬 빠르다고 판단하기 때문에시
그리고 꼭 데이터 분석가 JD를 찾을 필요는 없다~
우대사항에 데이터 분석 관련 내용이 있다면 일단 슬쩍 지원해보기

+) Single cell RNA sequencing 서비스 지원하는 기업들
1. 마크로젠
2. 이바이오
3. 로킷헬스케어

대체로 이렇게 진행되는 듯. 마크로젠이랑 이바이오젠은 tissue dissociation도 해준다고 적혀있는데 로킷헬스케어 여긴 그런 말은 없었음.
그리고 마크로젠은 역시 큰 회사라 그런가 scRNA-seq말고도 종류 엄청 많았음.
다시 가서 훑어보기

2. SQL 어드벤트

이 내용은 오늘부터 따로 정리해보려고 한다
한번에 모아두는게 더 보기 좋을 것 같기 때문!

어제 못 풀어서 오늘 2개 풀어야 함...
🎄SQL 어드벤트🎄

3. 튜터님의 방문

오늘 오셔서 우리 조가 TIL을 잘 쓰고 있다고 칭찬해주고 가셨다!
정말로 다 둘러 보실 줄은 몰랐는데 다 읽어보시나보다...!
혹시 지금도 보고 계시나요..?! （＾＿－）≡★

오늘은 TIL 관련 몇가지 조언해주셨다

작성을 하면서 항상 목적을 분명히 하기
나의 경우에는 전날 뭐했는지 돌아보는 용도가 큰 것 같다. 특히 월요일엔 그게 많이 도움이 된다!
.

제목을 색다르게 하는 것도 추천 (날짜 매기는 형식적인 거 말고)
서칭을 할 때 제목에서 많이 걸리고 유입도 많이 된다고 한다
그래서 좋은 제목을 짓는다면 방문객들이 생길지도?
~~인프피 특 적당한 관심 좋아함~~
.

TIL 자체를 일종의 아카이브로 활용하기
나중에 내가 쌓아둔 이 자료들을 다시 볼 것까지 생각해서 작성하면 더 좋을 듯!
이를 위해선...해시태그를 잘 활용한다던가, 링크만 적어두지 말고 캡쳐사진, 설명한줄 추가하면 좋을 듯(링크가 사라질수도 있으니까)

+) 인생은 진짜 그냥 공부다..... 받아들여야 함..
이왕 하는 거 재밌게 하자.....! 잼공!잼공! 화이팅~ ⁽⁽५✍(∗´દ`∗)◞ ⁾⁾

4. 개인 학습 시간

지난 시간에는 데이터의 타입을 조회하고 시간 데이터를 가공하는 법,
데이터를 그룹화하여 처리하고 정렬하는 법에 대해서 배웠다.

데이터 분석 3주차

오늘은 히트맵으로 시각화하는 방법밖에 못 들었다..ㅠ
나는 왤케 시간이 없는걸까.....

히트맵은 X,Y 축에 각각 변수를 지정해서 크로스 되는 부분에 변수를 채우는 방식
데이터 값에 따라 다른 색으로 나타내서 어떤 게 높은 수치인지, 낮은 수치인지 한눈에 들어온다
히트맵을 그려달라는 명령어는 plt.pcolor(테이블 이름)
이어서 X,Y 축 값을 지정하고, np.arange(a,b,c)를 통해서 범위와 간격도 지정할 수 있었다
a=시작숫자, b=끝숫자, c=간격

+)그래프의 폰트가 깨질 때 해결법도 배웠다

5. 커리어 세션

복전을 계기로 데이터 분석 쪽에 입문하심
ADsP, SQLD 같은 내가 고민하고 있는 자격증들을 가지고 계셨음

사실...살짝 졸아서 이것말고는 뭐라고 필기했는지 알아볼 수가 없다ㅋㅋ큐ㅜ
나중에 보도록 해야겠다..

읽어보면 좋을 자료

랩지노믹스 BI 직무인터뷰

몰랐던/헷갈리는 개념 정리

Spatial Gene Expression (공간 전사체 분석)
준성튜터님 세션 자료에 이 내용도 살짝 있길래 찾아봄

원본링크

기존의 유전자 발현 연구는 세포들을 모두 갈아 섞은 뒤 평균값을 보는 방식이 많았음
근데! 이렇게 하면 위치 정보(조직 구조)는 완전히 사라지게 됨!!
세포들이 원래 어디에 있었는지, 옆에 어떤 세포가 있었는지 같은 거

즉, Spatial Gene Expression은 유전자가 어디에서, 얼마나 발현되는지를 지도처럼 보여주는 기술
-> 기존의 평균적인 유전자 연구보다 더 정확하고 생명체의 실제 구조를 반영한다~

Feature seleation
데이터 분석이나 ML에서 예측에 중요한 변수(특징)만 골라서 모델에 사용하는 과정

왜함?

불필요한 변수 제거 -> 모델 성능 올라감
과적합(Overfitting) 방지
모델 학습 시간 단축
해석하기 쉬운 모델 구축

종류에는 Filter Method, Wrapper Method, Embedded Method 등이 있다는데,
이건 다음에 알아보도록 하자...

XGBOOST (Extreme Gradient Boosting)

트리 기반 앙상블 모델
의사결정나무(Decision Tree) 여러 개를 여러 방식으로 묶어서(앙상블)
하나의 강력한 모델을 만드는 것

Gradient Boosting
이전 모델이 틀린 부분(오차)을 다음 모델이 보완해가는 방식으로
트리를 순차적으로 쌓아가는 앙상블

.
.
.

오늘의 소감
재춘 튜터님이 TIL 관련 얘기를 하시면서 내 글이 언급돼서 오 좀 신기했다
왜냐면 오늘 개시한 건데 오늘 읽으셔서...ㅋㅋㅋ 개시한지 4시간 된... 완성도 안된 초안을...
부업으로 닌자도 하시나 너무 빠르시다.

새롭게 알게된 점 & 어려웠던 점
새로운 걸 알아갈 수록 더 읽어보고 싶은 자료도 계속 생기는데... 그 자료가 너무 많아서 감당이 안되는 느낌이다. 뭐부터 읽어야 할지 내용 정리는 어떻게 해야할지 모르겠는 느낌. 읽다보면 당연하게도 또 모르는 개념이 또 생기는데 이게 뭐지하고 찾아보다보면 저 멀리 산으로 가있다. 자료를 읽고 정리하는 체계가 필요할 것 같다

내일의 목표
자료&개념 정리하는 체계 만들기
데이터 분석 강의 진도가 부진하니 끝나고 좀만 더 공부하기