
세션 1 : 9시 40분 - 10시 30분세션 2 : 10시 40분 - 11시 30분세션 3 : 11시 40분 - 12시 30분점심시간 : 12시 30분 - 1시 30분세션 4 : 1시 30분 - 2시 20분세션 5 : 2시 30분 - 3시 20분세션 6 : 3시 30

강사 : 이장래 디프렌즈 대표님

블럭 지정 후 ' 를 하면 자동으로 앞 뒤에 ' 붙음 (Auto Close Brackets)len(문자열) : 문자열의 길이를 반환문자열을 콤마 없이 나란히 나열하면 공백 없이 합쳐진 결과가 나옴s = 'hello', 'world' -> print(s) => hello

클래스 : 사용자 지정형 자료형(타입)메소드 : 클래스가 사용할 수 있는 동작 변수명.메소드()객체 : 클래스를 실체화한 것. 변수라고 보면 됨

9/5 3, 4, 5, 6세션 # A. 리스트[] 자료형 - 리스트는 여러 값을 묶어서 갖는 컨테이너 자료형 중의 하나 - **대괄호([ ])** 안에 콤마로 구분해 값을 나열하며, 이 값을 **요소**라고 함 - 이 세상 온갖 데이터(숫자, 문자, 파일, 이미지 등등

9/6 1세션 함수와 메서드 함수 함수(함수) 함수(변수) 함수(값) 라이브러리 별칭.함수() 메소드 변수.메서드() 값.메서드() 리스트 기타 1. 2가지 요소 추가 방법의 차이점 2. sort() vs. sorted() 리스트.sort() 메서드 값을

> 9/6 2세션 # A. 튜플() - 한 번 만들면 요소의 값을 바꿀 수 없다 - 튜플의 괄호는 생략 가능함 ## A-1. 요소가 하나인 튜플 선언 - `score = (90)` 은 단순히 int 형 변수가 선언된 것이다 - 튜플임을 명시하기 위해 `,` 를 붙

9/6 2, 3세션 # A. 집합 {} - 영어로는 set - 순서가 의미 없다 (정렬이 의미 없다) - 순서가 없으므로 인덱싱, 슬라이싱이 불가능하다 - 중복을 허용하지 않는다 - 포함, 미포함이 중요한 것임 ```python > A = {1, 2, 3} > B =

9/6 4, 5, 6, 7세션순서가 없다.'key' : 'value' 형태를 가진다.TIP! 딕셔너리 요소 순서3.6 까지는 정렬되지 않은 자료구조였음. 3.7부터는 선언한 순서대로 유지됨 하지만 인덱싱, 슬라이싱은 불가능리스트나 튜플을 Value로 가질 수 있음튜플은

9/9 1, 2, 3, 4, 5, 6 회차 A. 조건문 (if) A-1. pass 키워드 처리할 구문이 없거나 이후에 작성할 목적으로 pass 사용 가능 A-2. input() 함수 > TIP! 파이썬에서 input() 으로 입력받는 모든 것은 str 형이다!

9/10 2, 3, 4, 5, 6세션 - `return` 으로 반환 - 반환 할 것이 있는데, 아무도 받지 않으면 print 로 뿌려버린다. - return 이 없으면 반환하는 것이 없다. - return 뒤에 ()를 하면 튜플를 반환한다는 것이다. (생략가능)

9/10 7세션 - 문자열에서 패턴을 찾아서 다른 것으로 바꿔라! - `re` 라이브러리 사용 ### A-1) 전화번호 뒷자리 x로 변경 ```python > import re > re.sub(r'(\d{3}[-]\d{4})[-]\d{4}', r'\g<1>-XXXX

9/11 세션1 1. 전역변수는 참조는 가능하나, 재선언은 불가능 2. global 로 선언하면 재선언 가능!! 3. 그러나 리스트이기에, 값을 변경하는 건 가능!

9/11 1, 2, 3세션 ## A-1. pathlib 패키지 ```python from pathlib import Path print(Path.home()) ``` **Path 라이브러리** - `home()` : 홈 디렉터리 확인 - `cwd()` : 현재 작업

9/12 2, 3, 4, 5세션 - 배열(Array)을 쓸 수 있다 - c언어로 개발되었다 - `import numpy as np` - `np.array(리스트)`

9/12 3, 4 세션일반적으로 접하게 되는 테이블 형태, 엑셀 형태직접 만들 수 있으나 보통은 csv 파일, 엑셀 파일 또는 DB에서 읽어옴여러 자료형을 가질 수 있음데이터프레임은 인덱스(=행 이름)와 열 이름이 있고 없고에 따라 다른 형태를 갖음인덱스 : 행을 특정

9/12 5, 6세션탐색적 데이터분석(EDA) 라고 함파일에서 불러온 데이터의 크기, 내용, 분포, 누락된 값 등을 확인확인된 내용을 통해 데이터 전처리 필요 여부를 결정head(n) : 상위 n개 데이터 확인tail(n) : 하위 n개 데이터 확인shape : 데이터

9/13 1, 2세션 ## A-1. 특정 열 조회 - `df.loc[:, '열 이름']` 또는 `df['열 이름']` - `:` : 모든 행 조회 - 시리즈 형태로 반환 - 데이터프레임으로 반환받고 싶다면 `[]` 로 감싼다 ### A-1-1) 여러개의 열 조회

9/13 4, ,5, 6, 7세션대부분집계 대상 열 ==> 숫자 열 ==> 연속값 (연속형 데이터)집계 기준 열 ==> 문자 열 ==> 범주값 (범주형 데이터)matplotlib.pyplot 사용plt.bar(x=df\[x열], height=df\[y열]) (x, he

9/13 6세션값을 하나만 전달하면 이 값이 y축 값값의 위치를 나타내는 인덱스가 x 축x축과 y축 값을 지정할 수 있음xlabel() : x축 이름 지정ylabel() : y축 이름 지정title() : 그래프 제목 지정색상(color=), 마커 모양(marker=)

9/19 2, 3세션

9/19 5, 6세션결측치 : NaN 값

9/25 1, 2, 3, 세션한기영 강사님데이터 엔지니어 10년 / 데이터 분석 및 인공지능 12년데이터 인사이트 대표== 비즈니스 문제 해결 방법론문제를 정의하고, 요인을 파악하기 위해 가설 수립

9/25 4, 5세션범주형명목형 데이터순서형 데이터수치형이산형 데이터연속형 데이터A가 B의 N배..니..? --> NO!ex) 연, 월, 일 : 범주형 데이터ex) 개월 : 이산형 데이터열 (row column)x : feature = 요인, input, 독립변수y :

9/25 5세션산술평균, 기하평균, 조화평균자료의 순서 상 가운데 위치한 값가장 빈번한 값TIP! 평균을 대표값으로 사용할 때의 주의점작은 값, 큰 값만 많은 경우가 있다!수치형 변수의 분포를 볼 때 사용plt.hist() 형으로 사용bins : 구간 개수 변경

9/26 3세션범주별 개수(Count)를 센다빈도수 : 시리즈.value_counts()비율 : 시리즈.value_counts(normalize= True)sns.countplot() 형태로 사용자동으로 집계 후, 집계한 결과로 시각화

9/26 5세션 ## A-1. 가설 검정 - **모집단** : 우리가 알고 싶은 대상 전체 영역 - **표본** : 그 대상의 일부 영역 - 일부분으로 전체를 추정하고자 함 - 가설은 모집단으로 세우고, 확인은 표본으로 한다 <br> - **분포**를 알면 위치를

9/27 2, 3세션한 집단을 설명하기 위해 대표값으로 평균을 계산했을 때, 값들이 평균으로부터 얼마나 벗어있는지를 나타내는 값표본조사 : 무작위 추출하여 조사전수조사 : 전체 모집단 조사표집 : 표본을 뽑는 것. 모집단을 추정하기 위함표본 평균 : 모 평균에 대한 추

9/27 3, 4 세션sns.barplot()평균 비교두 평균에 차이가 크고, 신뢰 구간은 겹치지 않을 때 대립 가설이 맞다고 볼 수 있다.신뢰구간이 좁을 수록 믿을만하다두 그룹의 평균 간 차이를 표준 오차로 나눈 값. (두 평균의 차이)보통, t 값이 -2보다 작거나

9/30 2세션 ## A-1. 교차표(crosstab) - `pd.crosstab(행, 열, normalize=)` - normalize 옵션 : 비율로 변환 - columns : 열 기준으로 100% - index : 행 기준으로 100% - all

9/30 4, 5세션 A. 숫자형 & 범주형 A-1. 시각화 kdeplot() common_norm = True, hue='범주형' : 각각의 면적 비율에 따라 그리기 (잘 안씀) common_norm = False : 생존자, 사망자 각각 그리기 (비율 고려X) m

9/30 6세션데이터 분석 단위(행) 간에 시간 순서가 있는 데이터행 간 간격이 동일해아 함비즈니스 이해 단계에서 시계열 데이터인지 판단행과 행 사이에는 관계 없는 건 디폴트시계열-단변량 숫자형히스토그램으로 나타내면 구간으로만 나와서 정확하지 않다시계열-단변량 범주형막

10/2 1, 2, 3세션Client : 데이터 요청Server : 요청에 따라 데이터 전송데이터의 형식은 html, json, pdf, png 등이 될 수 있음클라이언트가 브라우저를 통해 서버로 데이터를 요청하는 방법http : 프로토콜TIP! 스니핑http 를 쓰는

10/2 3세션컴퓨터는 0, 1밖에 모른다. 전류가 흐르고, 안흐르고만 있다.사람은 영문자, 숫자, 특수문자로 명령한다. 둘 사이에 해석이 필요하다.컴파일러가 코드를 컴퓨터가 실행할 수 있도록 0, 1로 바꿔준다.속도가 빠르다코드 실행 전 빌드(컴파일) 을 수행한다빌드

10/2 4세션변수와 함수를 모아서 코드를 작성 및 실행하는 문법객체 지향을 구현한 문법 : 실제 세계를 모델링하는 코드 개발 방법론함수 사용법 : 함수 선언(코드 작성) > 함수 호출(코드 실행)클래스 선언 (코드 작성) > 객체 생성 (메모리 사용) > 메서드 호출

10/2 6, 7세션더보기 버튼을 누르면 추가적인 내용이 나오는데, URL 변화는 없다.추가적인 내용이 나오도록 요청을 한 URL 을 알아내야 한다.json 형태로 받아온다파이썬 동적 크롤링 순서URLRequest (URL) -> Response(Json)Json (s

10/4 1세션다음의 경우, 환율 정보를 가져올 때 403 Forbidden 에러 발생시킴header 에는 소스에 대한 정보를 담는다cookie, referer, user-agent 등의 정보를 담는다user-agent : 브라우저, OS 정보를 포함WAS 에서 보통

10/4 3세션geohash() : 위도 경도로 지도 상 영역 설정

10/4 4세션Document : 한페이지를 나타내는 단위Element : 하나의 레이아웃을 나타내는 단위 : 시작태그, 끝태그, 텍스트로 구성Tag : 엘리먼트의 종류를 정의 : 시작태그(속성값), 끝태그Attribute : 시작태그에서 태그의 특정 기능을 하는 값i

10/10 1, 2, 3 회차허신 강사님 # A. Streamlit ## A-1. Streamlit 실행 터미널에서 ``` > streamlit run 파일이름.py ``` ## A-2. 기본 엘리먼트 ### Text elements **제목** : `st.titl

10/10 5, 6세션with st.sidebar 사용st.sidebar.selectbox() : 사이드 바 내에서 selectbox 사용TIP! Streamlit의 with특정 레이아웃 블록 (예: col1, col2 등) 내에서만 코드를 실행할 수 있도록 함.str

10/10 6세션데이터프레임을 간단하게 차트로 그려줌너무 간결해서 다양한 표현이 불가능선 차트 : line_chart(df)막대 차트 : bar_chart(df)영역 차트 : area_chart(df)use_container_width=True : 화면 꽉차게 그리는

10/10 7세션위도, 경도를 마커로 표시st.map() 사용지도 초기 설정지도의 초기 위치 설정 (중심점)zoom_start : 지도 크기 설정지도에 원형 마커와 값 추가iterrows() : 데이터 프레임을 한 행씩 읽어서 처리html 에 지도 그리기\_repr_h

10/11 1, 2, 3세션이름이 같고데이터 타입이 같고1:N 관계이면 자동으로 연관 관계가 형성된다

10/14 6, 7세션분류 모델은 0인지 1인지를 예측하는 것예측 값이 실제 값과 많이 같을 수록 좋은 모델정답 맞추기예측 값과 실제 값에 차이(오차) 존재예측 값과 실제 값의 차이로 성능 평가평균보다 오차 줄이기오차 평균을 구하기 위해 오차 합을 구함오차 합오차 제곱

10/15 2, 3세션1과 0을 정확히 예측한 비율 : 정확도 (Accuracy)1이라고 예측한 것 중에서 정말 1인 비율 : 정밀도 (Precision)실제 1인 것을 1이라고 예측한 비율 : 재현율 (Recall)오분류표TN : 음성을 음성이라고 잘 예측FP : 음

10/15 6세션오차의 합이 최소가 되는 모델model.coef\_ : 회귀 계수 (= 가중치)model.intercept\_ : 편향독립변수 하나가 종속변수에 영향을 미치는 선형 회귀독립변수 여러개가 종속변수에 영향을 미치는 선형 회귀회귀 모델에서만 사용 가능$$Di

10/16 1, 2, 3세션k개의 초근접 이웃회귀와 분류에 모두 사용 가능하다학습용 데이터에서 K개의 최근접 이웃의 값을 찾아 그 값들로 새로운 값을 예측하는 알고리즘다른 알고리즘에 비해 이해하기 쉽지만, 연산 속도가 느리다K에 따라 데이터를 다르게 예측할 수도 있음K

10/16 5, 6, 7세션특정 변수에 대한 의사결정 규칙을 나무 가지가 뻗는 형태로 분류함분류와 회귀에 모두 사용전처리 영향도가 크지 않음화이트박스 모델 : 분석 과정을 실제로 눈으로 확인 가능과적합 발생 가능성 있음. 트리 깊이 제한 필요어떻게 하면 불순도를 낮출

10/16 7세션시그모이드 함수라고도 함0초과 1미만의 값이 됨0.5보다 크면 1이라고 예측, 작으면 0이라고 예측$$\\sigma(z) = {1 \\over 1 + e^{-z}}$$z가 매우 큰 값 : 출력값이 1에 가까워짐z=0 : 출력값이 0.5z가 매우 작은 값

10/17 2, 3세션분류를 위한 기준선, 즉 결정 경계선을 찾는 알고리즘성능을 높이기 우해 정규화 작업 필요분류와 회귀에 모두 사용 가능결정 경계 : 서로 다른 분류값을 결정하는 경계벡더 : 2차원 공간 상에서 나타나는 데이터 포인트서포트 벡터 : 결정 경계선과 가장

10/17 3세션모든 데이터가 평가에 한 번, 학습에 K-1 번 사용K개의 분할에 대한 성능 예측 -> 일반화 성능

10/17 5세션from sklearn.model_selection import learning_curve학습 데이터를 10개부터 7900개까지 20개씩 올리면서 모델 만들기tr_size (학습 데이터 개수), tr_scores(학습 성능), val_scores(결과

10/17 5, 6, 7세션알고리즘을 사용해 모델링할 때 모델의 성능을 최적화하기 위해 조절하는 매개변수KNN 의 n_neighbors, Decision Tree의 max_depth모델의 성능 향상을 위해 최선의 하이퍼 파라미터 값을 갖는 다양한 시도를 해야 함

10/21 1, 2, 3세션정답 (Label) 이 없는 데이터스스로 비슷한 데이터끼리 묶음학습 시 x만 사용. x의 패턴 인식 문제임후속 작업이 필요함 (차원 축소, 클러스터링, 이상 탐지)고차원 데이터를 축소하여 새로운 feature 생성, 시각화 및 지도 학습과 연

10/21 5, 6, 7세션

10/22 4, 5, 6, 7세션

10/30 1, 2, 3세션뇌 세포 (뉴런) 은 다음 뉴런과 연결되는데, 학습을 통해 연결의 강도를 조정 (가중치)인공신경망 : 신경망을 인공적으로 구현보편 근사 정리 : 어떤 연속 함수든, 모두 뉴럴넷으로 구현할 수 있다생성형 AI의 기본은 Transformer 구조

10/31 2, 3, 4세션Hidden Layer 에서 무슨 일이 일어나는가?Hidden Layer의 계산된 값 (Z1, Z2 등)은 내부의 정보를 가지고 만든 값이진 분류에서는 모델 생성 시 activation을 sigmoid 로 설정값을 0과 1 사이의 확률로 변환

11/1 4, 5, 6, 7세션파라미터 수가 많을 수록복잡하다연결이 많다GPT 3.5의 파라미터 수는 1750억 개과적합을 줄이기 위해 사용되는 정규화 기법훈련 배치에서 랜덤하게 선택된 일부 뉴런 제거모델 생성 시에 Dense 다음에 넣음하이퍼파라미터다TIP! 최근 D
11/1 7세션 A. 모델 저장 B. 체크포인트에 모델 저장 savebestonly=True : 이전보다 성능이 개선되었으면 저장 즉, 제일 마지막에 저장된 것이 최고 성능을 가진다. C. 복습

11/4 2, 3, 4세션input_shape : 분석 단위인 이미지 한 장의 크기흑백: 1, 컬러: 3Conv2d : 필터로 지역적인 특성을 뽑는 과정CNN 자체가 Convolution(합성곱) nurel netMaxPooling : 1차원으로 펼침

11/5 2, 3, 4세션GPT 3.5 버전은 학습된 데이터로만 답변할 수 있었다GPT 4버전부터는 추가 학습 : 파인 튜닝추가 정보 제공 : RAG추가적인 학습을 통해 성능 향상학습하지 않아도 웹에서 검색해와서 답변해줌

11/8분류에 지역화 문제를 합침Class Classification : 이미지 분류Bounding Box : 개체 박스 그리기IoU : 박스가 얼마나 겹쳐있는 지 (정답 박스와 예측 박스가 완전 일치하도록)Confidence Score : 박스 안에 진짜 개체가 있을

11/8 5, 6, 7세션트레이닝 할 이미지를 찾는다. 100개 이상새로운 Project를 만들고 이미지를 업로드 한다.라벨링을 한다.모델을 학습시킨다. (Augmentation, train-val 사이즈 지정 등 수행)만든 모델을 다운로드 받는 코드를 복사한다.코랩에

2024/11/25 1, 2, 3 세션장원석 강사님인프라란? 기반 시설IT 인프라란? IT 를 사용하기 위한 기반 시설네트워크, 서버, DB, 보안, 시스템 소프트웨어 등의 자원하드 웨어 : 눈에 보이는 물리적 장비PC, 모니터, 하드디스크, CPU, Memory, 서

11/25 5, 6, 7세션IP 주소는 32bit의 2진수로 구성2진수를 32bit 4개의 octet 으로 나눈 후, 각 octet(1byte) 를 이루는 이진수를 십진수로 변환각 십진수는 점을 통해 구분첫번째 옥탯으로 네트워크 주소 표현, 나머지로 host 주소 표현

2024.11.27 2, 3, 4세션서버 == 제공자클라이언트의 요청에 응답하여 데이터를 보내주는 컴퓨터 또는 시스템서버팜컴퓨터와 서버 등 운영에 필요한 시스템을 한 곳에 모아 놓은 곳외부에서 허가되지 않은 접근은 차단DMZ 비무장지대보안 지역과 비보안 지역 사이의 중

2024.11.28 4, 5, 6, 7세션컴퓨터, 서버 등의 데이터를 저장하는 저장소PC 의 하드디스크, USB, 기업용 스토리지 등Tape, HDD, SDD, NVMe 등Direct Attached Storage서버와 저장 장치를 직접 연결하여 사용하는 방식 Netw

2024.11.28 5, 6세션보안의 유형네트워크 보안, 인터넷 보안, 엔드포인트 보안, 클라우드 보안, 애플리케이션 보안미리 정의된 보안 규칙에 의해 들어오고 나가는 네트워크 트래픽을 모니터링, 제어서로 다른 네트워크를 지나는 데이터를 허용, 거부, 검열하는 기능을

2024.11.29 2, 3세션비즈니스 환경 분석기능 요구사항 분석서비스 요구사항 분석아키텍쳐 요구사항 검토 및 확정

2024.12.02 1, 2, 3세션고객 / 사용자 중심, 변화에 민첩 / 유연한 대응, 지속적인 차별화 / 혁신이 포함.데이터 기반의 고객 경험 향상, 혁신(기술, 프로세스)을 위한 지속적인 노력을 함단순한 기술 업그레이드 X / 조직, 업무, 기술 전반의 통합적인

2024.12.02 5, 6, 7세션권한이 없는 사용자의 클라우드 접근 및 요청을 차단Identity & Access ManagementWHOCAN ACCESSWHAT모든 권한을 가진 유저기본적으로 만들어지는 권한필요한 최소한의 권한만 할당하여 사용하는 유저IAM 그룹

2024.12.03 1, 2, 3세션하나 이상의 데이터센터로 구성된 인프라전용 선을 통해 다른 가용 영역과 상호 연결. 여러 개의 가용 영역으로 구성된 인프라아마존의 경우 서울 리전이 4개의 가용 영역으로 구성최종 사용자에게 가까운 위치에서 더 짧은 지연 시간으로 콘텐

2024.12.03 3, 4세션AWS의 가상머신 (인스턴스)다양한 인스턴스 유형 제공스탑 없이 용량 조정 및 확장 지원적절한 요금 옵션 선택 지원key-value 형태로 지정, 대소문자 구분용도, 소유자, 사용 환경 등을 지정지정한 태그에 따라 리소스를 빠르게 식별,

2024.12.04 1, 2, 3세션데이터를 블록 단위의 조각으로 나누어 저장네트워크 상에 스토리지 풀 들을 구성해놓고, VM 을 생성하면 네트워크 상의 스토리지에서 할당해줌. 통신을 통해 사용하는 방식대용량 트랜잭셔, 대규모 저장이 요구되는 어플리케이션 환경에 적합E

2024.12.04 3세션동적 스키마 구조를 가짐. 데이터 유형 및 추가가 용이함다른 구조의 데이터를 하나의 컬렉션(table) 에 추가할 수 있음데이터 중복 발생 가능성 있음key-value, document, graph, columnar 등의 형태를 가짐

2024.12.06 1, 2, 3세션코드 기반으로 작성한 템플릿을 통해 AWS 리소스를 자동으로 생성하여, 리소스 프로비저닝 및 관리 시간을 줄이고 앱 개발에 더 많은 시간을 활용하도록 함.필요한 AWS 리소스를 템플릿 파일로 작성하면, 이를 분석해서 리소스로 생성함

2024.12.09 1, 2, 3세션사업 이해 -> 환경 분석 -> 표본 고객 Pain Point 분석 -> 전략 수립 -> 가치 제안고객중심 : 가치관리중심 : 효율성과 효과성고객 가치가 무엇인지 정의 (분석)창출 (서비스 컨셉 정의, 생산 등)전달 (정보 전달(마케

2024.12.10질문 형태로 정의보유 자료를 바탕으로 규모를 추정오래된 자료와 시장에 영향을 미치는 요소들 중심으로 추청Where to competeWhat to competeHow to competeWhen to compete1차 : 인터뷰2차 : 가공직접 조사전문