
이제 부터 공부 다시 시작하며, 내가 원하는 개발자에 한걸을 가기 위한 다짐과 회고

문자열 포멧팅, immutable VS matable, 리스트 커프리헨션, 딕셔너리, 튜플 팩킹 & 언팩킹, 네임드튜

함수와 클래스

python 이터러블, 이터레이터, 제너레이터의 정리

클로저, 데코레이터 차이 알기! 🟡클로저(Closure) 클로저는 외부 함수의 변수를 내부 함수가 참조하고 있을 때, 외부 함수가 종료되어도 해당 변수에 접근할 수 있는 함수이다.

오늘은 크롤링하는 방법을 배웠기때문에 코드가 많을 예정이다velog에는 간단한 문법적인 이야기만 적을 것이고 자세한 코드는 깃허브에 정리할 예정이다.

🟡그래프 그리기(히스토그램) 공공데이터 사용해 그래프 시각화하기 기상자료개방포털 [기후통계분석] - [기후분석] - [기온분석] -[csv 다운로드] 공공데이터들은 한국어가 있을수 있으므로 한글 깨짐 방지 하기 다운받은 csv파일은 무조건 한번은 확인한다. 결측치 확인 필요없는 데이터 확인 데이터 자료형 확인 다운로드 받은 파일은 확인을...

Merge VS Join ➡️공통점 | 공통점 | 설명 | | ----------- | ------------------------------------ | | 병합 기능 | 두 개

Plotly express / graph_object express: 완성형 보편적인 그래프를 그릴수 있다. graph_object: 내가 원하는데로 그래프를 커스터마이징할 수 있다. 그래프의 내용을 자세히 나타내고 싶으면 graph_object를 사용하는게 좋다

Pandas - plotly

seaborn의 penguins 데이터셋을 활용하여 펭귄 종별 체중(body_mass_g) 분포를 시각화했다.plotly.express를 사용하여 Box Plot과 개별 관측값 포인트를 함께 그려줌으로써, 각종의 체중을 분석 했다.

Streamlit streamlit 이란? Streamlit은 파이썬 코드만으로 웹 애플리케이션을 손쉽게 만들 수 있는 오픈소스 프레임워크이다. 머신러닝, 데이터 분석, 데이터 시각화를 진행할 때 대시보드를 빠르게 만들고 싶을 때 유용하다.

1인 지역총소득 데이터 자료 : kosis kosis에서 받은 자료는 기존에 라이브러리에서 불러온 자료들과 정리해야할 내용들이 많다. 나는 엑셀로 불러와서 자료를 최대한 다듬은 다음에 csv파일로 변환하는게 분석, 시각화 하는것이 편하다고 생각한다. streamlit 상의 데이터 시각화 원하는 지역 데이터 비교 user_input 으로 받은 도시...

🟡 SQL 데이터 추가 ` 컬럼명 별명으로 변경 조건절 case를 사용해 조건절을 사용한다 WHEN MM = '01' THEN 'Jan.' WHEN MM = '01' -> 월이 01일때 / THEN 'Jan.' -> Jan으로 변환 
주민등록인구및세대현황 행정구역, 총 인구수 확인 where 행정구역 like '서울특별시 종로구%' : like 로 검색할 수 있다. 행정구역이 '서울특별시 종로구%'를 검색해라 대전광역시 구단위 TOP3 <img src="https://velo

관계형 데이터베이스(RDB)의 한계복잡한 데이터 관계를 처리할 때 비효율적이며, JOIN 연산이 많아질수록 성능 저하가 발생합니다.그래프 데이터베이스의 장점데이터 간의 관계를 직관적으로 표현할 수 있어 인사이트 도출이 용이합니다.노드와 관계를 통해 실시간으로 데이터 구

Sage Cell Server 목차 선형연립방정식 REF, RREF 가우스-조던 소거법 1 가우스-조던 소거법 2 행렬의 연산 행렬 곱 전치 행렬 가역과 역행렬 역행렬과 선형연립방정식 특수 행렬 (반)대칭 행렬 LU 분해 치환과 반전 1. 선형연립방정식 $$ \begin{cases} x + y = 3 \\ 2x - y = 0 \end{cases} $$...

확률통계 & 주성분분석(PCA) 완전 정리 1. 순열(Permutation)과 조합(Combination) 🔹 순열 (Permutation) 순열은 서로 다른 n개의 항목 중 r개를 뽑아 순서를 고려하여 배열하는 경우의 수를 말합니다. 즉, 같은 항목이라도 순서가 다르면 다른 경우로 봅니다. 예: A, B, C 중 2개를 순서 있게 뽑을 경우 → ...

정의: 각 노드가 데이터와 다음 노드의 참조를 가지는 자료구조종류:단일 연결 리스트이중 연결 리스트원형 연결 리스트특징:삽입/삭제가 빠름 (O(1) 위치만 알면)인덱스 접근은 느림 (O(n))정의: 후입선출(LIFO) 구조의 자료구조기능:push (데이터 추가)pop

트리(tree) 이진트리 용어 | 용어 | 설명 | 예 | | --- | --- | --- | | 노드 (Node) | 트리의 각 요소 | A, B, C 등 | | 간선 (Edge) | 노드끼리 연결하는 선 | A–B, A–C | | 깊이 (Depth) | 루트에서

결정트리 결정트리(Decision Tree)는 데이터를 분류하거나 예측할 때 사용하는 지도 학습 알고리즘입니다. 나무(Tree) 구조를 이용해 의사결정 규칙을 모델링하며, 각 노드(Node)는 특정 조건, 가지(Branch)는 조건의 분기, 잎(Leaf Node)은

알고리즘

머신러닝(Machine Learning)은 컴퓨터가 명시적인 프로그래밍 없이 데이터를 통해 학습하고, 스스로 예측하거나 판단할 수 있도록 만드는 기술입니다. 즉, 사람이 일일이 규칙을 짜지 않아도 컴퓨터가 경험(데이터)을 통해 패턴을 학습하고, 미래를 예측하는 것입니다

1️⃣ 모델 진단 (Model Diagnosis) 모델 진단은 머신러닝 모델의 성능 저하 원인을 분석하고, 적절한 개선 방향을 찾기 위한 과정입니다. 주요 목적 모델이 과적합인지 과소적합인지 판단 데이터 추가 또는 모델 구조 변경 여부 결정 주요 지표 훈련 오

K-평균(K-Means)은 비지도 학습(Unsupervised Learning) 알고리즘으로, 데이터를 유사한 특성끼리 K개의 군집(Cluster)으로 나누는 군집화(Clustering) 기법입니다.데이터를 K개의 중심(centroid)을 기준으로 묶고, 중심이 군집의

이상탐지 시스템은 정상 패턴과 다른 이상한 데이터(이상치)를 자동으로 식별하는 머신러닝 시스템입니다.신용카드 부정 거래, 제조 공정의 결함, 네트워크 공격, 의료 이상 징후 탐지 등 다양한 분야에서 활용됩니다.일반적인 데이터 패턴에서 벗어난 예외적인 데이터를 식별하는

머신러닝 모델의 과적합을 방지하고 일반화 성능을 향상시키기 위해 정규화(Regularization) 기법이 사용됩니다.이 중 L1 정규화와 L2 정규화는 대표적인 두 가지 방식입니다.정규화는 모델이 훈련 데이터에 과적합(overfitting) 되지 않도록모델의 복잡도를

부스팅(Boosting)은 약한 학습기(weak learner)를 여러 개 결합하여 성능이 좋은 강한 학습기(strong learner)를 만드는 앙상블 학습 기법입니다.아이디어: 이전 모델이 틀린 샘플에 가중치를 더 부여하여 다음 모델이 이를 잘 학습하도록 함기반 모

train.csv : 모델 학습용test.csv : 학습된 모델로 예측할 데이터각 컬럼의 데이터 타입, 결측치 유무, 샘플 수 등을 확인하여 데이터 구조를 파악합니다.occyp_type 컬럼의 결측치가 많아, 분석에서 제외했습니다. One-Hot Encoding대시

🔍 목표: 부동산 거래 데이터를 이용한 거래 금액 예측 회귀모델 구축이 프로젝트는 다음과 같은 단계로 진행됩니다:데이터 로드 및 탐색EDA(탐색적 데이터 분석)결측치 처리 및 전처리회귀 모델 구축 및 평가train.csv: 학습용 데이터셋test.csv: 예측용 데이

kaggle data linkKaggle의 Heart Failure Prediction Dataset을 활용하여 환자의 여러 생체 신호와 검사 결과를 기반으로 심장 질환 여부(HeartDisease)를 예측합니다.StandardScaler는 데이터를 표준 정규 분포로

도서대출 시스템 외래 키(Foreign Key) 어떤 테이블이 다른 테이블의 기본키(Primary Key) 값을 참조할 때 사용하는 열(컬럼) FOREIGN KEY (userid) REFERENCES Users(userid) FOREIGN KEY (bookid) R

시그모이드 함수 지도 학습과 비지도 학습의 차이 1. 기본 개념 | 구분 | 지도 학습 (Supervised Learning) | 비지도 학습 (Unsupervised Learning) | | -- | --------------------------- | -----

자연어처리(NLP)에서 원시 텍스트를 머신러닝 모델에 입력하기 위해서는 먼저 전처리(Preprocessing)가 필요하다. 그 중 핵심은 다음 세 가지다:Tokenization (토큰화)Cleaning & Normalization (정제 & 정규화)Stopwords r

프로그래밍 방식은 사람이 규칙을 정의함예: 고양이 vs 강아지 이미지 분류조명, 각도, 배경 등 수많은 변수로 인해 하드코딩 방식은 불가능실제론 사람이 규칙을 정의하지 않고, 기계가 규칙을 학습하도록 함 → 머신러닝Train (훈련 데이터)\*: 모델이 학습하는 데이터

퍼셉트론은 생물학적 뉴런을 모방한 인공 뉴런 모델로, 입력의 가중합을 계산한 뒤비선형 활성화 함수를 통해 출력을 생성하는 기초적인 신경망 구조입니다.

RNN은 시퀀스(Sequence) 데이터를 처리하기 위한 인공 신경망이다.입력과 출력 모두 시퀀스 구조인 자연어 처리, 번역, 챗봇 등에 적합하다.일반적인 신경망과 달리, 이전 시점의 출력을 현재 시점의 입력으로 사용한다.대표적인 시퀀스 모델에는 RNN 외에도 LSTM

Machine Translation은 한 언어로 된 문장을 다른 언어로 자동으로 번역하는 자연어 처리 기술입니다.예:I am a student. ⟶ Je suis étudiant.입력과 출력 시퀀스의 길이가 다를 수 있음Seq2Seq 구조를 기반으로 함대규모 병렬 코퍼

논문 제목: Neural Architectures for Named Entity Recognition저자: Guillaume Lample et al. (CMU)학회: ACL 2016언어별 feature engineering 없이 작동하는 범용 NER 모델 제안소규모 s

논문 제목: Neural Machine Translation by Jointly Learning to Align and Translate저자: Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio기존 Encoder–Decoder 구조에서

Transformer는 2017년 논문 "Attention is All You Need" 에서 소개된 모델로,RNN 없이도 시퀀스 데이터를 병렬로 처리할 수 있게 만든 딥러닝 구조입니다.핵심은 Self-Attention 메커니즘을 이용해 각 단어가 문장 내 다른 모든

BERT KorNLI / 감성분류 / 개체명 인식 ✅ BERT를 활용한 KorNLI (자연어 추론) 📌 문제 정의 KorNLI는 카카오브레인이 공개한 한국어 NLI 벤치마크 데이터셋입니다. 주어진 두 문장 간 관계를 판단하는 다중 클래스 분류 문제입니다. en

문서(본문)와 질문을 입력으로 받아 정답이 포함된 문장 내 시작/종료 위치를 예측하는 작업대표적인 자연어 이해 태스크인 질의응답 (Question Answering, QA) 문제한국어 기반 QA 데이터셋 (context, question, answer 구성)정답의 위치

문장 이해(NLU) 에 특화됨 양방향 문맥을 반영 예시 작업: 텍스트 분류, 개체명 인식 등 문장 생성(NLG) 에 특화됨 왼쪽 → 오른쪽으로 다음 단어 생성 예시 작업: 요약, 번역, 챗봇 응답 등 인코더가 문장을 이해, 디코더가 문장을 생성 이해 + 생

PDF 로딩 및 분할텍스트 분할(Text Splitting)임베딩 생성FAISS 벡터 DB 구성LLM 연결(OpenAI)Gradio 인터페이스 연결📌 이유:해당 PDF는 "용어 - 대체어 - 설명" 형태로 구성되어 있음너무 큰 chunk는 각 용어가 섞여버리는 문제가

RAG (Retrieval-Augmented Generation) 모델은 전통적인 생성형 챗봇(Generator)에 지식 검색기(Retriever)를 결합한 하이브리드 구조입니다.Retriever: 벡터 데이터베이스에서 관련 문서를 검색Generator: 검색된 문서를

RAG는 문서를 검색한 후, 검색된 문서들을 기반으로 LLM이 최종 응답을 생성하는 구조입니다.이 구조의 성능을 개선하는 대표적 기법 3가지는 다음과 같습니다:1\. LLM 기반 리랭킹 (Re-ranking with LLM)2\. 크로스 인코더 기반 리랭킹3\. HyD

네거티브 샘플(Negative Samples)모델이 관련 없는 문서를 걸러내도록, 답이 포함되지 않은 검색 결과를 ‘네거티브 샘플’로 학습 데이터에 포함합니다.예: “한글을 창제한 조선의 왕은?”에 대해 검색된 ‘장영실’, ‘이순신’, ‘이방원’ 문서는 네거티브 샘플입

정의: 대규모 언어 모델(LLM)과 멀티모달 모델의 추론 속도와 메모리 효율을 극대화한 오픈소스 추론 엔진.목적: 학습된 모델을 더 빠르고 효율적으로 서비스 환경에서 추론 가능하게 함.주요 특징PagedAttention GPU 메모리를 효율적으로 관리하여 대규모 co

단어의 의미(semantic)를 반영하지 못하는 DTM, TF-IDF의 한계를 극복하기 위해 제안된 방법DTM 또는 TF-IDF 행렬에 특이값 분해(SVD) 를 적용하여 문서와 단어의 잠재 의미를 저차원 공간에 표현LSA는 원래 정보 검색을 위한 방법이지만, 토픽 모델

BERTopic은 BERT 임베딩과 c-TF-IDF(클래스 기반 TF-IDF)를 활용하여 문서 집합에서 토픽을 효과적으로 추출하는 토픽 모델링 기술입니다. 기존의 LDA와 같은 모델을 뛰어넘는 성능으로 많은 주목을 받고 있습니다.BERTopic의 핵심 알고리즘은 다음과

GPT-5, 인공지능의 새로운 지평을 열다 2025년 8월, OpenAI가 최신 거대 언어 모델인 GPT-5를 공개하며 인공지능 기술의 새로운 장을 열었습니다. 이번에 공개된 GPT-5 시스템 카드는 단순히 성능 향상을 넘어, 사용자의 요구에 더욱 정교하고 안전하게

LangChain 구성요소(프롬프트, 모델, 출력 파서 등)를 파이프라인처럼 연결해 한 번에 실행하는 문법이다. | 연산자로 “입력 → 프롬프트 → 모델 → 파서” 흐름을 만든다.파이프 연산자 |: 앞 단계 출력을 다음 단계 입력으로 넘기는 방식이다.예) chain

🧠 LangChain OutputParser 🔍 OutputParser 종류별 요약 1. PydanticOutputParser 📦 역할: LLM 응답을 Pydantic 모델에 맞게 파싱 🔧 타입 안전성, 자동 유효성 검사 제공 LLM 응답이 이 구조에 맞

Memory는 LangChain에서 이전 대화 내용을 저장하고 불러오는 기능이다. 대화의 흐름을 기억하여 자연스럽고 일관된 응답을 생성할 수 있게 도와준다.사용자와의 대화를 문맥에 맞게 이어나가기이전 발화를 기억해 "그 사람이 뭐라고 했지?" 같은 질문에 응답 가능Do

기본은 VectorStoreRetriever로 시작하고,한국어 키워드 매칭 보완은 Kiwi-BM25와 Ensemble,질문이 애매하면 MultiQuery,긴 문서 맥락은 ParentDocument,토큰 절약은 ContextualCompression(+ 필요시 LongC