
1.1 머신러닝이란?1.2 왜 머신러닝을 사용하나요?1.3 애플리케이션 사례1.4 머신러닝 시스템의 종류1.4.1 훈련 지도 방식지도 학습비지도 학습준비도 학습자기 지도 학습강화 학습1.4.2 배치 학습과 온라인 학습배치 학습온라인 학습1.4.3 사례 기반 학습과 모델

출처 1.1 머신러닝이란? 머신러닝은 데이터에서 학습하도록 컴퓨터를 프로그래밍하는 과학(또는 예술)입니다. 일반적인 정의 머신러닝은 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야다. - Arthur Samuel, 1959 공학적

목표: 캘리포니아 인구조사 데이터를 바탕으로 캘리포니아의 주택 가격 예측 모델을 개발.데이터 특징캘리포니아의 블록 그룹(block group) 단위별로 인구, 중간 소득, 중간 주택 가격 등의 데이터를 포함.블록 그룹: 미국 인구조사국에서 사용하는 최소한의 지리적 단위

사이킷런은 파이썬 기반의 머신러닝 라이브러리로, 단순한 사용법과 폭넓은 알고리즘 지원을 제공.머신러닝 전 과정(데이터 전처리, 학습, 평가, 하이퍼파라미터 튜닝)을 지원.딥러닝(신경망)은 지원하지 않지만 대부분의 전통적인 머신러닝 모델을 제공.다양한 알고리즘 지원선형

참고

출처
https://tensorflow.blog/%ed%95%b8%ec%a6%88%ec%98%a8-%eb%a8%b8%ec%8b%a0%eb%9f%ac%eb%8b%9d-1%ec%9e%a5-2%ec%9e%a5/

출처 Rerank 란? Rerank는 검색 결과의 순위를 재조정하는 과정을 말합니다. RAG 시스템에서 Rerank는 초기 검색 결과에서 가져온 문서들의 순위를 다시 매기는 역할을 합니다. 이를 통해 사용자의 질문과 가장 관련성 높은 문서들을 상위에 배치
http://wikidocs.net/book/13311

참고Machine Learning 은 주어진 X와 Y데이터를 이용하여 모델 F(x)를 추론하는 과정이라고 배웠다.그렇게 모델 F(x)를 추론하고 나면 새로운 데이터 X가 주어졌을 때, 모델에 입력 X를 넣어서 출력 Y값을 예측 할 수 있다.결국 Machine Learn

출처

FrozenLake는 OpenAI Gym에서 제공하는 강화학습 환경 중 하나로, 간단한 그리드 기반 게임입니다. 에이전트가 얼어붙은 호수에서 미끄럽지 않은 곳을 지나 목표 지점(Goal)에 도달하는 것을 목표로 합니다. 에이전트는 장애물(구멍, Hole)을 피해야 하며
피처 엔지니어링(Feature Engineering)은 데이터를 분석하고 모델링하기 전에 원시 데이터를 전처리하고 변환하여 모델이 데이터를 효과적으로 학습할 수 있도록 만드는 과정입니다. 이는 머신러닝 및 데이터 분석 단계에서 매우 중요한 역할을 하며, 좋은 피처 엔지

출처 선형 회귀 : 보험료 예측하기 라이브러리 및 데이터 불러오기 파이썬에서 데이터를 다룰 때 기본으로 사용되는 라이브러리인 판다스(pandas)를 불러오겠습니다. 라이브러리를 불러오는 걸 프로그래밍 용어로 ‘임포트(한다)’라고 합니다. 판다스를 불러왔으니 데이

1. 릿지 회귀 (Ridge Regression) 릿지 회귀는 선형 회귀(Linear Regression)에 L2 정규화(Tikhonov 정규화)를 적용하여 오버피팅(Overfitting)을 방지하는 방법입니다. 기본 선형 회귀는 잔차(residual)를 최소화

출처 로지스틱 회귀 : 타이타닉 생존자 예측하기 영화 〈타이타닉〉으로 유명한 타이타닉호는 북대서양 횡단 여객선입니다. 모두가 아는 것처럼 1912년 4월 10일 영국의 사우샘프턴에서 미국의 뉴욕으로 향하던 첫 항해 중에 빙산과 충돌하여 침몰했습니다. 안타깝게도

출처
출처K-최근접 이웃(KNN) : 와인 등급 예측하기
출처이 글은 2024년 ICLR(국제 학습 표현 학회)에서 발표될 라이스대학교 AI 연구팀의 논문을 바탕으로, AI가 자체 생성 데이터를 반복적으로 사용해 새로운 AI를 학습시키는 방식의 위험성을 경고하는 내용입니다. 핵심 요점을 정리하면 다음과 같습니다.AI가 생성한
RAG(Retrieval-Augmented Generation)와 같은 “검색 기반 + 생성형 AI” 프레임워크에서, 동일 프롬프트를 반복 사용하거나 복사-붙여넣기 방식으로 반복 입력했을 때의 문제점을 MAD(MODEL AUTOPHAGY DISORDER) 현상, 그리고

Ollama 란?

LangChain은 최근 AI/데이터/서비스 개발에서 매우 인기 있는 오픈소스 프레임워크로, 대형 언어 모델(LLM), 다양한 툴, API, 문서 데이터, 데이터베이스 등 여러 AI 구성요소를 조합하여 실제 서비스나 응용 프로그램을 빠르게 개발할 수 있도록 도와주는 라
https://yozm.wishket.com/magazine/collection/69749/

참고

LangGraph는 LangChain 팀이 만든 "워크플로우(작업그래프)를 쉽게 만들고 제어할 수 있게 해주는 오픈소스 프레임워크"입니다.그래프(노드와 엣지) 형태로 LLM 기반 작업 플로우를 설계 → 기존 LangChain 체인(Chain) 기반의 '순서적 실행'을

출처

참고
https://www.samsungsds.com/kr/insights/artificial_general_intelligence_20240417.html

출처

temperature 란? temperature는 텍스트 생성 모델의 출력 다양성을 조절하는 하이퍼파라미터야. 쉽게 말해, "모험을 얼마나 할지" 결정하는 스위치라고 생각하면 돼. 낮은 temperature (예: 0.2) → 결정적이고 보수적인 출력: 가장
IBM watsonx의 기술 우위와 경쟁사(AWS Bedrock, Microsoft Azure AI, Google Vertex AI 등)와의 비교 분석 자료를 아래에서 요약 정리해 드리겠습니다.IBM watsonx: 오픈 소스(Delta Lake, Iceberg 등)와
Great question! Could you clarify what you're referring to with "this"? Are you asking about:This chat interface (what it's for)?A specific feature or
Actually,They can't make chart properly. right now.
Tip:data/train/정상/이미지A.jpg, data/train/불량/이미지B.jpg 폴더 구조로 준비되어 있어야 합니다.GPU 사용 여부는 torch.cuda.is_available()로 자동 적용 (GPU 있으면 훨씬 빠름)폴더 구조 및 이미지 준비상태 확인실
https://yozm.wishket.com/magazine/detail/3162/?utm_source=stibee&utm_medium=email&utm_campaign=newsletter_yozm&utm_content=contents
온디바이스 AI란 “클라우드(서버)로 보내지 않고, 내 스마트폰, AR Glass, IoT 등 각 사용자의 기기 내에서인공지능 알고리즘이 입력신호(음성, 텍스트, 영상, 센서 등)를 즉시/즉각/프라이버시 침해 없이처리·판단하는 기술, 그리고 이를 뒷받침하는 각종 경량

OpenAI Status 페이지는 OpenAI에서 제공하는 각종 서비스(예: ChatGPT, API 등)의 현재 서비스 상태(가용성 및 장애 상황 등)를 실시간으로 확인할 수 있는 공식 시스템 운영 현황 대시보드입니다.서비스 가용성 상태표시각 OpenAI 제품(예: P

Backpropagation은 신경망의 학습과정에서 “오차를 뒤로 전달해가며 가중치를 수정하는 기법”입니다.딥러닝이 엄청난 규칙 복잡성을 쉽게 학습할 수 있는 비결이기도 해요!Backpropagation은 인공신경망(딥러닝)의 학습 과정에서 오차(Error)를 네트워크

출처인공 신경망이 순전파 과정을 진행하여 예측값과 실제값의 오차를 계산하였을 때 어떻게 역전파 과정에서 경사 하강법을 사용하여 가중치를 업데이트하는지 직접 계산을 통해 이해해봅시다.인라인: $h = \\sigma(z) = \\frac{1}{1 + e^{-z}}$입력에서
보통 LLM(또는 외부 API)에 여러 번 ‘질문’을 보내야 할 때, 이 요청들을 여러 개의 작업 스레드/프로세스가 동시에 실행해서 대기시간을 최소화합니다.대량의 데이터 처리(예: 문서 수십만 건 임베딩화, FAQ 1000개 답변 생성)여러 사용자의 요청을 동시에 응답

출처주장 LLM(대형 언어 모델)과 LRM(대규모 추론 모델, 더 체계적인 단계적 사고에 특화된 버전) 모두 아주 복잡한 퍼즐(예: 하노이탑 고난이도 문제)에서는 정확도가 0%에 가까울 만큼 무력하다. 방법 하노이탑 등 네 가지 추론 퍼즐에서 다양한 난이도로 모델

최근(2022~2025년)의 스프링/스프링 배치/부트 공식 가이드, 그리고 업계에서 권장하는 방식을 최우선으로 고려합니다.즉, 생성자 주입(@RequiredArgsConstructor + final)이 표준이면 기본적으로 그걸 우선 제공합니다.질문자가 주신 기존 코드/

출처

출처용어는 비슷하지만 순환 신경망과 재귀 신경망(Recursive Neural Network)은 전혀 다른 개념입니다. RNN(Recurrent Neural Network)은 입력과 출력을 시퀀스 단위로 처리하는 시퀀스(Sequence) 모델입니다. 번역기를 생각해보
https://blogs.cisco.com/innovation/network-operations-for-the-ai-ageBefore your first meeting of the day, the alerts have already started. A bran
FAISSChromaPineconeWeaviate(기타: Qdrant, Milvus 등)아래는 Chroma + OpenAI Embeddings + LangChain Retriever 구현 예시입니다.LangChain의 Memory는 대화 기록이나 상태를 저장해 LLM이
사용자의 최근 번역 기록(질문/답변 쌍)을 저장해, 다음 번역에 참고하게 함 예: 사용자가 "그걸 영어로 다시 써줘" 등 맥락을 포함하는 요청 시 자연스럽게 처리사전에 등록한 “전문 용어/고유명사” 자료를 벡터DB(Chroma)에 저장 번역 전에 입력 문장과 유사한
최신 LangChain 파이프라인(LCEL) 구조인데, 여기에선 chain.memory = memory 코드가 오류를 만듭니다. (memory를 직접 장착할 수 없음)즉, 아래와 같이 메모리는 직접 연결하지 말고(이 줄을 제거!),필요하다면 대화 내역을 직접 con

본 메시지는 "코드 자체 에러"가 아니라, LangChain 최신버전(특히 0.2.x 부터)에서의 경고(DeprecationWarning)입니다.즉, “당장 망가지진 않지만, 코드에서 외부 라이브러리 import 방법을 곧 바꾸라는 의미” langchain 라이브러리

지금 코드에서는 “영어” 같은 단어만 입력하면, 그대로 번역(즉 ‘English’)이라는 결과를 주는데 의도하신 건 아마 만약 사용자가 “영어,” “일본어” 등 언어만 입력하면 최근 번역했던 문장·답(혹은 질문)을 해당 언어로 다시 번역또, glossary.txt의 전

사람이 쓰는 텍스트(단어, 문장, 문서 등)를 컴퓨터가 이해할 수 있는 숫자 벡터(고차원 숫자 배열)로 변환하는 것.이 숫자 벡터가 바로 “임베딩(embedding)”입니다.컴퓨터 입장에서는 ‘강아지’, ‘고양이’라는 글자만 보고 두 단어의 “의미적 유사성”을 알 수
LangChain에서 Memory는 LLM 기반 애플리케이션의 “대화 컨텍스트” 유지에 핵심적인 역할을 합니다. 기본적으로 ConversationBufferMemory(단순히 대화 이력을 모두 저장)를 가장 많이 쓰고, 더 스마트한 컨텍스트 관리가 많아질수록 Summ

출처
https://uppity.co.kr/category/cloumn/%ec%a0%84%eb%ac%b8%ea%b0%80-%ea%b8%b0%ea%b3%a0/economic-trends/%ed%9c%b4%eb%a8%b8%eb%85%b8%ec%9d%b4%eb%93%9c
출처새로운 밀레니엄을 앞둔 1999년 출간되어 벌써 25년이 지난 빌 게이츠의 명저 “생각의 속도”에서는 “새로운 테크놀로지를 이해하기 위해서는 바로 그 이전의 기술에 대한 이해가 필요하고, 그 흐름을 한 번 놓치면 생각의 속도는 영원히 뒤처진다.”라는 구절이 나오는데
AI가 실제 기업 실적 개선으로 이어진 대표적인 사례와 근거는 다음과 같습니다.아마존: AI 기반의 개인화 추천 시스템과 생성형 AI 도구를 물류, 쇼핑, 엔터프라이즈 서비스 등에 적극 활용하고 있습니다. 그 결과, 2025년 회계연도 2분기에 매출 235조 5천억원,

https://stibee.com/api/v1.0/emails/share/CfaMKfvaRo9uITS9DHgYmJANiwfpeDUBy. HEATHERⓒ 오픈AI🔎 핵심만 콕콕오픈AI가 2년 만에 인공지능 모델인 ‘GPT-5’를 공식 출시했습니다.GPT-5가
(QWEN: Tongyi Qianwen, Alibaba Cloud Open-Source LLM Series)QWEN(通义千问, Tongyi Qianwen)은 알리바바 클라우드가 개발한 오픈소스 대형 언어 모델(LLM) 시리즈로, 2023년 4월 베타 공개 후 같은 해
Vertical AI refers to artificial intelligence (AI) systems tailored for specific industries or domains, rather than being broadly applicable across va
Constitutional AI(CAI)는 Anthropic에서 개발한 AI 안전성 기술로, Claude가 더 신중하고 안전한 답변을 하도록 하는 핵심 기술입니다.개념적 구조도움성: 사용자에게 실질적 도움 제공무해성: "해로운 내용 생성 방지 정직성: "불확실한 정보에
https://news.hada.io/topic?id=17775https://www.gauge.sh/blog/ai-makes-tech-debt-more-expensiveAI Makes Tech Debt More ExpensiveThere is an e
레드햇이 제시하는 GPU 공유부터 MLOps 자동화까지의 AI 인프라 관리 전략을 실무 관점에서 정리해 드리겠습니다.아래 내용은 단순 요약이 아니라, 활용 방법·장단점·적용 시 주의사항을 포함한 실무 가이드 형태입니다.온프레미스·하이브리드·퍼블릭 클라우드 환경에서 GP

https://gruuuuu.hololy.org/ai/vector-store/https://devocean.sk.com/blog/techBoardDetail.do?ID=164964데이터의 묶음은 여러의미의 데이터들로 이루어진 경우가 많은데, 이를 특정
https://objectbox.io/vector-database/

VectorDB에서 유사도 계산은 쿼리 벡터(Query Vector)와 저장된 벡터(Stored Vector) 간의 거리(distance) 또는 각도(angle)를 측정하는 방식입니다. 대표적으로 Cosine Similarity, Euclidean Distance(L
여기 참고: 노름(Norm)벡터의 길이(유클리드 노름, Euclidean Norm)$|A| = \\sqrt{a_1^2 + a_2^2 + ... + a_n^2}$특징: 각 차원의 값이 클수록 크기 증가예$A = 1, 1$ → $\\sqrt{2} \\approx 1.414
그럼 가입 없이 바로 실행 가능한 Vector DB 예제를 만들어 드리겠습니다. FAISS (로컬 Vector DB, 가입 불필요) Hugging Face 무료 Embedding 모델 (sentence-transformers)즉, API 키도 필요 없고, 사이트 가
https://www.elastic.co/kr/blog/understanding-ann

LLM 및 AI 시스템에서 할루시네이션은 단순한 오류를 넘어 신뢰성, 안전성, 규제와 직결됩니다.특히 자율주행 같은 자동제어 영역에서는 물리적 안전 문제로 이어질 수 있으므로 다층적인 조정 전략이 필요합니다. 고품질 학습 데이터 강화: 신뢰성 있는 데이터셋으로 파인튜

오픈소스 업무 자동화 플랫폼드래그 앤 드롭으로 워크플로우 설계 가능400+ 서비스 연동 (Gmail, Slack, Notion, DB, API 등)셀프 호스팅 가능 → 데이터 보안 유리무료로 시작 가능, 필요 시 유료 클라우드 버전https://n8n.io 접
핵심 내용: 선형대수, 확률, 미적분활용 팁 CNN의 합성곱 연산은 행렬 곱으로 표현 가능 확률 분포를 이해하면 모델 출력의 신뢰도 해석 가능 핵심 내용: 데이터 → 모델 → 학습 → 추론활용 팁 데이터 전처리 품질이 모델 성능의 핵심 학습 시 Validatio

이 예제는 수학 기초, 모델 설계·학습, 최적화, 배포를 모두 포함합니다.MNIST 데이터셋: 28×28 픽셀의 손글씨 숫자 이미지 (0~9)선형대수: 이미지 → 행렬, CNN 합성곱 연산 이해확률: Softmax로 각 숫자 확률 계산미적분: 경사하강법으로 파라미터 업

OpenAI Embeddings 시각화 (PCA) OPEN AI Embeddings 활용 버전 >환경구성 > requirement.txt >.env OpenAI Embeddings 시각화 (PCA) 거리(distance) 판단 방식 예를 들어 지금 검색 결
감독 유무: 지도 / 비지도 / 준지도 / 강화학습 시간축: 배치 / 온라인일반화 방식: 사례 기반 / 모델 기반필요에 따라 조합 가능 (예: 온라인 + 지도 + 모델 기반 스팸 필터)입력–정답(레이블)으로 학습 (분류/회귀)알고리즘: k-NN, 선형·로지스틱 회귀,
기능: ChatGPT 내에서 상품 탐색 → 결제까지 한 번에 처리 (Stripe 기반 Agentic Commerce Protocol)현재 적용 범위: 미국 Etsy 단일 상품 구매확장 계획: 다중 장바구니, Shopify 등 타 플랫폼 지원 예정구조 변화: 기존 ‘검색
https://www.mk.co.kr/news/it/11412844발생 플랫폼: X(구 트위터)관련 AI: xAI의 챗봇 Grok공격 방식해커가 자극적인 성인 콘텐츠가 포함된 광고성 게시물 업로드해당 게시물에 Grok을 태그하고 “이 영상 출처가 뭐냐” 등 질
생산·운영 과정에서 바로 식별 가능하고, 해당 활동에만 발생하는 비용예시 (금융사 AI 도입 시) AI 소프트웨어 라이선스 비용 AI 서버·GPU 구매비 AI 모델 개발 인건비(프로젝트 전담팀 급여) 데이터 구매·수집 비용활용 포인트 ROI(투자수익률) 계산

NVIDIA V100(Volta)와 H100(Hopper) GPU는 모두 데이터센터·AI·HPC(고성능 컴퓨팅)용이지만, 세대 차이가 크고 성능·아키텍처·지원 기능에서 큰 차이가 있습니다. V100: 대규모 모델 학습 가능하지만, 최신 대형 모델(예: GPT-3 이상

https://developer.nvidia.com/ko-kr/blog/nvidia-hopper-architecture-in-depth/

학습 없이 → 이미 학습된 PyTorch 모델 사용 (속도 절약)모델 구조 단순화 → 작은 CNN (Conv 1개 + FC 2개)ONNX 변환은 FP32 → 변환 호환성 100%ONNX Runtime에서 양자화 → CPUExecutionProvider에서 동작FastA

Pytorch 한국 사용자 모임: https://pytorch.kr/

https://medium.com/@enerzai/onnx-%EB%84%88-%EB%88%84%EA%B5%AC%EC%95%BC-who-are-you-5c1435b997e2

각 데이터의 구조·정보 표현 방식이 다르기 때문에, 텍스트로 변환하는 과정과 사용하는 모델이 달라집니다. 데이터 구조 차이 이미지: 픽셀 기반 → 시각적 패턴 인식 필요 표: 행·열 구조 → 구조화된 텍스트 변환 필요 오디오: 시간축 + 음성 → 음성 인식(ST

핵심 개념 설명epoch: 전체 데이터셋을 한 번 모두 학습하는 주기(예: MNIST 60,000장을 5번 학습 → 5 epochs)batch: 한 번에 학습하는 데이터 묶음 (여기선 64개)iteration: 한 epoch 내에서 batch 단위로 반복되는 횟수(60

https://velog.io/@corone_hi/epochs-%EB%9E%80딥러닝 모델을 학습할 때, epochs와 batch_size는 학습 방식에 큰 영향을 미칩니다.이 두 매개변수는 데이터가 모델에 어떻게 전달되고, 모델이 얼마나 자주 가중치를 업데이

신경망(Neural Network) 신경망은 인간의 뇌가 수많은 신경세포(뉴런) 들이 서로 연결되어 정보를 주고받는 구조를 모방한 수학적 모델입니다. 뉴런들은 입력 신호를 받아 가중치(Weight) 를 적용한 후, 활성화 함수(Activation Function)

https://wikidocs.net/163752
Reducing input and output features is at the core of model design and optimization. Your model’s first layer (nn.Linear(784, 128)) takes 784 features,

https://mobuk.tistory.com/88 Needleman-Wunsch 알고리즘 Sequence Alignment는 한국어로 '서열 정렬'이라고 한다. 이에 대해 검색을 해보면 주로 '생물정보학'에서 DNA, RNA 사이의 기능적, 구조적 상관관계를

https://mobuk.tistory.com/90



https://wikidocs.net/203720

온톨로지(ontology) 란 “특정 분야에서 존재하는 개념들과 그 관계를 명시적이고 형식적으로 정의한 개념 체계” 를 말합니다.즉, 어떤 도메인(예: 의료, 법률, 교육, 교통 등)에서무엇이 존재하는지(개념),그것들이 어떻게 연결되는지(관계),어떤 규칙이 적용되는지(
https://www.linkedin.com/pulse/did-you-know-what-really-need-ontology-mark-hall?utm_source=share&utm_medium=member_ios&utm_campaign=share_viaDid

신경망은 역전파(Backpropagation)를 통해 손실함수의 기울기를 계산하고, 그 기울기를 사용해 가중치를 업데이트한다.따라서 활성화 함수의 기울기(미분값)가 안정적으로 잘 전달되는지는 학습 가능성 자체를 좌우한다.역전파에서 가중치 업데이트는 다음과 같이 계산된다

생물학적 타당성(Biological plausibility): 관찰된 현상이나 연구 결과가 기존 생물학·생리학·의학 지식과 일관되게 설명될 수 있는 정도를 의미한다.→ 단순 통계적 상관관계가 아니라, 실제 기전(mechanism) 으로 설명 가능한지 평가하는 기준이다.

Transformer는 2017년 Google의 논문 “Attention Is All You Need” 에서 제안된 구조로,순차적 처리를 기반으로 하던 RNN, LSTM을 병렬적 Self-Attention 메커니즘으로 대체하며대규모 학습과 긴 문맥 이해를 가능하게 한

ChatGPT 이후 AI 기술 발전사https://blog.naver.com/fstory97/223862431036?trackingCode=rss
https://forest62590.tistory.com/48

https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc?hl=ko#:~:text=ROC%20%EA%B3%A1%EC%84%A0%20%EC%95%84%EB%9E%9

https://www.nb-data.com/p/comparing-model-ensembling-bagging업로드중..
https://wikidocs.net/book/7188

https://openai.com/ko-KR/index/wrtn/https://brunch.co.kr/@ghidesigner/184페르소나 기법은 거대언어모델(LLM)이 특정 인물(전문가, 사용자, 이해관계자)의 역할을 시뮬레이션하도록 프롬프트를 설계

https://grokimagine.ai/ko

https://brunch.co.kr/@plutoun/187

https://sacko.tistory.com/10
https://ahha.ai/ Products > These names are so cute. DAISY Data CAMP LISA AIモデル性能最大化のための実務ガイド >アハラボ(AHHA Labs)のアプローチを参考に、AIモデルの性能を最大化するためのデータ品質

https://medium.com/@piyushkashyap045/understanding-precision-recall-and-f1-score-metrics-ea219b908093
https://yozm.wishket.com/magazine/detail/3459/
!youtubez6hSWfBGmoc
계층적 샘플링(Hierarchical Sampling 또는 Stratified Sampling)은 모집단을 특정 기준(계층, 층, Strata)으로 나눈 뒤, 각 계층에서 샘플을 추출하는 방법입니다. 예: 고객 데이터를 성별, 연령대, 지역 등으로 나누고 각 그룹에서
데이터셋을 학습용(train), 검증용(validation), 테스트용(test)으로 나누는 도구 또는 알고리즘입니다. 올바른 분할은 모델 성능의 신뢰도와 일반화 능력 평가에 매우 중요합니다.대표 예 train_test_split KFold, StratifiedK
상관관계(Correlation)는 두 변수 간의 선형적 관계의 강도와 방향을 나타내는 통계 개념입니다. 양의 상관관계: 한 변수가 증가하면 다른 변수도 증가하는 경향 음의 상관관계: 한 변수가 증가하면 다른 변수는 감소하는 경향 0에 가까움: 선형 관계가 거의 없
학습된 모델이 X_test의 각 샘플(행)을 입력받아 예측 라벨을 생성함.모델 종류별 예측 방식 예결정트리(Tree): 분기 기준을 따라 내려가 리프 노드의 클래스를 선택로지스틱회귀(Logistic Regression): 시그모이드로 확률 계산 후 임계값 0.5 기준으
머신러닝 → 트리 계열 → 랜덤포레스트 → predict 방식머신러닝 → 선형 계열 → 로지스틱 회귀 → predict 방식딥러닝 → CNN → predict 방식시계열 → ARIMA → predict 방식 데이터의 규칙을 통계적/수학적으로 학습해트리, 회귀, 거리
StratifiedKFold를 사용하는 목적은 다음과 같습니다.단순한 Train/Test split은 데이터 분할의 운(luck)에 따라 성능이 달라짐 교차검증은 여러 번 나누어 훈련/검증을 반복한 뒤 평균을 내서 보다 객관적이고 안정적인 모델 성능을 측정할 수 있음
pandas DataFrame 은 모든 컬럼의 길이가 동일해야만 생성됩니다. 길이가 다르면 에러(ValueError)가 발생합니다. 모델 입력(X)과 라벨(y) 의 개수도 반드시 동일해야 합니다. 다르면 학습 자체가 불가능합니다.예를 들어 age 가 8개, inco
예:income 와 annual_salary 의 상관관계가 0.95 → 사실상 같은 변수 두 개.이런 변수가 여러 개 있으면 모델이 불필요한 변수에 가중치를 주고 노이즈가 늘어나고 과적합 위험이 올라감.실무에서는 보통피처 상관 > 0.8 이면 하나 제거하는 경우
XGBoost는 구조적 데이터 환경에서 성능, 안정성, 운영 편의성이 검증된 모델입니다.XGBoost는 다음과 같은 테이블형 데이터에서 성능이 안정적으로 높게 나옵니다.E-commerce 수요/전환 예측 고객 이탈(Churn) 금융 리스크 모델 추천·스코어링 모델

RMSE는 예측값과 실제값 간의 차이를 제곱한 뒤 평균을 구하고, 그 평균값에 제곱근을 취한 값입니다. 수식$\\text{RMSE} = \\sqrt{\\frac{1}{n} \\sum\_{i=1}^{n} (y_i - \\hat{y}\_i)^2}$$y_i$: 실제 값$\

https://wikidocs.net/154073 1. df.pivot_table() pivot_table()은 그룹 집계(aggregation) + pivot 변환을 한 번에 처리하는 pandas 함수입니다. 복잡한 집계를 단 한 줄로 처리할 수 있어 분석/리포

분류(Classification), 피벗 예제 회귀(Regression), 피벗(pivot) 테이블 시계열(Time Series), 15분 resample

Pandas에서 데이터 작업의 핵심은 행/열을 어떻게 선택하느냐이다. 그중 가장 많이 쓰는 인덱싱 도구는 아래 네 가지:loc → 라벨(label) 기반 선택 iloc → 번호(position) 기반 선택 df\['col'] → 단일 컬럼 선택 (Series 반

Scikit-Learn HistGradientBoostingRegressor는 대용량 데이터에 최적화된 고속 Gradient Boosting 회귀 모델로, LightGBM의 핵심 아이디어(히스토그램 기반 분할)를 반영한 sklearn 내장 모델입니다.데이터가 커서 일반

statsmodels.tsa.holtwinters.ExponentialSmoothing은 시계열 예측을 위한 고전적이면서도 실무적 활용도가 높은 지수평활법 모델입니다. 추세(Trend), 계절성(Seasonality)을 함께 다룰 수 있어 단기 예측에 특히 강합니다.

래는 당장 노트북에서 실행 가능한 수준으로 만든전처리 → 모델( HistGradientBoostingRegressor + ExponentialSmoothing ) 훈련 → FastAPI 서비스 구성까지 한 번에 보여주는 예제입니다.데이터: 간단한 가상 매출 시계열 +
ExponentialSmoothing + IsolationForest + FastAPIPOST /detect-anomaly 로sensor_name, sampling_rate, file(csv) 전송 가능.
https://www.sciencedirect.com/science/article/abs/pii/S0926580523000274
https://wikidocs.net/151412astype 메서드는 열의 요소의 dtype을 변경하는함수 입니다.dtype : 변경할 type입니다.copy : 사본을 생성할지 여부입니다.False로 할 경우 원본 데이터의 값이 변경 될 경우 원본 데이터를
https://woongsonvi.github.io/statistical%20analysis/SA3/

https://wikidocs.net/120321https://m.blog.naver.com/domodal/223130595694통계학 / 회귀분석:잔차(Residual): 관측값(실제 값)과 회귀 모델을 통해 얻은 예측값 사이의 차이를 말합니다. 모

https://www.aitimes.com/news/articleView.html?idxno=204225

https://www.statisticshowto.com/wilson-ci/Wilson Score Interval은 비율 추정을 보다 안정적으로 만들기 위해 관측 오류율 $f$ 대신 보정 오류율 $e$ 을 사용한다.특히 표본 크기 $N$ 이 작을 때 효과가 크
베이즈 추정(Bayesian Estimation)과 Wilson Score Interval은 모두 비율 추정의 신뢰도를 계산하는 방법이지만, 실제 머신러닝·통계 실무에서는 Wilson Score가 더 자주, 더 실용적으로 사용된다.베이즈 방식은 사전분포(prior)를
https://devhwi.tistory.com/category/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D#google_vignette

출처, 출처2AI의 복잡한 수식 뒤에는 언제나 “하나의 직선으로 세상을 설명하려는 시도”가 숨어 있다는 사실을 기억해보자.

https://datascienceschool.net/03%20machine%20learning/06.04%20%EB%8B%A4%EC%A4%91%EA%B3%B5%EC%84%A0%EC%84%B1%EA%B3%BC%20%EB%B3%80%EC%88%98%20%EC%8

최소제곱법(Ordinary Least Squares, OLS)은 선형 회귀 모델의 파라미터를 추정하기 위해 사용되는 대표적인 최적화 기법이다. OLS의 목적은 데이터의 오차 제곱합(SSE) 또는 평균제곱오차(MSE)를 최소화하는 파라미터 조합을 찾는 것이다.한편 MSE
https://angeloyeo.github.io/2020/02/13/Students_t_test.html
https://openai.com/ko-KR/index/gpt-5-2-for-science-and-math/
AAIF는 리눅스 재단(Linux Foundation) 산하의 “중립적(벤더-뉴트럴) 오픈 거버넌스” 조직으로, 에이전틱 AI 생태계에서 핵심이 되는 프로토콜·형식·레퍼런스 구현체를 특정 기업 종속 없이 운영하기 위해 만들어졌습니다. (Linux Foundation)리