데이터를 다뤄오면서 쉽게 틀렸던 부분에 대하여 -데이터에 대한 해석데이터를 잘 해석하고 있는가?: 상관관계와 인과관계를 잘 구분하자.인과관계 : 원인과 결과가 명백히 밝혀짐상관관계 : 그저 변수 간 상관이 있음에러바가 없는 도표데이터 전처리와 분석 방법은 적절한가?:
AI ethics : 인공지능 알고리즘과 윤리 이슈 -적대적 생성 신경망 GAN자연어 처리 NLP (GPT-3, 고퍼, megatron-turing 언어 모델)Project debater 대학생 수준 토론 가능인공지능이 작품을 생성하기도 한다. 저작권은 누구에게? 프로
세계적인 데이터 과학자가 되는 방법 -데이터 사이언티스트의 소양데이터 과학을 바탕으로 디지털 전환을 이룬 기업들 - 에어비앤비, 테슬라, 카카오뱅크, 야놀자세계적인 데이터 과학자가 되는 방법데이터에 대한 호기심. 이종 데이터의 결합은 혁신을 가져온다!!! 예를 들어,
품질 및 품질 비용< 품질 및 신뢰성 공학 >품질 (ISO 8402) : 고객의 명시적 묵시적 요구를 충족시킬 능력이 있는 특징이나 특성의 전체품질상승 효과 서비스 품질에 대한 소비자의 인식이 시장에서 거래될 수 있는 판매가격을 결정고품질 제공 -> 브랜드 인지
< 통계적 공정 관리 statistical process control>4M : man, machine, material, method (input 4요소)SPC의 장점과 단점: 장 ) 결함 방지에 효과적, 생산성 향상, 계량치/계수치에 사용 가능: 단 ) 데이터
< 예방적 품질관리 / 반응적 품질관리 / 품질관리 문화 구축 >최고의 품질을 이루기 위해서는 가치 사슬의 첫 단계인 개념정의 및 제품 설계부터 품질 경영이 시작되어야 한다.(1) 예방적 품질 관리: 제품 개발부터 시장 출시에 이르는 전 과정 상에서 제품의 품질을
신뢰성 : 주어진 작동 환경에서 주어진 시간동안 시스템이 고유의 기능을 수행할 확률품질 vs 신뢰성품질은 현 시점과 생산 단계를 볼 때의 불량률을 의미하고, 이항 또는 정규 분포와 관련이 있다.신뢰성은 동적이며 미래의 성능과 고장의 정도를 찾아낼 수 있고, 설계 및 개
<연속형 신뢰성 분포>지수-감마분포와이블분포(욕조 곡선을 잘 설명할 수 있는 분포)다양한 분포를 활용한 MTTF, 생존 확률 계산 등정규분포, 중심극한정리에 의해 다른 임의의 분포를 활용하더라도 모수가 충분히 크면 근사적으로 정규 분포를 따른다.대수정규분포, 다양
보전의 목적 : 안전하고 경제적으로 운전될 수 있는 조건으로 장비를 유지 비용 검토와 관련된 문제의 인식 효율 감소로부터 증가하는 경제적 손실 vs 유효 보수비용으로 인한 경제적 손실 Safety risk 사전보전조치에 의한 안전에 대한 위험 요소 회피 필요 고장
< Supervised learning, 지도학습 >: 인공지능 모델의 정답과 학습 문제를 알려줌Machine learning : 데이터로부터 내재된 패턴을 학습하는 과정.사람이 어렸을 때부터 보고 자란 책과 미디어, 교육에 의한 내용에 따라서 갈기가 있고 이빨이
< Linear regression : 모델의 출력이 연속인 값을 갖는다. label이 있는 데이터셋을 사용>선형 모델 : Linear combination으로 이루어진 모델을 linear model이라고 한다.\-> 반드시 입력 변수가 선형일 필요는 없다.\-
<Gradient descent : 경사 하강법>손실함수 값을 최소화하는 offset(initial parameter)을 찾아내는 과정경사는 변화의 방향이 가장 큰 곳으로 업데이트된다Hyper parameter(알파 -> 사전에 정하는 값)와 learnable p
지도학습의 목적은 target function f를 approximation하는 hypothesis h를 학습하는 것!(입력 피쳐와 해당파라미터 셋이 Linear combination 되어 있는 형태)\-> 2차원 데이터파란색 : positive sample노란색 :
\-> 최대 margin을 확보하는 것이 목적이다.점선과 점선 사이에 서로 가장 마진을 크게 잡으면 중간의 실선이 된다. (참고로, 점선은 positive/negative sample중에 가장 상대에게 가까운 값 => minimum margin = support vec
: 이미 사용하고 있거나 개발한 알고리즘의 간단한 확장\-> supervised learning task에서 성능을 올릴 수 있는 방법협력이라는 프랑스어 어원을 가짐.: 다양한 모델의 각 장점을 살려 사용할 수 있다.(1) 학습 데이터셋을 랜덤하게 나누어서 학습을 진행
: DNN 심층신경망의 기본 동작 원리이 3가지가 모두 잘 맞아야 한다.Deep Neural Network, 딥러닝은 다수의 층으로 이루어진 neural network임.: (input \* weight -> 가중합 -> 활성화함수 -> 최종 신호) —> 다음 계층으로
Deep learning을 학습하기 위한 구체적인 기법들Gradient descentBack propagationGradient vanishing & batch normalizationLoss function이 최소화가 되도록!loss function에 대해서 각각의
합성곱 신경망의 동작 원리 및 이를 통한 이미지 분류LGAimers의 주재걸교수님 강의를 바탕으로 작성한 글입니다. 사용한 이미지는 강의 자료이며 개인 공부를 위한 포스팅입니다. \-> Fully Connected neural network : 앞에서 배운 멀티레이어
: Recurrent Neural Networks\-> sequence data 에 특화된 neural network, 재귀호출하는 알고리즘\-> 전단계의 출력 결과와 현재 단계의 새로운 입력값에 각각 fully connected layer를 거치고 합산해서 seque
< transformer 모델의 동작 원리 >지난 시간 rewind : Seq2seq + attention 구성요소 3가지 encoder, decoder, attention module: seq2seq with attention model의 개선판Attentio
대규모 데이터를 별도의 label없이 입력의 일부를 예측 대상으로 삼아 학습하는 모델: label이 필요 없는 input data를 활용해 학습MLM(Masked Language Modeling) task \-> 마스크 씌워진 단어 맞추기: k = 15% (마스킹된 단