사람의 피드백을 이용해 강화학습 시킨 RLHF(Reinforcement Learning Human Feedback)최종 성능평가도 사람이 함평가 항목1\. 유용성, 질문의 의도를 적절히 파악하여 답변하였는지2\. 진실성, 데이터를 조합해 거짓 답변을 내놓았는지3\. 무
데페이즈망에 관심이 있습니다. 그리고 관찰이 혁신을 만들 것이라고 믿습니다. 핀터레스트를 뛰어넘는 비즈니스 모델은 무엇일까요?ChatGPT"데페이즈망"(Dépaysement) 개념에 관심이 있고 혁신을 위한 관찰의 힘을 믿는다면 다른 접근 방식을 제공하거나 Pinter
폴 스미스의 옷은 우리와 소통하고자 한다. 옷은 꼭 정색되어야 할까? 꼭 진지해야 할까? 폴 스미스는 남성이라도 자유롭게 표현할 수 있다고 생각한다. 그의 옷은 디테일이 강하며 간결하고 지나치지 않다. 안감이나 소매 끝단에도 특별한 디테일이 담겨있다. 전통적인 와꾸에
은닉층을 2개이상 지닌 학습 방법컴퓨터가 스스로 분류 레이블을 만들어 내고 공간을 왜곡하고 데이터를 구분짓는 과정을 반복하여 최적의 구분선을 도출많은 데이터와 반복학습, 사전학습과 오류역전파 기법을 통해 현재 널리 사용되고 있음DNN을 응용한 알고리즘이 바로 CNN,
전세계적으로 사회에 가장 결여되거 있거나 문제되 있는 것이 뭐냐 해보니 20대가 외로움 때문에 자살한다는 것이다. 기대가 있는 나이, 스무 살. 좋아하는 사람에게 고백해서 차여보기도 하고 고백했다가 마음이 바껴 하루만에 헤어지자고 할 수도 있는 때 라떼는 대학생 때
강한놈만 살아남는다?실제로 진화의 방향성은 약육강식이 아니라 다양성이다.진화한다는 것은 차이가 발생하는 것, 구별이 섬세해 지는 것이다. 구별하고, 차이를 이해하고, 환대해야 하는데요즘 현대사회, 시대정신을 보면 구별한 다음 치워버린다.이 분리를 만회하려고 하는 것이
위르겐 하버마스의 의사소통적 행위이론한마디로 말하자면, 상호이해를 지향하는 문화를 만들어 가야한다는 것이다.복잡한 사회에서 모든 것을 의사소통을 통해 결정할 수는 없다. 그렇기에 시스템이라는 게 있고, 절차에 맞춰 돌아간다.두 가지 구성요소, 돈과 권력돈을 통해 조정되
나의 비전: 능력주의가 강하게 자리 잡고 있는 가운데, 사람은 존재 자체로 가치 있다.혁신은: 내 분야에서의 난제가 다른 분야에서는 이미 해결되었을 수 있음으로, 내 전공분야를 열심히 공부하고 내 관심분야와 융합해 혁신을 이룰 수 있다. 내 전문 분야는 AI.AI를 공
AI 입문자인 나는 퍼셉트론이 어떻게 작동하는지, 개념적으로만 이해되는 강화학습의 코드를 분석해서 드리머(강화학습의 기법 중 하나)구조 전체를 파악해야 한다는 걸 잘 안다. 하지만, 위의 공부를 시작해도 계속해서 내 머릿속을 맴도는 것은 커뮤니티가 가상세계에서 어떻게
스마트팜의 생육, 생산량의 정확한 예측모델은 스마트 팜의 생산성 향상 및 자동화에 가장 중요한 기술이다.작물의 생육 조건과 환경 조건의 상관관계를 분석, 예측하여 작물의 재배 기준을 제시할 수 있기 때문이다.그렇기에, 환경 데이터 및 생장데이터 기반 생산량(Fruits
World model training: Variational Autoencoder 또는 LSTM 레이어가 있는 신경망과 같은 세계 모델에 대한 신경망 아키텍처를 정의합니다.입력 데이터(예: 이미지, 작업)를 전처리하고 역전파를 사용하여 재구성 오류를 최소화하고 예측 보
AI가 상위개념, 머신러닝과 딥러닝이 하위개념이라고 볼 수 있다.머신러닝에는 크게 지도학습, 비지도학습, 그리고 강화학습이 있는데 이번에는 강화학습이 뭔지 알아보려고 한다. 강화학습은 machine learning의 한 방식으로, Agent라는 학습의 주체가 환경과 상
비지도학습은 나비와 벌 사진을 보여주면서 뭐가 벌이고 나비인지 알려주지 않음정답이 없는 데이터를 통해데이터의 유의미한 패턴 / 구조 발견유사한 특징을 가지는 데이터들을 그룹화예) 고객 세분화, 소셜 네트워크 분류, 기사 그룹 분류, ..데이터를 k 개를 클러스터(그룹)
Dimentionality Reduction (Curse of Dimensionality)Projection -> PCA & Kernel PCA | SubspaceManifold Learning | Hyperplane, ManifoldClustering K-MeansD
Background Artificial agent가 목표를 달성하기 위해 행동을 선택할 수 있는 방법에 대한 연구는 강화 학습(RL)의 활용으로 인해 상당 부분 급속한 진전을 이루고 있습니다. 시행착오를 통해 성공적인 행동을 예측하는 RL에 대한 model-free
커다란 RNN 기반의 에이전트를 학습할 수 있느냐RNN 같은 경우, 사이즈가 커지게 되면 hyperparameter 숫자가 많아지면서 트레이닝 하기 어렵고 vanishing gradient (학습한 것을 잊어버림) 문제가 발생한다.월드모델은 이런 고민에서부터 시작에이전
아래의 링크를 통해 공부하고, 때로는 그대로 옮겨 적었습니다. 아래의 작가님들에게 무한한 감사를 드립니다! 🙇🏼♂️ 지능적인 에이전트 Model-Free vs Model Based 환경과 상호작용 월드모델 지능적인 에이전트(artificial agent) 자신의
분류 Classification 분류는 주어진 데이터를 정해진 범주 (category)에 따라 분류하는 것이에요. 주로 예측 결과가 숫자가 아닐 때 사용하죠. 로지스틱 회귀 Logistic Regression 선형 회귀 방식을 분류에 적용한 알고리즘, 데이터가 어
지난 시간에 살펴본 선형회귀는 분석하고자 하는 데이터의 설명변수(X)와 응답변수(y)가 선형적인 관계, 즉 일자 선으로 설명하기에 충분했습니다. 하지만 데이터의 변수들이 곡선으로 이루어져 있으면 어떡할까요? 이럴 경우에 선형회귀를 사용하게 되면 오차가 발생할 것입니다.
☄️ 이 글은 유튜브 나도코딩의 영상 / 한동대학교 이상산 교수님의 수업을 기반으로 쓰여졌습니다! 지도 학습이란? 예측 또는 결정을 내리기 위해 레이블이 지정된 데이터에 대해 알고리즘을 훈련하는 기계 학습 기술이에요. 목표는 훈련 세트에 제공된 예제를 기반으로 입력