
이번에는 TTRL: Test-Time Reinforcement Learning

요즘 RLHF의 분야에서 human preference 데이터의 한계를 뛰어넘고자 하는 self-evolve 아이디어가 많이 나오는 것 같습니다. 오늘 읽어볼 Self-Evolved Reward learning for LLms도 유사한 맥락입니다. (참고로 이 논문은

논문을 파도타며 리서치하다보니 찾은 논문입니다. 제가 생각하는 연구 주제의 방향성과는 약간 다르지만 인사이트를 얻을 수 있을 것 같아 선정했습니다. 나는 언제쯤 연구 주제를 찾을 수 있을까! (●´⌓`●)

저는 현재 AI랩실에서 학부인턴을 하고 있습니다.6월 중순에 종강한 뒤부터 연구 주제를 줄곧 찾고 있었고 아직도 찾는 중입니다...저는 어마어마한 감자지만.. 요즘 들어 꽤나 지쳐서...넉두리 겸 정리를 하며 저와 비슷한 처지에 있는 분들께 조금이나마 도움이 되고자(?

오늘 다룰 논문은 [Self-Generated Critiques Boost Reward Modeling for Language Models](https://arxiv.org/pdf/2411.16646)입니다. 2025년 4월에 NAACL에 publish된 논문입니다.

이번주 CV스터디 논문은 U-Net입니다. Segment의 기초 논문 중 하나이기에 꼼꼼하게 다뤄보도록 하겠습니다!본 논문에서는 data augmentation에 기반한 네트워크와 training strategy를 제시함구조는 contracting path & symm

오늘은 아주 유우명한 객체 탐지(object detection) 분야의 논문을 읽어보겠습니다. 바로 YOLO입니다!오늘도 Abstract부터 읽어보겠습니다.논문에서는 "한 개의 신경망이 한 평가에서 전체 이미지를 기반으로 bounding boxes를 예측 ➡️ 클래스

오늘 리뷰할 논문은 Critique-out-LOUD Reward Models입니다! 저번에 읽었던 논문 MM-RLHF: The Next Step Forward in Multimodal LLM Alignment과 Reward Modeling 측면에서 유사합니다. 따라서

Multimodal Large Language Model에 RLHF를 적용해 기존의 한계점들을 보완한 MM-RLHF에 대해 정리하겠습니다. MM-RLHF-Dataset, MM-RLHF-Reward Model, MM-DPO를 다뤄보겠습니다.

안녕하세요! 오늘은 캡스톤 디자인과 창업프로젝트 개발 과정에 대해 말씀드리고자 합니다. 우선 전체 파이프라인에 대해 언급한 다음, fastAPI의 전체 구조와 도커 빌드에 대해 말씀드리겠습니다.

beautifulsoup을 이용해서 다음 기사를 크롤링하는 코드를 작성했는데, 몇 주 뒤에 확인해보니 URL이 바뀌었다... 그래서 급하게 Selenium을 이용해서 크롤링을 하기로 결정했다. 우선 크롤링할 때는 대부분 beautifulsoup 이 라이브러리를

생각보다 성실한 나날들의 연속이다.벌써 생성AI 6장을 배우고 이에 관해 정리하고 있다.자! 그럼 오늘도 힘내면서! 6장인 Normalizing flow 모델에 대해 배워보자. 공부를 본격적으로 시작하기에 앞서 normalizing flow 모델이 우리가 전에 배웠던

오늘은 autoregressive model을 다루려고 한다.!목차는 5.2 LSTM 네트워크5.3 RNN 확장5.4 PixelCNN오늘은 4장에서 배웠던 GAN에 비해 비교적 간단하니 집중해서 빠르게

오늘은 GAN에 대해 배워보자!4장의 목차는 4.1 소개4.2 심층 합성곱 GAN(DCGAN)4.3 와서스테인 GAN-그레디언트 페널티(WGAN-GP)4.4 조건부 GAN(CGAN)으로 구성되어 있다. 우선 GAN은 Generative Adversarial Nework

파트2부터는 본격적인 생성 모델링 방식에 대해 배운다.그럼 오늘은 파트 2(ch.3~ch.8)의 시작인 3장 VAE에 대해 배워보도록 하자!3장의 구성은 아래와 같다.3.1 소개3.2 오토인코더3.3 VAE(변이형 오토인코더)3.4 잠재 공간 탐색하기목차를 보면 알 수

4장에서는 DB 설계를 다룹니다. 이제 데이터베이스를 상황에 따라 설계하는 방법을 배운 뒤 직접 설계해보도록 하겠습니다.데이터베이스를 설계해야하기 때문에 MySQL과 ERD에 관한 개념을 간단히 정리는 아래 링크를 참고해주세요!그럼 본문으로 들어가도록 하겠습니다.ERD

이번 시리즈는 생성 AI 이다. ChatGPT처럼 산출물을 내는 생성형 AI에 관심은 많았는데, 이번 스터디를 통해 처음으로 제대로 공부하게 되었다. 스터디를 통해 이 책을 무사히 끝내길 기원하며 첫 장을 시작해보겠다. 우선 1장은 1.1 생성 모델링이란?1.2 첫 번

서버의 정의와 역할에 대한 이해서버가 구축되는 과정에 대한 이해오늘은 서버에 대한 정확히 이해하는 시간을 가져보겠습니다!1\. 시스템콜\-정의: OS의 커널이 제공하는 서비스에 대해, 응용 프로그램(ex)사용자 프로그램)의 요청에 대해 커널에 접근하기 위한 인터페이스.

오늘은 Node.js를 공부하려면 꼭 알아야하는 기능인 비동기처리에 대해서 알아보고자 한다. 우선 간략한 목차는 다음과 같다. 목차 동기 vs. 비동기 Node.js에서 비동기처리를 사용해야하는 이유 비동기처리의 발전과정 async & await 비동기처리의 효과
나는 현재 플러터를 이용한 안드로이드 앱 개발을 진행 중이다. 앱은 프론트엔드와 백엔드가 명확히 나뉘어져 있지는 않지만 팀원 간 역할을 분배하는 과정에서 백엔드를 맡게 되었다. 프로젝트 초기에 데이터베이스는 로그인, 회원가입, 게시판 등의 기능은 구현하지 않기로 팀원