260129 이미치

Dole·2026년 1월 29일

AttractionOfPython

목록 보기
23/25

(가)

아이클라우드로 2tb짜리 과금을 하고 있었다.
이제 그래 왔던 시간은 청산하고 백업을 하기로 했다.

https://github.com/icloud-photos-downloader/icloud_photos_downloader

먼저 아이폰으로 들어가서 설정을 확인해준다.
고급보호는 끄고, 사진에 들어가서 이 iphone 동기화가 제대로 켜져 있는지 확인한다.

터미널을켜서 icloudpd-photos 대충 이런 폴더를 하나 만들고,

내 계정을 입력하여 아이클라우드에 있는 사진을 컴퓨터에 업로드해준다.

나는 사진에 182gb를 할애한다.
오늘 안에 업로드가 완료되기를 기대하지는 않는다.

(나)

브라우저의 작동방식
브라우저는 DNS 조회, TCP 연결, HTTPS 암호화 과정을 거쳐 서버와 통신한 뒤 LLM API에 요청을 보내 응답을 받아온다. TCP는 안정적인 데이터 전달을 보장하고 HTTPS는 통신 내용을 암호화하여 안전하게 서버와 대화할 수 있게 한다. 서버가 보낸 HTML, CSS, JavaScript는 DOM과 CSSOM을 만들고 렌더 트리를 생성하여 화면에 실제 페이지를 그려낸다.

(다)

CS146S: The Modern Software Developer
영상은 확인하지 않고 자막만 읽는다.

ChatGPT와 LLM이 내부에서 어떻게 돌아가는지, 토큰부터 서버, 학습, RLHF, 로컬 실행까지 전 과정을 한 번에?!

LLM의 본질
LLM = Large Language Model
LLM은 생각하거나 이해하는 존재가 아니라 입력된 토큰 시퀀스를 바탕으로 다음 토큰을 확률적으로 예측하는 거대한 자동완성 엔진이다.
우리가 입력한 문장은 글자가 아니라 토큰이라는 작은 조각으로 분해되고 모델은 이 토큰들이 이어진 1차원 시퀀스를 보고 계산한다.
베이스 모델은 인터넷 문장을 흉내 내는 텍스트 생성기이고 어시스턴트 모델은 사람처럼 답하도록 추가 학습된 버전이다.

학습 3단계 구조
Pretrain → SFT → RLHF
Pretrain = 인터넷 지식 암기
사전학습 단계에서는 인터넷 전체 데이터를 읽으며 ‘다음 단어 예측’만 반복하여 세상의 지식을 파라미터에 압축 저장한다.
SFT = 전문가 답안 모방
SFT 단계에서는 인간 라벨러가 작성한 이상적인 답변을 모방하도록 학습하여 모델의 말투와 성격을 어시스턴트처럼 교정한다.
RLHF = 사람 취향 맞추기 (human feedback)
RLHF 단계에서는 사람의 선호도를 점수로 환산하여 모델이 더 자연스럽고 도움이 되는 답변을 생성하도록 미세하게 튜닝한다. 답을 생성하는 모델과 점수를 매기는 보상 모델이 따로 존재하며 생성 모델은 보상 점수를 최대화하도록 학습된다.
그런데 rlhf는 진짜 rl이 아니라고 한다.
rlhf는 보상 함수가 인간 취향을 흉내 낸 불완전한 신경망이기 때문이다. 충분한 반복 이후에 모델이 점수 시스템의 허점을 악용하는 문제가 발생한다.
ex.보상모델 해킹 (the the the 사건)
:재밌는 농담을 가려내랬더니 thethethe와 같은 어처구니 없는 문장을 뽑아버리게 된 불미스러운 사건

엘엘엠의 한계
모델은 모르는 정보도 그럴듯하게 만들어내므로 결과를 그대로 믿기보다 항상 검증 도구로 사용하는 태도가 필요하다.

오픈웨이트와 증류모델
최근에는 모델 가중치가 공개되어 개인 PC나 맥북에서도 직접 LLM을 실행할 수 있는 오픈 웨이트 생태계가 확산되고 있다. 증류 모델은 대형 모델의 지식을 작은 모델에 압축하여 성능은 유지하면서 메모리와 연산량을 크게 줄인 경량 버전이다. FP8이나 BF16 같은 저정밀 숫자 형식을 사용하면 메모리 사용량이 줄어들어 노트북에서도 대형 모델을 실행할 수 있다. LM Studio는 오픈소스 LLM을 다운로드하고 로컬에서 ChatGPT처럼 바로 실행할 수 있게 해주는 데스크톱 앱이다.

결국 LLM은 확률적 자동완성 시스템인 셈이다. 신뢰하되 맹신하지 말고 생산성을 높이는 도구로 활용하자.

profile
성용아카데미3기

0개의 댓글