Contribution
각 단계 y는 가변 길이 시퀀스(σ1\sigma_1σ1,σ2\sigma_2σ2,...,σc\sigma_cσc)로 구성 또는 인터프리터에 의해 실행되는 로봇 코드
LLM은 토큰에 대한 결합 확률이 다음 토큰 예측의 조건부 확률의 곱으로 인수분해될 수 있는 각 단계 y를 예측
p(y)=∏i=1kp(σi∣σ1,...σi−1)p(y) = \prod^k_{i=1} p(\sigma_i \mid \sigma_1,...\sigma_{i-1})p(y)=∏i=1kp(σi∣σ1,...σi−1)
다음 단계의 p(y)p(y)p(y)를 특정하는 것에 관심을 둔다 → p의 분포는 k에 매우 민감 → p(y)p(y)p(y)의 계획 단계가 자연어로 표현되면 다소 약한 점수로 사용된다