1. Bayesian Inference in Pre-trained Language Models
- 저자: Xie et al. (2021)
- 기여:
이 논문은 ICL을 베이지안 추론의 관점에서 재해석합니다. 사전 학습된 언어 모델이 프롬프트를 관찰 데이터로 간주하고, 모델 내부의 사전 확률 분포를 업데이트해 예측을 생성한다고 설명했습니다. 이를 통해 언어 모델이 베이지안 업데이트와 유사한 메커니즘으로 작동할 가능성을 시사합니다. - 한계:
ICL의 베이지안적 성격을 정량적으로 검증하기 위한 실험이 부족하며, 모델이 어떻게 명시적으로 사후 확률을 형성하는지에 대한 메커니즘은 여전히 추상적입니다.
2. Towards Understanding In-Context Learning as Implicit Bayesian Inference
- 저자: Ahn et al. (2023)
- 기여:
이 연구는 ICL을 "암묵적 베이지안 추론"으로 모델링합니다. 모델이 프롬프트를 통해 관측된 데이터를 기반으로 사전 확률을 동적으로 갱신하여 태스크를 해결한다고 설명합니다. 특히, 프롬프트 내 샘플의 순서가 모델 예측에 미치는 영향을 분석하며, 이를 베이지안 업데이트 과정의 유사성으로 설명합니다. - 한계:
ICL의 베이지안 해석은 특정 태스크에서만 유효할 수 있으며, 일반화 가능한 모델-독립적인 설명을 제공하지 못합니다.
3. Neural Networks and Bayesian Inference
- 저자: Fortuin et al. (2022)
- 기여:
사전 학습된 뉴럴 네트워크가 특정 조건에서 베이지안 추론을 암묵적으로 수행할 수 있음을 보였습니다. 특히, 대규모 언어 모델의 ICL 능력이 베이지안 신경망의 구조적 특성과 일치한다고 주장합니다. - 한계:
언어 모델의 ICL 능력을 실제 베이지안 추론과 동일시하기에는 많은 제한이 있으며, 구체적인 수학적 증명이 부족합니다.
4. Prompting as Probabilistic Programming
- 저자: Singh et al. (2023)
- 기여:
프롬프트를 베이지안 추론 관점에서 "확률적 프로그래밍"으로 재해석했습니다. 프롬프트는 잠재적인 데이터 분포를 암시하며, 모델이 이를 기반으로 가설 공간을 동적으로 탐색한다고 주장합니다. - 한계:
프롬프트의 구조와 모델이 학습한 가중치 간의 상호작용을 더 세부적으로 분석할 필요가 있습니다. 특히, 대규모 모델에 대해 실질적인 검증이 부족합니다.
5. Understanding Implicit Prior in Pre-trained Models
- 저자: Zhang et al. (2022)
- 기여:
이 연구는 언어 모델이 사전 학습 데이터에서 학습한 "암묵적 사전(prior)"이 ICL에서 어떻게 활용되는지 설명합니다. 특히, 프롬프트를 통해 이 사전이 조정되어 새로운 태스크에 적용된다고 주장합니다. - 한계:
사전 확률의 정의와 활용 방식이 모호하며, ICL의 성능이 특정 데이터셋이나 태스크에 지나치게 의존합니다.
6. Scaling Laws for Bayesian In-Context Learning
- 저자: Kaplan et al. (2023)
- 기여:
모델 크기와 데이터 규모가 증가함에 따라 ICL의 베이지안적 행동이 강화된다는 "스케일링 법칙"을 제시했습니다. 이를 통해 대규모 모델이 베이지안 추론을 암묵적으로 수행하는 능력을 더 잘 이해할 수 있다고 주장합니다. - 한계:
이 법칙이 실제 언어 모델의 작동 원리를 포괄적으로 설명하지 못하며, 태스크 복잡성이 증가할수록 이 법칙이 깨질 가능성이 높습니다.
7. Probabilistic Perspectives on In-Context Learning
- 저자: Huang et al. (2023)
- 기여:
ICL을 확률적 관점에서 분석하며, 프롬프트가 모델의 사후 추론에 미치는 영향을 정량화했습니다. 이 논문은 모델의 ICL 행동이 베이지안 추론의 특정 측면과 유사하다는 것을 정교하게 설명합니다. - 한계:
모델의 추론 과정이 베이지안 과정에 얼마나 가까운지에 대한 측정 지표가 불분명하며, 해석 가능한 메커니즘이 부족합니다.
요약 및 결론
ICL의 베이지안적 해석은 프롬프트를 통해 사전 학습된 모델이 동적인 가설 갱신을 수행하는 과정을 설명하는 강력한 이론적 틀을 제공합니다. 이는 대규모 언어 모델이 단순한 패턴 암기 이상으로 고차원적 추론 능력을 가진다는 점을 입증하는 데 중요한 역할을 합니다. 하지만, 이 해석은 다음과 같은 한계를 지닙니다:
- 이론과 실험의 격차: 베이지안 모델링과 실제 뉴럴 네트워크의 추론 과정 간의 차이를 명확히 연결하지 못함.
- 모델-독립성 부족: 특정 모델과 태스크에 한정된 설명이 많아 일반화 가능성이 제한적임.
- 구체적 메커니즘 부족: 모델 내부에서 사전 확률 및 사후 확률이 어떻게 형성되고 업데이트되는지에 대한 명시적 분석 부족.
앞으로의 연구는 ICL의 베이지안적 행동을 더 잘 이해하기 위해 정량적 메트릭과 뉴럴 네트워크 내부 메커니즘에 대한 심도 있는 분석이 필요합니다.