Pre-training: Model dilatih pada data teks besar (misalnya Wikipedia, buku, artikel).
Tugas utamanya adalah language modeling (memprediksi kata berikutnya).
Fine-tuning: Model kemudian disesuaikan dengan data khusus, misalnya untuk percakapan.
ADVERTISEMENT

SCROLL TO RESUME CONTENT
2.3 RLHF (Reinforcement Learning from Human Feedback)
ChatGPT menggunakan RLHF:
1. Model menghasilkan beberapa jawaban.
2. Annotator manusia memberi penilaian.
3. Model reward dilatih dari preferensi tersebut.
4. GPT disesuaikan menggunakan reinforcement learning agar lebih sesuai dengan keinginan manusia.











