Arsitektur ini menggunakan mekanisme self-attention, sehingga lebih efisien dalam memahami hubungan antar kata dalam teks panjang dibanding RNN/LSTM.
Transformer menjadi fondasi utama dari GPT.
1.4 Perkembangan GPT
ADVERTISEMENT

SCROLL TO RESUME CONTENT
GPT-1 (2018): Memperkenalkan konsep Generative Pre-trained Transformer.
Model ini dilatih dengan unsupervised learning pada korpus teks besar, lalu di-fine-tune untuk tugas tertentu.
GPT-2 (2019): Meningkatkan jumlah parameter menjadi 1,5 miliar. GPT-2 terkenal karena kemampuannya menghasilkan teks panjang yang koheren.
OpenAI sempat menunda perilisan penuh karena alasan keamanan.
GPT-3 (2020): Lompatan besar dengan 175 miliar parameter.
Model ini mampu melakukan zero-shot dan few-shot learning hanya dengan instruksi teks.
ChatGPT (2022): Versi GPT-3.5 yang di-fine-tune khusus untuk percakapan interaktif dengan manusia menggunakan teknik Reinforcement Learning from Human Feedback (RLHF).











