ChatGPTの元となるGPTモデルやBardの元となるの
LLMとは
大規模言語モデルとは
chatGPTは、RLHF(Reinforcement Learning from Human Feedback)で学習されている
ChatGPTはInstructGPTをベースとしたモデル
Alignment
GPT-3はTransformerにおけるDecoderのみで構成された言語モデル
言語モデルとは「入力文に続きそうな単語を出力する」モデルのこと
言語モデルの利点は、「教師なし学習」である点
GPT3の特筆すべき点はパラメーター数と学習に用いたデータ量
GPT-3は1750億個ものパラメータ
570GB以上もの文章(コーパス)
Common Crawlというデータセットからとってきている
Common Crawl= インターネット上のありとあらゆる文章を集めてきたコーパス
2016~2019にクローリングされた文章(45TB)がGPT-3の学習対象
クローリングされたデータはそのままだと使えないので、これをフィルタリングして残った570GBが学習に用いられている
GPT-3の問題点は不正確だったり非道徳的な文を出力してしまうことがある
その生成文が人間好みにalignさせる為にInstructGPTが誕生した
InstructGPTの最大の特徴は「人間のフィードバックをもとにモデルを学習させる」
これをRLHFという手法で実現している
InstructGPTの学習の流れは、
- 教師ありファインチューニング
- Reward Modelの獲得
- RLHF
ステップ3が終わったら、またステップ2に戻ってループさせる
LLMにはスケール則と呼ばれる法則がある。
学習する値の数、学習に使うデータ量、学習の為の計算量の3つを増やせば増やすほど性能が上がる法則 ⇒ Transformer
LLMは大規模なテキストデータを用いて事前学習(pre-training)と微調整(fine-tuning)の2段階プロセスで学習する