言語モデルの進化:T9からGPT-3+まで
イントロ:
世界中の組織がこの新技術であるトランスフォーマーモデルを試験中です。メディア、金融、法務サービス、専門産業、教育などの公共サービスの分野で変革が期待されています。このブログでは、その簡単な歴史や内部で何が起きているか、そして課題や論争について紹介します。
歴史:
言語モデルは、確率に基づくテキストの集合体、すなわちコーパスモデルと呼ばれるものに基づいて、あるテキストの出現確率を予測します。
内部で何が起きているか:
トランスフォーマーは超絶読解力を持っています。彼らは一度にたくさんの単語を見ます、単一の単語だけではありません。これにより大局を理解し、パターンを見つけるのに役立ちます。そして、翻訳やテキスト作成をより得意にします。そのうえ、すぐに学習することができ、より良く、より早く動作します。
この記事が詳細に理解するのにおすすめですHow
課題と論争:
言語モデルの「形式対意味」は、トランスフォーマーのようなニューラルネットワークに基づくこれらのモデルが言語の形式や構造を処理するのに優れていますが、人間のように本当の意味で言語を「理解」しているわけではないという考えに関連しています。言語モデルは統計的な確率やパターンに基づいてテキストを生成しますが、人間が理解するように概念や感情、ニュアンスを「理解」しているわけではありません。
-
環境コスト:これらモデルには計算能力が必要で、CO2排出に直接的な影響を与えます。古典的NLPで問題を解決できる場合は、その方法をおすすめします。
-
財政コスト:計算にはGPUが必要で、直接的な費用がかかります。トレーニング時間とハイパーパラメータへの感度を報告することを推奨します。
-
基盤となるデータセットに関連するリスク:データセットの品質によるバイアスの継承(ウィキペディア-女性に関連する事実の記述は10~16%のみ;Redditユーザーベースは男性優位で約70%;ジェネレーションZのデータはミレニアル世代、ジェネレーションXよりも偏っている)。
-
モデルの価値観を調整することの難しさ
-
侮辱、ステレオタイプの脅威、ヘイトスピーチ:読者への害、第三者への害。合成テキストが誰の責任も問われずに会話に入ってくる可能性があります。
さらなる読み物:
Bender Parrot Research
大言語モデルガイド
こちらの記事はdev.toの良い記事を日本人向けに翻訳しています。
https://dev.to/balagmadhu/the-evolution-of-language-models-from-t9-to-gpt-3-581j