# AI x Crypto: ゼロからピークまで人工知能業界の最近の急速な発展は、一部の人々によって第4次産業革命と見なされています。大規模言語モデルの出現は、各業界の効率を著しく向上させ、アメリカにおいて約20%の労働効率の向上をもたらしたと推定されています。同時に、大モデルがもたらす一般化能力は、新しいソフトウェア設計のパラダイムと見なされており、過去の正確なコード設計とは異なります。現在のソフトウェア設計は、より一般化された大モデルフレームワークをソフトウェアに組み込み、ソフトウェアがより良い性能を持ち、より広範なモダリティの入力と出力をサポートできるようにしています。深層学習技術は確かにAI業界に新たな繁栄をもたらし、この熱潮は暗号通貨業界にも影響を与えています。本報告は、AI業界の発展の歴史、技術の分類、そしてディープラーニング技術の発明が業界に与える影響について詳しく探討します。次に、ディープラーニングにおけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流の発展状況とトレンドを深く分析します。その後、本質的にCryptoとAI業界の関係を探討し、Crypto関連のAI産業チェーンの構造を整理します。## AI業界の歴史AI業界は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の下で、さまざまな人工知能の実現派閥を発展させてきました。現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、機械がデータに依存してタスクを繰り返し反復することでシステムの性能を改善することです。主な手順は、データをアルゴリズムに送信し、このデータを使用してモデルを訓練し、モデルをテストしてデプロイし、モデルを使用して自動化された予測タスクを完了することです。現在、機械学習には大きく分けて三つの主要な流派があり、連合主義、記号主義、行動主義がそれぞれ人間の神経系、思考、行動を模倣しています。! [新人科学丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/social/moments-7e025deb1fddcd5fa716b6f144701074)現在、神経ネットワークを代表とする結合主義が優位を占めており(、深層学習とも呼ばれています)。この構造の主な理由は、入力層と出力層があり、複数の隠れ層が存在することです。一旦層数や神経元(の数が十分に多くなると、複雑な汎用タスクにフィットする十分な機会があります。データを入力することで、神経元のパラメータを継続的に調整でき、最終的に多くのデータを経た後、その神経元は最適な状態)のパラメータ(に達します。これがいわゆる「力強く奇跡を生む」ということであり、これが「深さ」という言葉の由来でもあります——十分な層数と神経元があるためです。例えば、簡単に理解するために、関数を構築したとします。この関数にX=2を入力するとY=3、X=3を入力するとY=5になります。この関数がすべてのXに対応できるようにするには、この関数の次数とそのパラメータを追加し続ける必要があります。例えば、今私がこの条件を満たす関数を構築できるとすればY = 2X -1です。しかし、もしデータがX=2、Y=11であれば、この3つのデータ点に適した関数を再構築する必要があります。GPUを使用して力技で解くとY = X2 -3X +5が比較的適していますが、データと完全に一致する必要はありません。バランスを守り、大まかに似た出力が得られれば十分です。ここでX2、X、X0は異なるニューロンを表しており、1、-3、5はそのパラメータです。この時、神経ネットワークに大量のデータを入力すると、ニューロンを増やしたり、パラメータを反復して新しいデータにフィットさせることができます。これにより、すべてのデータにフィットさせることができます。神経ネットワークに基づく深層学習技術は、最初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANなど、複数の技術の反復と進化を経て、最終的にはGPTなどの現代の大規模モデルで使用されるTransformer技術へと進化しました。Transformer技術は神経ネットワークの進化の一方向であり、変換器)Transformer(を追加して、音声、映像、画像などのすべてのモダリティ)のデータを対応する数値にエンコードして表現します。次に、それを神経ネットワークに入力することで、神経ネットワークは任意の種類のデータをフィットさせることができ、すなわちマルチモーダルを実現します。AIの発展は三つの技術波を経てきました。最初の波は20世紀の60年代で、AI技術が提案されてから十年後のことです。この波は、シンボリズム技術の発展によって引き起こされました。この技術は、一般的な自然言語処理や人間と機械の対話の問題を解決しました。同時期に、専門家システムが誕生しました。これは重要な化学知識の専門家システムであり、このシステムは非常に強力な化学知識を持ち、質問を通じて推論を行い、化学の専門家と同じような答えを生成します。この化学専門家システムは、化学知識ベースと推論システムの組み合わせと見なすことができます。専門家システムの後、1990年代にジュデア・パール(Judea Pearl)はベイズネットワークを提唱しました。このネットワークは信念ネットワークとも呼ばれます。同時期に、ブルックスは行動に基づくロボティクスを提案し、行動主義の誕生を象徴しました。1997年、国際チェスAIが3.5:2.5でチェスチャンピオンのカスパロフ(Kasparov)に勝利しました。この勝利は人工知能のマイルストーンと見なされ、AI技術は第二次発展の高潮を迎えました。第三次AI技術の波は2006年に発生しました。深層学習の三大巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioは、人工神経ネットワークを基盤とするデータの表現学習アルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムはRNN、GANからTransformerやStable Diffusionへと徐々に進化し、これら2つのアルゴリズムがこの第三次技術の波を形作りました。これは連結主義の全盛期でもありました。深層学習技術の探求と進化に伴って、多くの象徴的な出来事が次第に現れました。これには次のものが含まれます:* 2011年、AIシステムが『危険な境界』(Jeopardy)のクイズ番組で人間に勝利し、優勝を果たしました。* 2014年、GoodfellowはGAN(生成的敵対ネットワーク、Generative Adversarial Network)を提案しました。これは、2つの神経ネットワークが互いに競い合うことで学習し、見分けがつかない写真を生成することができます。同時にGoodfellowは「Deep Learning」という書籍を執筆し、これは深層学習の分野で重要な入門書の一つとされています。* 2015年、ヒントンらは「ネイチャー」誌に深層学習アルゴリズムを提案し、この深層学習手法の提案は、学術界および産業界で直ちに大きな反響を呼び起こしました。* 2015年、OpenAIが設立され、多くの著名人が共同で10億ドルの出資を発表しました。* 2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンである職業九段棋士の李世石と囲碁の人間対コンピュータ戦を行い、4対1の総スコアで勝利した。* 2017年、あるテクノロジー企業が開発した人型ロボットソフィアは、歴史上初の一等市民権を持つロボットとして知られ、豊かな表情と人間の言語理解能力を備えています。※2017年、GoogleがTransformerアルゴリズムを提案した論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。※2018年、OpenAIは、当時最大級の言語モデルであったTransformerアルゴリズム上に構築されたGPT(Generative Pre-trained Transformer)をリリースしました。* 2018年、GoogleチームのDeepmindは深層学習に基づくAlphaGoを発表し、タンパク質の構造予測を行うことができ、人工知能分野の大きな進歩の象徴と見なされている。* 2019年、OpenAIはGPT-2を発表しました。このモデルは15億のパラメータを持っています。* 2020年、OpenAIによって開発されたGPT-3は、1,750億個のパラメータを持ち、以前のバージョンGPT-2の100倍の性能を誇ります。このモデルは570GBのテキストを使用して訓練されており、複数のNLP(自然言語処理)タスク(において、回答、翻訳、文章作成)で最先端の性能を達成します。* 2021年にOpenAIはGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。* 2023年1月にGPT-4モデルに基づいたChatGPTアプリケーションがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに達したアプリケーションとなった。※2024年、OpenAIはGPT-4 omniを発売します。注: 人工知能に関する論文は非常に多く、流派もさまざまで、技術の進化も異なるため、ここでは主に深層学習またはコネクショニズムの発展の歴史に従うものとします。他の流派や技術は依然として高速で進化している過程にあります。! [新参者科学人気丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c)## ディープラーニング産業チェーン現在、大規模モデル言語で使用されているのは、すべて神経ネットワークに基づく深層学習方法です。GPTを先頭にした大規模モデルは、人工知能のブームを生み出し、多くのプレイヤーがこの分野に参入しています。また、市場におけるデータと計算能力の需要が急激に増加していることもわかります。そのため、報告のこの部分では、深層学習アルゴリズムの産業チェーンを探求することに主眼を置いています。深層学習アルゴリズムが主導するAI業界において、その上流と下流はどのように構成されているのか、また上流と下流の現状や供給と需要の関係、将来の発展についても考察します。まず明確にする必要があるのは、Transformer技術に基づくGPTを中心としたLLMs(大規模モデル)のトレーニングは、合計で3つのステップに分かれているということです。トレーニングの前に、Transformerに基づいているため、コンバーターはテキスト入力を数値に変換する必要があります。このプロセスは「トークン化」と呼ばれ、その後これらの数値はトークンと呼ばれます。一般的な経験則として、英単語や文字はおおよそ1つのトークンと見なされ、各漢字はおおよそ2つのトークンと見なすことができます。これがGPTの価格設定に使用される基本単位でもあります。最初のステップは、プレトレーニングです。入力層に十分なデータ対を提供することによって、報告の第一部で示された(X,Y)のように、モデルの下で各ニューロンの最適なパラメータを見つけることを目的としています。この時、大量のデータが必要であり、このプロセスは最も計算資源を消費するプロセスです。なぜなら、ニューロンがさまざまなパラメータを試すために繰り返し反復する必要があるからです。データ対の一批のトレーニングが完了した後、通常は同じデータのバッチを使用してパラメータを反復するための二次トレーニングを行います。第二ステップ、ファインチューニング。ファインチューニングは、少量ですが非常に質の高いデータを用いてトレーニングを行うことです。このような変更により、モデルの出力の質が向上します。なぜなら、事前学習には大量のデータが必要ですが、多くのデータには誤りや低品質が含まれている可能性があるからです。ファインチューニングのステップは、質の高いデータを通じてモデルの品質を向上させることができます。第3ステップ、強化学習。まず、新しいモデルを構築します。これを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果のランキングを行うことです。そのため、このモデルの実装は比較的簡単です。なぜなら、ビジネスシーンが比較的垂直だからです。その後、このモデルを使用して、私たちの大きなモデルの出力が高品質であるかどうかを判断します。これにより、報酬モデルを使用して自動的に大きなモデルのパラメータを反復できるようになります。(しかし、時にはモデルの出力品質を評価するために人間の参加が必要です)要するに、大規模モデルのトレーニングプロセスでは、事前学習はデータの量に非常に高い要求を持ち、必要なGPU計算能力も最も多く、ファインチューニングはパラメータを改善するためにより高品質なデータを必要とし、強化学習は報酬モデルを通じてパラメータを反復的に更新し、より高品質な結果を出力することができます。トレーニングの過程で、パラメータが多ければ多いほど、その一般化能力の上限は高くなります。例えば、関数の例で示すと、Y = aX + bの場合、実際には2つのニューロンXおよびX0があります。したがって、パラメータがどのように変化しても、フィットできるデータは非常に限られています。なぜなら、その本質は依然として1本の直線だからです。ニューロンが多ければ多いほど、より多くのパラメータを反復でき、より多くのデータにフィットできるようになります。これが大規模モデルが奇跡を生む理由であり、一般的に「大モデル」と呼ばれる理由でもあります。本質的には、膨大な数のニューロンとパラメータ、膨大なデータが必要であり、同時に膨大な計算能力も必要です。したがって、大規模モデルのパフォーマンスに影響を与える主な要因は、パラメーターの数、データ量と質、計算能力の3つであり、これらが共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメーターの数をp、データ量をn(トークン数で計算すると)、一般的な経験則に従って必要な計算量を計算することができ、これにより、大まかに必要な計算能力の購入状況やトレーニング時間を予測することができます。計算能力は一般にFlopsを基本単位とし、1回の浮動小数点演算を表します。浮動小数点演算は整数でない数値の加減乗除の総称であり、例えば2.5+3.557のように、小数点を持つことができることを示します。FP16は小数をサポートする精度を示し、FP32は一般的により一般的な精度です。実践に基づく経験則によれば、事前トレーニング(Pre-traning)を1回(行うことが一般的です。
AI×暗号通貨:ディープラーニングが業界に与える革命的な影響を探る
AI x Crypto: ゼロからピークまで
人工知能業界の最近の急速な発展は、一部の人々によって第4次産業革命と見なされています。大規模言語モデルの出現は、各業界の効率を著しく向上させ、アメリカにおいて約20%の労働効率の向上をもたらしたと推定されています。同時に、大モデルがもたらす一般化能力は、新しいソフトウェア設計のパラダイムと見なされており、過去の正確なコード設計とは異なります。現在のソフトウェア設計は、より一般化された大モデルフレームワークをソフトウェアに組み込み、ソフトウェアがより良い性能を持ち、より広範なモダリティの入力と出力をサポートできるようにしています。深層学習技術は確かにAI業界に新たな繁栄をもたらし、この熱潮は暗号通貨業界にも影響を与えています。
本報告は、AI業界の発展の歴史、技術の分類、そしてディープラーニング技術の発明が業界に与える影響について詳しく探討します。次に、ディープラーニングにおけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流の発展状況とトレンドを深く分析します。その後、本質的にCryptoとAI業界の関係を探討し、Crypto関連のAI産業チェーンの構造を整理します。
AI業界の歴史
AI業界は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の下で、さまざまな人工知能の実現派閥を発展させてきました。
現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、機械がデータに依存してタスクを繰り返し反復することでシステムの性能を改善することです。主な手順は、データをアルゴリズムに送信し、このデータを使用してモデルを訓練し、モデルをテストしてデプロイし、モデルを使用して自動化された予測タスクを完了することです。
現在、機械学習には大きく分けて三つの主要な流派があり、連合主義、記号主義、行動主義がそれぞれ人間の神経系、思考、行動を模倣しています。
! 新人科学丨AI×暗号:ゼロからピークまで
現在、神経ネットワークを代表とする結合主義が優位を占めており(、深層学習とも呼ばれています)。この構造の主な理由は、入力層と出力層があり、複数の隠れ層が存在することです。一旦層数や神経元(の数が十分に多くなると、複雑な汎用タスクにフィットする十分な機会があります。データを入力することで、神経元のパラメータを継続的に調整でき、最終的に多くのデータを経た後、その神経元は最適な状態)のパラメータ(に達します。これがいわゆる「力強く奇跡を生む」ということであり、これが「深さ」という言葉の由来でもあります——十分な層数と神経元があるためです。
例えば、簡単に理解するために、関数を構築したとします。この関数にX=2を入力するとY=3、X=3を入力するとY=5になります。この関数がすべてのXに対応できるようにするには、この関数の次数とそのパラメータを追加し続ける必要があります。例えば、今私がこの条件を満たす関数を構築できるとすればY = 2X -1です。しかし、もしデータがX=2、Y=11であれば、この3つのデータ点に適した関数を再構築する必要があります。GPUを使用して力技で解くとY = X2 -3X +5が比較的適していますが、データと完全に一致する必要はありません。バランスを守り、大まかに似た出力が得られれば十分です。ここでX2、X、X0は異なるニューロンを表しており、1、-3、5はそのパラメータです。
この時、神経ネットワークに大量のデータを入力すると、ニューロンを増やしたり、パラメータを反復して新しいデータにフィットさせることができます。これにより、すべてのデータにフィットさせることができます。
神経ネットワークに基づく深層学習技術は、最初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANなど、複数の技術の反復と進化を経て、最終的にはGPTなどの現代の大規模モデルで使用されるTransformer技術へと進化しました。Transformer技術は神経ネットワークの進化の一方向であり、変換器)Transformer(を追加して、音声、映像、画像などのすべてのモダリティ)のデータを対応する数値にエンコードして表現します。次に、それを神経ネットワークに入力することで、神経ネットワークは任意の種類のデータをフィットさせることができ、すなわちマルチモーダルを実現します。
AIの発展は三つの技術波を経てきました。最初の波は20世紀の60年代で、AI技術が提案されてから十年後のことです。この波は、シンボリズム技術の発展によって引き起こされました。この技術は、一般的な自然言語処理や人間と機械の対話の問題を解決しました。同時期に、専門家システムが誕生しました。これは重要な化学知識の専門家システムであり、このシステムは非常に強力な化学知識を持ち、質問を通じて推論を行い、化学の専門家と同じような答えを生成します。この化学専門家システムは、化学知識ベースと推論システムの組み合わせと見なすことができます。
専門家システムの後、1990年代にジュデア・パール(Judea Pearl)はベイズネットワークを提唱しました。このネットワークは信念ネットワークとも呼ばれます。同時期に、ブルックスは行動に基づくロボティクスを提案し、行動主義の誕生を象徴しました。
1997年、国際チェスAIが3.5:2.5でチェスチャンピオンのカスパロフ(Kasparov)に勝利しました。この勝利は人工知能のマイルストーンと見なされ、AI技術は第二次発展の高潮を迎えました。
第三次AI技術の波は2006年に発生しました。深層学習の三大巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioは、人工神経ネットワークを基盤とするデータの表現学習アルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムはRNN、GANからTransformerやStable Diffusionへと徐々に進化し、これら2つのアルゴリズムがこの第三次技術の波を形作りました。これは連結主義の全盛期でもありました。
深層学習技術の探求と進化に伴って、多くの象徴的な出来事が次第に現れました。これには次のものが含まれます:
2011年、AIシステムが『危険な境界』(Jeopardy)のクイズ番組で人間に勝利し、優勝を果たしました。
2014年、GoodfellowはGAN(生成的敵対ネットワーク、Generative Adversarial Network)を提案しました。これは、2つの神経ネットワークが互いに競い合うことで学習し、見分けがつかない写真を生成することができます。同時にGoodfellowは「Deep Learning」という書籍を執筆し、これは深層学習の分野で重要な入門書の一つとされています。
2015年、ヒントンらは「ネイチャー」誌に深層学習アルゴリズムを提案し、この深層学習手法の提案は、学術界および産業界で直ちに大きな反響を呼び起こしました。
2015年、OpenAIが設立され、多くの著名人が共同で10億ドルの出資を発表しました。
2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンである職業九段棋士の李世石と囲碁の人間対コンピュータ戦を行い、4対1の総スコアで勝利した。
2017年、あるテクノロジー企業が開発した人型ロボットソフィアは、歴史上初の一等市民権を持つロボットとして知られ、豊かな表情と人間の言語理解能力を備えています。
※2017年、GoogleがTransformerアルゴリズムを提案した論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。
※2018年、OpenAIは、当時最大級の言語モデルであったTransformerアルゴリズム上に構築されたGPT(Generative Pre-trained Transformer)をリリースしました。
2018年、GoogleチームのDeepmindは深層学習に基づくAlphaGoを発表し、タンパク質の構造予測を行うことができ、人工知能分野の大きな進歩の象徴と見なされている。
2019年、OpenAIはGPT-2を発表しました。このモデルは15億のパラメータを持っています。
2020年、OpenAIによって開発されたGPT-3は、1,750億個のパラメータを持ち、以前のバージョンGPT-2の100倍の性能を誇ります。このモデルは570GBのテキストを使用して訓練されており、複数のNLP(自然言語処理)タスク(において、回答、翻訳、文章作成)で最先端の性能を達成します。
2021年にOpenAIはGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。
2023年1月にGPT-4モデルに基づいたChatGPTアプリケーションがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに達したアプリケーションとなった。
※2024年、OpenAIはGPT-4 omniを発売します。
注: 人工知能に関する論文は非常に多く、流派もさまざまで、技術の進化も異なるため、ここでは主に深層学習またはコネクショニズムの発展の歴史に従うものとします。他の流派や技術は依然として高速で進化している過程にあります。
! 新参者科学人気丨AI×暗号:ゼロからピークまで
ディープラーニング産業チェーン
現在、大規模モデル言語で使用されているのは、すべて神経ネットワークに基づく深層学習方法です。GPTを先頭にした大規模モデルは、人工知能のブームを生み出し、多くのプレイヤーがこの分野に参入しています。また、市場におけるデータと計算能力の需要が急激に増加していることもわかります。そのため、報告のこの部分では、深層学習アルゴリズムの産業チェーンを探求することに主眼を置いています。深層学習アルゴリズムが主導するAI業界において、その上流と下流はどのように構成されているのか、また上流と下流の現状や供給と需要の関係、将来の発展についても考察します。
まず明確にする必要があるのは、Transformer技術に基づくGPTを中心としたLLMs(大規模モデル)のトレーニングは、合計で3つのステップに分かれているということです。
トレーニングの前に、Transformerに基づいているため、コンバーターはテキスト入力を数値に変換する必要があります。このプロセスは「トークン化」と呼ばれ、その後これらの数値はトークンと呼ばれます。一般的な経験則として、英単語や文字はおおよそ1つのトークンと見なされ、各漢字はおおよそ2つのトークンと見なすことができます。これがGPTの価格設定に使用される基本単位でもあります。
最初のステップは、プレトレーニングです。入力層に十分なデータ対を提供することによって、報告の第一部で示された(X,Y)のように、モデルの下で各ニューロンの最適なパラメータを見つけることを目的としています。この時、大量のデータが必要であり、このプロセスは最も計算資源を消費するプロセスです。なぜなら、ニューロンがさまざまなパラメータを試すために繰り返し反復する必要があるからです。データ対の一批のトレーニングが完了した後、通常は同じデータのバッチを使用してパラメータを反復するための二次トレーニングを行います。
第二ステップ、ファインチューニング。ファインチューニングは、少量ですが非常に質の高いデータを用いてトレーニングを行うことです。このような変更により、モデルの出力の質が向上します。なぜなら、事前学習には大量のデータが必要ですが、多くのデータには誤りや低品質が含まれている可能性があるからです。ファインチューニングのステップは、質の高いデータを通じてモデルの品質を向上させることができます。
第3ステップ、強化学習。まず、新しいモデルを構築します。これを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果のランキングを行うことです。そのため、このモデルの実装は比較的簡単です。なぜなら、ビジネスシーンが比較的垂直だからです。その後、このモデルを使用して、私たちの大きなモデルの出力が高品質であるかどうかを判断します。これにより、報酬モデルを使用して自動的に大きなモデルのパラメータを反復できるようになります。(しかし、時にはモデルの出力品質を評価するために人間の参加が必要です)
要するに、大規模モデルのトレーニングプロセスでは、事前学習はデータの量に非常に高い要求を持ち、必要なGPU計算能力も最も多く、ファインチューニングはパラメータを改善するためにより高品質なデータを必要とし、強化学習は報酬モデルを通じてパラメータを反復的に更新し、より高品質な結果を出力することができます。
トレーニングの過程で、パラメータが多ければ多いほど、その一般化能力の上限は高くなります。例えば、関数の例で示すと、Y = aX + bの場合、実際には2つのニューロンXおよびX0があります。したがって、パラメータがどのように変化しても、フィットできるデータは非常に限られています。なぜなら、その本質は依然として1本の直線だからです。ニューロンが多ければ多いほど、より多くのパラメータを反復でき、より多くのデータにフィットできるようになります。これが大規模モデルが奇跡を生む理由であり、一般的に「大モデル」と呼ばれる理由でもあります。本質的には、膨大な数のニューロンとパラメータ、膨大なデータが必要であり、同時に膨大な計算能力も必要です。
したがって、大規模モデルのパフォーマンスに影響を与える主な要因は、パラメーターの数、データ量と質、計算能力の3つであり、これらが共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメーターの数をp、データ量をn(トークン数で計算すると)、一般的な経験則に従って必要な計算量を計算することができ、これにより、大まかに必要な計算能力の購入状況やトレーニング時間を予測することができます。
計算能力は一般にFlopsを基本単位とし、1回の浮動小数点演算を表します。浮動小数点演算は整数でない数値の加減乗除の総称であり、例えば2.5+3.557のように、小数点を持つことができることを示します。FP16は小数をサポートする精度を示し、FP32は一般的により一般的な精度です。実践に基づく経験則によれば、事前トレーニング(Pre-traning)を1回(行うことが一般的です。