大規模言語モデル (Large Language Models : LLM)

開発 LLM 公開 特徴
OpenAI GPT-4 2023/03 バランス良く高性能。ChatGPTで利用
Google Gemini 1.5 Pro 2024/02 最大で100万トークンを扱える
Anthropic(アンスロピック) Claude(クロード) 3
2024/03 3種類ある
種類 特徴 名前の意味
Opus(オーパス) 有償で最高性能 作品
Sonnet(ソネット) 無料のチャットAIでも使える一般性能 14行から成るヨーロッパの定型詩
Haiku 有償で高速でコンパクト 5+7+5の17音から成る日本の短い詩
Meta Llama 2 2023/07 オープンソースのため、これをベースとしたLLMが多数あり。たとえば2024/03に、Llama 2をベースとして700億パラメーターの日本語LLM「ELYZA-japanese-Llama-2-70b」が発表
Mistral AI Mistral Large 2 2024/07/24 仏Mistral AI、最新LLM「Mistral Large 2」を公開 コード生成で米Meta「Llama 3.1」と同程度の性能 - ITmedia AI+ 松浦立樹 (2024/07/25)
ELYZA(イライザ) LYZA LLM   Llama-3-ELYZA-JP-8B ELYZA、700億パラメータの日本語LLM「Llama-3-ELYZA-JP-70B」を開発、ベンチマークでGPT-4などを上回る | IT Leaders 日川佳三 (2024/06/26)
Cohere Command R+   オフラインで利用可能。ASCII.jp:まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5) 新清士 (2024/05/13)
NVIDIA Nemotron(ネモトロン)-4 2024/06/14 合成データ (Synthetic Data) の生成に特化 ASCII.jp:NVIDIA、超優秀なオープンAIモデル 学習データ生成用だけどすごいぞ 田口和裕 (2024/06/20)
生成AIの用語10選 ~ 一般ユーザーが知っておくべき基礎知識:AI・機械学習の用語辞典 - @IT 一色政彦 (2024/03/29)

モデルの圧縮

  • Pruning (枝刈り)
  • Quantize (量子化)
  • Distillation (蒸留)
ディープラーニングを軽量化する「モデル圧縮」3手法 – 株式会社Laboro.AI 内木賢吾 (2020/02/13)

量子化 (quantization)

ビット数

ビット数 量子化方式の例 特徴 用途
32bit FP32 元の精度。メモリ使用量が大きい  
16bit FP16 / BF16 精度と速度のバランスが良い 学習
8bit INT8 メモリ使用量が半分 推論
4bit INT4 / Q4 メモリ使用量がさらに半分 ローカルLLM
3bit Q3 精度が低下しやすい 小型デバイス

パラメータ数

単位は10億を表すBillionのBで、1Bはパラメータ数が10億であることを意味します。これが大きいと推論能力や理解力が向上しますが、必要メモリ量と実行時の負荷が大きくなります。

入力ごとに複数のモデルを切り替えるMoE (Mixture of Experts) では8x7Bのように表現し、70憶パラメータのサブモデル8つで構成されます。

形式

GPU専用
  GPTQ (Generative Pre-trained Transformer Quantization) AWQ (Activation-aware Weight Quantization)
精度 良い 非常に良い
量子化の処理 遅い やや早い

量子化の形式やモデルファイルは、"quant"と呼称されます。

GGUF (GPT-Generated Unified Format)

さまざまな量子化形式を、統一形式で管理できます。ggml/docs/gguf.md at master · ggml-org/ggml · GitHub

量子化の形式は"Q4_K_M"のように、"ビット数_量子化種類_規模"の書式で表現されます。

4bit 量子化形式の比較
形式 系統 内部構造 精度 メモリ効率 推論速度 特徴
Q4_0 旧式 ブロック毎に1スケール 低〜中 良い 速い もっとも古い4bit方式
Q4_1 旧式 ブロック毎に1スケール+ゼロ点 良い 速い Q4_0の改良版
Q4_K_S k-means コードブック+複数スケール。Small構成 中〜高 やや良い 最速 高速で精度が良い
Q4_K_M k-means コードブック+複数スケール。Medium構成 やや遅い 最も精度が高い

LLMの実行環境

ローカルでAIチャットボットを動作させられます。

LLMとアプリケーションの接続

MCP (Model Context Protocol)

アプリケーションとLLMとの接続を標準化するためのプロトコルです。

【西川和久の不定期コラム】「MCP」でチャットAIが外に飛び出せる!Claude DesktopでDBとファイルを操作してみた - PC Watch 西川和久 (2024/12/11) Introduction - Model Context Protocol