| 開発 | LLM | 公開 | 特徴 | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| OpenAI | GPT-4 | 2023/03 | バランス良く高性能。ChatGPTで利用 | ||||||||||||
| Gemini 1.5 Pro | 2024/02 | 最大で100万トークンを扱える | |||||||||||||
| Anthropic | Claude 3 |
2024/03 |
3種類ある
|
||||||||||||
| Meta | Llama 2 | 2023/07 | オープンソースのため、これをベースとしたLLMが多数あり。たとえば2024/03に、Llama 2をベースとして700億パラメーターの日本語LLM「ELYZA-japanese-Llama-2-70b」が発表 | ||||||||||||
| Mistral AI | Mistral Large 2 | 2024/07/24 | 仏Mistral AI、最新LLM「Mistral Large 2」を公開 コード生成で米Meta「Llama 3.1」と同程度の性能 - ITmedia AI+ 松浦立樹 (2024/07/25) | ||||||||||||
| ELYZA | LYZA LLM | Llama-3-ELYZA-JP-8B ELYZA、700億パラメータの日本語LLM「Llama-3-ELYZA-JP-70B」を開発、ベンチマークでGPT-4などを上回る | IT Leaders 日川佳三 (2024/06/26) | |||||||||||||
| Cohere | Command R+ | オフラインで利用可能。ASCII.jp:まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性 (1/5) 新清士 (2024/05/13) | |||||||||||||
| NVIDIA | Nemotron-4 | 2024/06/14 | 合成データ (Synthetic Data) の生成に特化 ASCII.jp:NVIDIA、超優秀なオープンAIモデル 学習データ生成用だけどすごいぞ 田口和裕 (2024/06/20) |
| ビット数 | 量子化方式の例 | 特徴 | 用途 |
|---|---|---|---|
| 32bit | FP32 | 元の精度。メモリ使用量が大きい | |
| 16bit | FP16 / BF16 | 精度と速度のバランスが良い | 学習 |
| 8bit | INT8 | メモリ使用量が半分 | 推論 |
| 4bit | INT4 / Q4 | メモリ使用量がさらに半分 | ローカルLLM |
| 3bit | Q3 | 精度が低下しやすい | 小型デバイス |
単位は10億を表すBillionのBで、1Bはパラメータ数が10億であることを意味します。これが大きいと推論能力や理解力が向上しますが、必要メモリ量と実行時の負荷が大きくなります。
入力ごとに複数のモデルを切り替えるMoE (Mixture of Experts) では8x7Bのように表現し、70憶パラメータのサブモデル8つで構成されます。
| GPTQ (Generative Pre-trained Transformer Quantization) | AWQ (Activation-aware Weight Quantization) | |
|---|---|---|
| 精度 | 良い | 非常に良い |
| 量子化の処理 | 遅い | やや早い |
量子化の形式やモデルファイルは、"quant"と呼称されます。
さまざまな量子化形式を、統一形式で管理できます。ggml/docs/gguf.md at master · ggml-org/ggml · GitHub
量子化の形式は"Q4_K_M"のように、"ビット数_量子化種類_規模"の書式で表現されます。
| 形式 | 系統 | 内部構造 | 精度 | メモリ効率 | 推論速度 | 特徴 |
|---|---|---|---|---|---|---|
| Q4_0 | 旧式 | ブロック毎に1スケール | 低〜中 | 良い | 速い | もっとも古い4bit方式 |
| Q4_1 | 旧式 | ブロック毎に1スケール+ゼロ点 | 中 | 良い | 速い | Q4_0の改良版 |
| Q4_K_S | k-means | コードブック+複数スケール。Small構成 | 中〜高 | やや良い | 最速 | 高速で精度が良い |
| Q4_K_M | k-means | コードブック+複数スケール。Medium構成 | 高 | 中 | やや遅い | 最も精度が高い |
ローカルでAIチャットボットを動作させられます。
アプリケーションとLLMとの接続を標準化するためのプロトコルです。
【西川和久の不定期コラム】「MCP」でチャットAIが外に飛び出せる!Claude DesktopでDBとファイルを操作してみた - PC Watch 西川和久 (2024/12/11) Introduction - Model Context Protocol