大規模言語モデル (Large Language Models : LLM)

開発

LLM

公開

特徴

OpenAI

2023/03

バランス良く高性能。ChatGPTで利用

Google

Gemini 1.5 Pro

2024/02

最大で100万トークンを扱える

Anthropic(アンスロピック)

Claude(クロード) 3

2024/03

3種類ある

モデルの圧縮

ビット数	量子化方式の例	特徴	用途
32bit	FP32	元の精度。メモリ使用量が大きい
16bit	FP16 / BF16	精度と速度のバランスが良い	学習
8bit	INT8	メモリ使用量が半分	推論
4bit	INT4 / Q4	メモリ使用量がさらに半分	ローカルLLM
3bit	Q3	精度が低下しやすい	小型デバイス

単位は10億を表すBillionのBで、1Bはパラメータ数が10億であることを意味します。これが大きいと推論能力や理解力が向上しますが、必要メモリ量と実行時の負荷が大きくなります。

入力ごとに複数のモデルを切り替えるMoE (Mixture of Experts) では8x7Bのように表現し、70憶パラメータのサブモデル8つで構成されます。

GPU専用
	GPTQ (Generative Pre-trained Transformer Quantization)	AWQ (Activation-aware Weight Quantization)
精度	良い	非常に良い
量子化の処理	遅い	やや早い

量子化の形式やモデルファイルは、"quant"と呼称されます。

さまざまな量子化形式を、統一形式で管理できます。ggml/docs/gguf.md at master · ggml-org/ggml · GitHub

量子化の形式は"Q4_K_M"のように、"ビット数_量子化種類_規模"の書式で表現されます。

4bit 量子化形式の比較
形式	系統	内部構造	精度	メモリ効率	推論速度	特徴
Q4_0	旧式	ブロック毎に1スケール	低〜中	良い	速い	もっとも古い4bit方式
Q4_1	旧式	ブロック毎に1スケール+ゼロ点	中	良い	速い	Q4_0の改良版
Q4_K_S	k-means	コードブック＋複数スケール。Small構成	中〜高	やや良い	最速	高速で精度が良い
Q4_K_M	k-means	コードブック＋複数スケール。Medium構成	高	中	やや遅い	最も精度が高い