最近、「ChatGPT」や「Gemini」といったAIの名前を耳にしない日はないですよね。これらはまとめて「生成AI」と呼ばれますが、実はその裏側には、モデルの規模や目的によって異なるアプローチが存在します。
今回は、AIの進化を理解する上で欠かせない2つの概念、LLM(大規模言語モデル)とSLM(小規模言語モデル)について、最新の技術動向も踏まえ、あなたの経験と結びつけて分かりやすく解説します。
万能な神「LLM」vs 特定ジャンルの専門家「SLM」

LLMは世界を統べる万能な神
OpenAIの『ChatGPT』やGoogleの『Gemini』など、すっかり私たちにもお馴染みとなったAIは、LLM(Large Language Model)と呼ばれ、インターネット上の膨大なデータを学習した「万能なAI」です。
その能力は全知全能の神、とまでは言いすぎですが、世界中の知識を集めた巨大な図書館のようなもの。専門的な質問から日常の雑談まで、幅広い用途に対応できます。しかし、その巨大さゆえに、LLMを動かすには高性能なGPU(Graphics Processing Unit)が不可欠となります。
GPUとは、PCの画面に文字や動画を表示するための描画専用プロセッサーのことで、個人向けPC用なら、Nvidiaの『GeForce』シリーズや、AMDの『Radeon』シリーズなどが、よく知られています。
では、なぜLLMにGPUが必要なのでしょうか? それは、LLMが数千億から数兆にも及ぶ、膨大なパラメータ(重み付けされた数値)を扱っているからです。
人間の脳は、ニューロンと呼ばれる神経細胞がネットワーク状に繋がってできている、というのはご存じと思います。LLMは、こうした人間の脳の仕組みを模倣しており、その繋がり一つひとつに、重み付けされた数値(パラメータ)が存在します。
パラメータを例えるなら、自転車に乗る練習に似ています。最初は何度も転びますが、脳は「このバランスのとり方ではダメだ。ペダルを踏む力ももっと強くしよう」などと学習していき、ニューロンのつながりが次第に強くなっていきます。これが、「パラメーターの重み」です。
最新のLLMは、このパラメータ数が数千億から数兆にも及びます。この膨大なパラメータを高速で計算し、かつ、ユーザーの質問に正確な答えを返すためには、数え切れないほどの単純な計算を同時にこなす必要があります。
GPUは3Dグラフィックを描画するために、膨大な数の点や色を同時に計算して処理します。この並列処理能力が、LLMの膨大な計算にピッタリとマッチした、というわけです。
ちなみに、GPU最大手のNvidia社はAI特需で業績はウナギ上り。2025年7月には時価総額4兆ドル(日本円で約591兆円)を記録し、一時的にですが、時価総額世界1位となりました。ぼろ儲けですね。
SLMは特定の分野に特化した「デバイスの専門家」
SLM(Small Language Model)は、LLMに比べて比較的小規模なモデルです。LLMのように万能ではありませんが、特定のジャンルや用途に特化することで、高い効率と専門性を発揮します。
SLMを例えると、「特定の分野に精通した頼れる専門家」と言ったところです。医療や法務など、特定分野の業務に特化することで、高い精度を効率的に実現します。
そして今、このSLMが注目される背景には、「AIのローカル実行」という大きなトレンドがあります。

先述したとおり、これまでのSLMは「特定のデバイス向け」や「特定の用途」に特化したものがほとんどでした。企業のカスタマーサポートでFAQに回答するチャットボットや、スマートフォンの「Apple Siri」や「Google Assistant」のオフライン機能などが、そうした例です。
しかし、最近では「LLM品質のAIを、PCやスマホの中で動かす」という動きが活発になっています。つまり、ChatGPTやGeminiのようなAIが、私たちのPCやスマートフォンの中で動かせる、ということです。
この夢のような使い方を可能にしているのが、以下の2つの技術です。
1つは、量子化(Quantization)です。 AIモデルは通常、高精度なデータで計算しますが、高精度であるほどデータ量は膨大になります。量子化は、あえてデータの精度を落として圧縮する技術です。これにより、モデルのファイルサイズが劇的に小さくなり、メモリの消費量も大幅に削減されます。
たとえば、円周率は3.14159265359…………と、小数点以下が35桁まで解析されていますが、実用上は3.14とか、せいぜい3.141592くらいまでで問題ありませんよね? ま、そういうことです。
もう1つの技術が、CPUオフロードです。LLMではAIの推論に、高速かつ並列処理に長けているGPUが不可欠でしたが、量子化されて小さくなったデータは、CPUでも計算可能な範囲に収まります。これにより、GPUのVRAMだけでなく、PCのメインメモリ(RAM)でもAIを動かせるようになりました。
この技術によって「gpt-oss-20b」のようなSLMは、高性能なGPUがなくても、PCやMacで動かせるようになりました。具体的には、16GB以上のメインメモリがあれば、「gpt-oss-20b」を動かすことができ、ネット上にはMacBookでも動作したという報告が数多く見られます。
まとめ:LLMとSLMは、賢く使い分けることが活用の鍵

LLMとSLM、どちらが優れているということではありません。「何に使うか?」に応じて使い分けることが、AIを最大限に活用する鍵となります。漫画を読むために図書館へ行くか、それともネットカフェに行くか、みたいな感じですね(ちょっと違う?)。
| LLM(大規模言語モデル) | SLM(小規模言語モデル) | |
| 得意なこと | 汎用的な質問、複雑なタスク、アイデア出し | 特定の専門分野の質問、リアルタイム応答、デバイス内での処理 |
| 例えるなら | 豊富な知識を持つ物知り博士 | 身近なAIアシスタント |
大切なデータを守るならSLM搭載のAI PC
SLMがPCで動かせると言っても、ストレスのない速度で動かすには、ある程度のスペックは必要になります。メインメモリだけを16GBに増やしても、肝心のCPUの性能が低かったりすると、実用的な処理速度を得るのは厳しいでしょう。今のところ、古いPCでは、ちょっと厳しいかな? という感じです。
また、企業ではセキュリティー上の理由で、ChatGPTやGeminiのような、インターネットに接続するAIの使用を禁止しているところも多くなっています。実際に、顧客情報やパスワードのような重要な情報がAIの学習データとして読み込まれ、一定期間、誰でもインターネット経由で閲覧できる状態になっていた、という事故もありました。
そこで、最近注目されているのが、最初からSLMを搭載している「AI PC」とか「AIパソコン」と呼ばれる製品です。まずは、「AI PC」の主な特徴を3つ挙げておきましょう。
【AI PC 3つの特徴】
- ハードウェアが最適化されている:最近のAI PCに搭載されているNPU(Neural Processing Unit)は、AIの推論(予測や計算)に特化した専用プロセッサです。SLMの計算を、高速かつ省電力で行うように設計されています。
- データプライバシーが守られる:AI PCでSLMを動かす場合、処理がすべてPCの内部で行われるため、ユーザーのデータが外部のサーバーに送信されることはありません。これにより、個人情報や機密性の高い情報を扱う際にも高い安全性を確保できます。
- 高速な応答が可能:ネットワークを経由してクラウド上のLLMにアクセスする場合、どうしても通信の遅延が発生します。しかし、AI PCは内部で直接SLMを動かすので、ネットワーク状況に左右されず、リアルタイムに近い応答速度を実現できます。
AI PCは、SLMとLLMとの合わせ技が便利!
AI PCは、必ずしもSLMだけで完結するわけではありません。
- AI PC内のSLM: 文章の要約、画像編集、議事録のリアルタイム作成など、日常的なタスクを高速に処理します。
- クラウド上のLLM: より専門的で複雑な質問や、膨大なデータに基づく検索など、高度なタスクをクラウド上のLLMに任せます。
このように、AI PCは、PC内のSLMとクラウド上のLLMを賢く使い分けることで、ユーザーに最高のAI体験を提供することを目指しています。
こうしたAI PCは、すでに各社から発売されており、Windows 10のサポート終了を控えたPC市場で熱い注目を浴びています。


