AIの基本をおさらい

2025年12月26日

1. いま言われる「AI」は何を指しているか

最近話題のAIは、以下の3層構造で理解すると分かりやすいです。

  • 生成AI:文章・画像・音声などを“作る”AIの総称
  • LLM(大規模言語モデル):生成AIのうち、特に**「言葉」**を扱う中核頭脳(ChatGPTの中身など)
  • チャットUI:人間が使いやすい対話画面(あくまで操作パネル)

2. LLM(大規模言語モデル)の基本イメージ

LLMを極端に単純化すると、**「次に来る言葉当てゲームの達人」**です。

仕組みの核心 大量の文章を読み込み、「この文脈なら、次に来そうな単語(トークン)は何か?」を確率で予測して並べていきます。

トークンとは:AIが言葉を扱う最小単位(文字のかたまり)。AIは単語そのものではなく、トークン単位で計算しています。

3. どうやって“賢く”なるのか(学習の3ステップ)

  1. 事前学習 (Pretraining)
    • ネットや書籍の大量テキストを読み、「次の言葉」を予測し続けることで、言語のパターンや一般常識を習得します。
  2. 追加学習・調整 (Fine-tuning)
    • 「質問に答える」「要約する」といった指示に従うよう、特定のデータで訓練し、実用的にします。
  3. 人の好みに合わせる調整 (RLHFなど)
    • 人間が「どちらの回答が良いか」を評価し、安全性や自然さを向上させます。

4. 生成AIの「生成」の裏側

あなたが質問をした時、AIは以下の処理を高速で繰り返しています。

  1. あなたの入力(プロンプト)をトークンに分解
  2. 「次のトークンの候補と確率」を計算
  3. 確率に基づき1つ選ぶ(ここにランダム性がある
  4. 選んだ言葉を文脈に追加し、また次を予測

Point: 毎回確率で選ぶため、同じ質問でも少し違う答えになることがあります(設定で「創造性」の度合いが変わります)。

5. チャットUIと「モデル本体」の違い

チャット画面(UI)は、あくまで「器」です。賢さの本体は裏側のモデル(LLM)にあります。

役割具体例
モデル (LLM)思考・生成エンジン。 実際に文章を考え、作る場所。
チャットUI司令塔・翻訳機。 会話履歴をまとめる、検索ツールを呼び出す、結果を見やすく表示する。

6. 知っておくべき「限界」

LLMは万能ではありません。以下の弱点を理解しておきましょう。

  • 知識は更新されない:学習時点までの情報しか持っていません(最新ニュースは検索が必要)。
  • もっともらしい嘘(幻覚/ハルシネーション):確率で文章をつなぐため、事実無根でも自信満々に断言することがあります。
  • 計算や厳密さが苦手:文章を作るのは得意でも、論理的な計算や手順の厳守でミスをすることがあります。

7. 生成AIの「得意・不得意」分類

実務では、この分類で使いどころを見極めます。

分類得意度向いているタスク注意点
A. 言葉の作業◎ 得意要約、翻訳、メール作成、アイデア出し文体やニュアンスの指定が重要
B. 知識の整理〇 条件付一般論の解説、論点整理、背景説明「事実の正確さ」は要検証
C. 事実確認△ 不得意最新ニュース、統計データ、法律の現行規定検索や一次情報の確認が必須

8. なぜ「賢い」と錯覚するのか

LLMは「文章の流れを作る能力」が非常に高いため、人間のような理解意思があるように見えます。

実態 「意識」や「目的」を持っているわけではありません。あくまで**「人間らしい反応のパターン」**を出力しているに過ぎません。これを理解すると、過信を防げます。

9. 道具と組み合わせて真価を発揮する

最近は「LLM単体」ではなく、周辺機能とセットで使うのが主流です。

  • 検索(ブラウジング):最新情報を取りに行く
  • RAG(ラグ):社内文書やPDFを読み込ませて回答させる
  • ツール実行:計算、グラフ作成、プログラム実行など
  • エージェント:複雑なタスクを分解し、自律的に実行する

10. 安全で賢い使い方の「型」

プロンプト(指示)を出すときは、以下の要素を含めると精度が上がります。

  1. 目的を一言で:「何のために行うのか」
  2. 条件を箇条書き:「こうしてほしい」「これはNG」
  3. 不確かな部分は確認:「根拠も提示して」「出典を教えて」
  4. 最終確認:重要な事実(医療・法律・お金など)は必ず一次情報で裏取りをする

トークンとは:AIが言葉を扱う最小単位(文字のかたまり)。AIは単語そのものではなく、トークン単位で計算しています。

「トークン」は直感的にわかりにくい部分ですので、具体例で見ていくのが一番早いです。

AIにとってのトークンは、人間でいう「単語」よりも、**「意味の最小単位」や「データ処理の都合が良い区切り」**に近いです。

大きく分けて3つのパターン(英語、日本語、記号)で例を挙げます。

1. 英語の例(単語が分解される)

英語では、長い単語や変化形が分解されることがよくあります。

  • 一般的な単語:
    • apple1トークン(そのまま)
  • 複合語や活用形:
    • smartphonessmart + phone + s3トークンに分かれることが多い)
    • cookingcook + ing2トークン

なぜ? 「cook」とい「ing」を知っていれば、「play」+「ing」など他の単語に応用が効くため、分解して覚える方が効率的だからです。

2. 日本語の例(文字単位で刻まれる)

日本語は英語に比べて文字種(ひらがな、カタカナ、漢字)が多いため、細かく刻まれやすい傾向があります。

  • よくある言葉:
    • こんにちは1トークン(定型句なのでひとまとまり)
    • 東京都1トークン(よく出る地名はひとまとまり)
  • 少し複雑な文:
    • 食べました食べ + ました2トークン
    • 生成AI生成 + AI2トークン
  • 珍しい漢字や固有名詞:
    • 魑魅魍魎(ちみもうりょう) → + + + 4トークン、あるいはそれ以上)

ポイント 日本語の場合、だいたい 「ひらがな・漢字 1文字 〜 2文字」で1トークン くらいになることが多いです。 (※よく「日本語は英語よりトークン数を消費して料金が高くなる」と言われるのは、このためです)

3. 文字以外(スペース・数字・記号)

ここが意外な落とし穴です。文字に見えないものもトークンです。

  • スペース(空白):
    • AI(前に空白あり) → _AI (空白込みで1トークンになることが多い)
  • 記号:
    • ? → それぞれ 1トークン
  • 数字:
    • 1001トークン
    • 202520 + 252トークンに分かれることがある)

なぜこれが重要なのか?(計算ミスの原因)

トークンの仕組みがわかると、AIの**「計算が苦手」**な理由がわかります。

人間は 1000 + 20 を「千 たす 二十」と理解しますが、 AI(モデルによっては)これを、 10 + 00 + + + 20 のような「数字の文字列の並び」として処理してしまうことがあります。

そのため、「数字の意味」ではなく「言葉の並び」として予測してしまい、桁数が多い計算などで間違えることがあるのです。

最新のお知らせ

thumb
2026年1月4日
PostgreSQL+pgvector ベクトル検索テスト(Cosine距離 + AI要約)

類似検索(ベクトル)対応:pgvector このpgvectorの記事を...

thumb
2026年1月4日
AIの仕組みについて

Geminiの仕組みにGeminiに聞いてみる。その中身を紐解いていき...

thumb
2025年12月26日
AIの基本をおさらい

1. いま言われる「AI」は何を指しているか 最近話題のAI...

thumb
2025年12月19日
SUNOで生成した楽曲を公開

https://iplusone.co.jp/suno-songs 12/1から開始し...

No Image
2025年12月18日
曲を作るという世界のパラダイムシフト

ギターを弾くとコード進行とかメロディラインとか、フレーズと...

thumb
2025年12月2日
WEBアプリケーションを取り巻く開発環境、開発言語について考える

WEBアプリケーションを取り巻く「開発環境」と「開発言語」につ...

thumb
2025年12月2日
最高なAIのアプリ SUNO

今一番エキサイティングなAIアプリは、このSUNOだろう。音...

No Image
2025年12月2日
事業計画を作るAIチャットを作成する

「事業計画を作るAIチャット」を本気で“実用レベル”に落とし込...

No Image
2025年11月30日
Spotifyのリンクを埋め込みできるようになりました。

https://open.spotify.com/intl-ja/track/2UYBoHQfheo5OtnjRd9...

thumb
2025年11月29日
スピードと量 深みと質の担保

さあ、もうスピードと量についてはAIにお任せして、人間は...