AIの基本をおさらい

2025年12月26日

1. いま言われる「AI」は何を指しているか

最近話題のAIは、以下の3層構造で理解すると分かりやすいです。

  • 生成AI:文章・画像・音声などを“作る”AIの総称
  • LLM(大規模言語モデル):生成AIのうち、特に**「言葉」**を扱う中核頭脳(ChatGPTの中身など)
  • チャットUI:人間が使いやすい対話画面(あくまで操作パネル)

2. LLM(大規模言語モデル)の基本イメージ

LLMを極端に単純化すると、**「次に来る言葉当てゲームの達人」**です。

仕組みの核心 大量の文章を読み込み、「この文脈なら、次に来そうな単語(トークン)は何か?」を確率で予測して並べていきます。

トークンとは:AIが言葉を扱う最小単位(文字のかたまり)。AIは単語そのものではなく、トークン単位で計算しています。

3. どうやって“賢く”なるのか(学習の3ステップ)

  1. 事前学習 (Pretraining)
    • ネットや書籍の大量テキストを読み、「次の言葉」を予測し続けることで、言語のパターンや一般常識を習得します。
  2. 追加学習・調整 (Fine-tuning)
    • 「質問に答える」「要約する」といった指示に従うよう、特定のデータで訓練し、実用的にします。
  3. 人の好みに合わせる調整 (RLHFなど)
    • 人間が「どちらの回答が良いか」を評価し、安全性や自然さを向上させます。

4. 生成AIの「生成」の裏側

あなたが質問をした時、AIは以下の処理を高速で繰り返しています。

  1. あなたの入力(プロンプト)をトークンに分解
  2. 「次のトークンの候補と確率」を計算
  3. 確率に基づき1つ選ぶ(ここにランダム性がある
  4. 選んだ言葉を文脈に追加し、また次を予測

Point: 毎回確率で選ぶため、同じ質問でも少し違う答えになることがあります(設定で「創造性」の度合いが変わります)。

5. チャットUIと「モデル本体」の違い

チャット画面(UI)は、あくまで「器」です。賢さの本体は裏側のモデル(LLM)にあります。

役割具体例
モデル (LLM)思考・生成エンジン。 実際に文章を考え、作る場所。
チャットUI司令塔・翻訳機。 会話履歴をまとめる、検索ツールを呼び出す、結果を見やすく表示する。

6. 知っておくべき「限界」

LLMは万能ではありません。以下の弱点を理解しておきましょう。

  • 知識は更新されない:学習時点までの情報しか持っていません(最新ニュースは検索が必要)。
  • もっともらしい嘘(幻覚/ハルシネーション):確率で文章をつなぐため、事実無根でも自信満々に断言することがあります。
  • 計算や厳密さが苦手:文章を作るのは得意でも、論理的な計算や手順の厳守でミスをすることがあります。

7. 生成AIの「得意・不得意」分類

実務では、この分類で使いどころを見極めます。

分類得意度向いているタスク注意点
A. 言葉の作業◎ 得意要約、翻訳、メール作成、アイデア出し文体やニュアンスの指定が重要
B. 知識の整理〇 条件付一般論の解説、論点整理、背景説明「事実の正確さ」は要検証
C. 事実確認△ 不得意最新ニュース、統計データ、法律の現行規定検索や一次情報の確認が必須

8. なぜ「賢い」と錯覚するのか

LLMは「文章の流れを作る能力」が非常に高いため、人間のような理解意思があるように見えます。

実態 「意識」や「目的」を持っているわけではありません。あくまで**「人間らしい反応のパターン」**を出力しているに過ぎません。これを理解すると、過信を防げます。

9. 道具と組み合わせて真価を発揮する

最近は「LLM単体」ではなく、周辺機能とセットで使うのが主流です。

  • 検索(ブラウジング):最新情報を取りに行く
  • RAG(ラグ):社内文書やPDFを読み込ませて回答させる
  • ツール実行:計算、グラフ作成、プログラム実行など
  • エージェント:複雑なタスクを分解し、自律的に実行する

10. 安全で賢い使い方の「型」

プロンプト(指示)を出すときは、以下の要素を含めると精度が上がります。

  1. 目的を一言で:「何のために行うのか」
  2. 条件を箇条書き:「こうしてほしい」「これはNG」
  3. 不確かな部分は確認:「根拠も提示して」「出典を教えて」
  4. 最終確認:重要な事実(医療・法律・お金など)は必ず一次情報で裏取りをする

トークンとは:AIが言葉を扱う最小単位(文字のかたまり)。AIは単語そのものではなく、トークン単位で計算しています。

「トークン」は直感的にわかりにくい部分ですので、具体例で見ていくのが一番早いです。

AIにとってのトークンは、人間でいう「単語」よりも、**「意味の最小単位」や「データ処理の都合が良い区切り」**に近いです。

大きく分けて3つのパターン(英語、日本語、記号)で例を挙げます。

1. 英語の例(単語が分解される)

英語では、長い単語や変化形が分解されることがよくあります。

  • 一般的な単語:
    • apple1トークン(そのまま)
  • 複合語や活用形:
    • smartphonessmart + phone + s3トークンに分かれることが多い)
    • cookingcook + ing2トークン

なぜ? 「cook」とい「ing」を知っていれば、「play」+「ing」など他の単語に応用が効くため、分解して覚える方が効率的だからです。

2. 日本語の例(文字単位で刻まれる)

日本語は英語に比べて文字種(ひらがな、カタカナ、漢字)が多いため、細かく刻まれやすい傾向があります。

  • よくある言葉:
    • こんにちは1トークン(定型句なのでひとまとまり)
    • 東京都1トークン(よく出る地名はひとまとまり)
  • 少し複雑な文:
    • 食べました食べ + ました2トークン
    • 生成AI生成 + AI2トークン
  • 珍しい漢字や固有名詞:
    • 魑魅魍魎(ちみもうりょう) → + + + 4トークン、あるいはそれ以上)

ポイント 日本語の場合、だいたい 「ひらがな・漢字 1文字 〜 2文字」で1トークン くらいになることが多いです。 (※よく「日本語は英語よりトークン数を消費して料金が高くなる」と言われるのは、このためです)

3. 文字以外(スペース・数字・記号)

ここが意外な落とし穴です。文字に見えないものもトークンです。

  • スペース(空白):
    • AI(前に空白あり) → _AI (空白込みで1トークンになることが多い)
  • 記号:
    • ? → それぞれ 1トークン
  • 数字:
    • 1001トークン
    • 202520 + 252トークンに分かれることがある)

なぜこれが重要なのか?(計算ミスの原因)

トークンの仕組みがわかると、AIの**「計算が苦手」**な理由がわかります。

人間は 1000 + 20 を「千 たす 二十」と理解しますが、 AI(モデルによっては)これを、 10 + 00 + + + 20 のような「数字の文字列の並び」として処理してしまうことがあります。

そのため、「数字の意味」ではなく「言葉の並び」として予測してしまい、桁数が多い計算などで間違えることがあるのです。

最新のお知らせ

thumb
2026年2月26日
なぜDDDは「オニオン」や「クリーン」とセットで語られるのか?現場で役立つ5つの本質的教訓

1. はじめに:私たちはなぜ「DDD難民」になってしまうのか...

thumb
2026年2月26日
UNIXとC言語の誕生

1969年に、デニスリッチーはケン・トンプソンと共に、ベル研究...

No Image
2026年2月25日
2026 AI企業のこれからを予測してみよう

2026年、AI企業は「技術の凄さ」を競う段階から、「社会のイン...

thumb
2026年2月24日
DeepSeek、Moonshot AI、MiniMaxの3社が偽アカウント2.4万超を作って、Claude1600万回以上不正使用

いや、本当にえぐいニュースですよね。巨額の資金と時間を...

thumb
2026年2月24日
プログラミング・パラダイムシフト

プログラム、プログラミングという世界は10年に1度くらいでパラ...

thumb
2026年2月23日
ヨハン・セバスチャン・バッハ の世界

ヨハン・セバスチャン・バッハ の世界 SUNOでクラシカル...

thumb
2026年2月17日
【SaaS全滅】時価総額160兆円が消失したSaaSapocalypseの全貌と市場構造の激変

SaaSapocalypse サース・アポカプリス さーす・あぽかぷりす...

No Image
2026年2月13日
ダーツについて調べてまとめてみました

久しぶりに知っている営業から電話があったので、キーワードを...

thumb
2026年2月12日
AIエージェントの「USB-C」:Model Context Protocol(MCP)が変える未来

AI活用の新標準:MCP解説 1. イントロダクション:...

thumb
2026年2月11日
2026年版:ローカルコンテナの中に、自分だけのAI環境を構築したい

ローカルコンテナ(Docker)を使って自分だけのAI環境を構...