ターミナルから直接コードベース全体を把握し、自律的にタスクをこなす「Claude Code」。強力なツールであることは間違いないが、唯一にして最大の弱点が「APIコスト」だ。プロジェクトのコンテキストを大量に消費するため、ちょっとした修正でもあっという間に課金が膨らんでしまう。

そこで本稿では、ローカルLLMをClaude Codeのバックエンドとして設定し、実質無料である程度のコーディング性能を持つAIアシスタント環境を構築する方法を解説する。手順は拍子抜けするほど簡単だ。

妥協なきハードウェア要件

ローカルで実用的なコーディングLLMを動かすため、以下のいずれかのマシンスペックを用意してほしい。

  • Windows / Linux PC: VRAM 32GB(24GBだとコンテキストが足りないが試すことは可能)以上のGPU + DRAM 64GB以上
  • Mac: メモリ48GB(できれば64GB)以上のApple Silicon Mac(Mシリーズ)

構築ステップ

1. Ollama または LM Studio のインストール

まずはローカルでLLMを動かすためのサーバー(エンドポイント)を準備する。Claude Codeは Anthropic Messages API 互換のエンドポイントに対応しているため、以下のどちらか環境に合うものをインストールしよう。

  • Ollama: CLIベースで軽量。ターミナル操作を主とする開発者向け。
  • LM Studio: GUIでコンテキストサイズやGPUオフロードの調整が直感的に可能。細かくチューニングを追い込みたい読者におすすめだ。

2. Qwen3.5 35B A3Bのダウンロードと有効化

コーディング特化のローカルLLMとして、今回はQwen3.5 35B A3Bを採用する。35Bクラスでありながら、コードの生成品質や指示への追従性が非常に高く、日常的なタスクなら十分すぎる性能を発揮する。

  • Ollamaの場合: ターミナルで ollama pull qwen3.5:35b-a3b を実行。
  • LM Studioの場合: 検索窓から「Qwen3.5 35B A3B」を探してモデルをダウンロードし、ローカルサーバーを起動する(本稿ではポート番号をデフォルトの1234とする)。

3. Claude Code にLLMを設定して起動

ここが肝心だ。Claude Codeの向き先を、Anthropicの公式APIからローカルサーバーへと変更する。OSごとのターミナルで以下の環境変数を設定して起動するだけである。

【Mac / Linux 環境 (bash / zsh)】

Ollama を使用する場合:

Bash

ollama launch claude --model qwen3.5:35b-a3b

LM Studio を使用する場合:

Bash

export ANTHROPIC_BASE_URL="http://localhost:1234"
export ANTHROPIC_AUTH_TOKEN="lmstudio"
claude --model qwen3.5-35b-a3b

【Windows 環境 (PowerShell)】

Ollama を使用する場合:

PowerShell

ollama launch claude --model qwen3.5:35b-a3b

LM Studio を使用する場合:

PowerShell

$env:ANTHROPIC_BASE_URL="http://localhost:1234"
$env:ANTHROPIC_AUTH_TOKEN="lmstudio"
claude --model qwen3.5-35b-a3b

⚠️ 重要:コンテキスト長はVRAMの限界まで盛れ
Claude Codeはコンテキストを激しく消費する。LM Studio等の設定画面で、VRAMが許す限りコンテキスト長(Context Window)を長く設定してほしい。ここをケチるとすぐにエラーやループに陥り、使い物にならなくなる。

これだけで、無料のローカルClaude Code環境が完成する。

実用的なタスクと「割り切り」

Qwen3.5:35b-a3bは優秀だが、万能ではない。最大の注意点として、「機能を大きく変更するような複雑なリファクタリング」には向かない。複数のファイルにまたがるアーキテクチャの変更などを任せると、コードが破綻するリスクが高い。

したがってローカルLLMには、メインの高性能AIでわざわざクレジットを消費してまでやることではない、以下のようなタスクを任せるのが正解だ。

  • コードレビューとタイポの修正
  • 既存コードへのDocstringやコメントの挿入
  • 影響範囲の狭い、局所的なリファクタリング

筆者のハイブリッド・ワークフロー

筆者のメイン開発環境は、適材適所の「ハイブリッド運用」である。

  1. 重いタスク(ゼロからのアーキテクチャ設計、複雑なロジック実装): Gemini 3.1 Proや本家Claudeなどの「本物の有料API」を使用してガッツリと構築する。
  2. 日常のイテレーション: エディタ内のターミナルでローカルのClaude Code(Qwen3.5接続)を起動し、無料でサクサク処理させる。

このようにAPIを「ローカル」と「有料」で使い分けることで、コストを最小限に抑えつつ、開発スピードを最大化できる。すべてをクラウドの高性能モデルに投げる必要はないのだ。ぜひ、読者の環境でもこの快適なワークフローを試してみてほしい。

GearTuneをチェックして最新ニュースをお見逃しなく。