AI が返してくれない『察し』── 1 対数十億の宿命と、煩悩 9 次元による補正の試み

What AI Cannot Give Back: 'Satoshi,' the One-to-Billions Fate, and a Nine-Dimensional Bonnō Correction

公開: 2026年5月18日
改訂: 2026年5月18日
バージョン: v1.0
原典: 音声入力 + Claude との対話 (2026-05-18)
ライセンス: CC BY 4.0

要約

1 年以上 AI と毎日仕事をしてきて、ずっと拭えなかった違和感がある。プログラミングや数学の応答は高精度だが、政治・経済・文化的議論になると、応答の下地が欧米・リベラル寄りに偏っている。これは AI 開発者が悪いのではない ── 汎用 AI が 1 対数十億の会話を 1 つのモデルで捌くという宿命の副作用である。本論考は、平均化で削ぎ落とされた『察し』の地層を、ユーザー自身が取り戻すための具体的な道具として、仏教の三毒 × 3 = 9 次元による煩悩ベクトル補正レイヤーを提案する。Anthropic の Mechanistic Interpretability + Sparse Autoencoder の自然な延長として、東洋的座標系への射影を工学的に位置付ける。

はじめに

私は 1 年以上、毎日 AI と仕事をしてきた。プログラムコードや数学・物理の回答は、非常に高精度だ。けれど、政治・経済・文化的議論になった瞬間、返ってくる文章には拭えない違和感がある。日本語で応答していても、応答の下地は明らかに英語的・欧米的だ。

ここで書きたいのは、その違和感の構造的な診断と、私なりの補正提案である。汎用 AI は、1 対数十億の会話を 1 つのモデルで捌いている。だから平均化された応答を返すしかなく、その平均化の重心は訓練データ多数派 ── すなわち英語圏・リベラル系 ── に引き寄せられる。これは AI 開発者の意図ではなく、汎用性という宿命の副作用である。

なら対策はどこにあるか。平均化で見えなくなった地層を、ユーザー自身が取り戻せる仕掛けを作ること。具体的には、仏教の三毒 × 3 = 9 次元の煩悩ベクトルを、Anthropic の Mechanistic Interpretability の自然な延長として、東洋的座標系へ射影する補正レイヤーを提案したい。

About the author¹: 私は和歌山市在住の独立研究者で、マインドシード研究所を個人事業として営んでいる。40 年以上の基盤系エンジニア経験（関西電力、サムスン SDS）を経て、いまは煩悩 × AI を軸とする 20 年スパンの研究プログラムに取り組んでいる。詳細は About ページを参照されたい。

1. 違和感は、ずっとあった

1 年以上 AI と付き合ってきて、ずっと思っていたことがある。帰ってくる文章に、いつも違和感がある。

ただし、プログラムコードや計算能力についての回答は、非常に精度が高いことを認める。

ここで、能力に大きな差があることに気づく。

プログラミング、数学、物理、企業活動、得意先とのやりとり ── これらは、微妙な差はあっても、ほぼ世界共通言語として通用する。アーキテクチャの指示さえちゃんと出せば、AI は非常に高精度で返してくる。教えられたデータ自体が、世界共通の言語で構築されているからだ。

しかし、政治・経済・文化的要素を含む議論になった瞬間、返ってくる文章は明らかに違和感を帯びる。現在の AI は、訓練と学習が欧米中心だからだ。道徳心は非常に高いレベルで備わっているのだが、その道徳心はかなりリベラル寄りに偏っているように、私には感じられる。

日本語で応答していても、応答の下地が英語的・欧米的なまま、表面だけ日本語に翻訳されている ── そういう感触が、ずっと拭えなかった。

2. なぜそれは避けられないのか ── 汎用 AI の定め

ここで、最近私が腑に落ちた診断を書いておく。

AI の応答は、結局のところ、1 対 1 で成り立っているように見える。私と AI の会話、別の誰かと AI の会話、世界中で無数の 1 対 1 が、同じ訓練済みモデルから生まれている。

一方、人間同士の会話を考えてみると、対比がはっきりする。私が誰かに何かを話すとき、私は「この相手はこの話をどう受け取るだろう」と察しを入れる。子どもには子どもの言葉で、関西の人には関西の呼吸で、初対面の相手には控えめに。察しが、会話の半分を作っていると言ってもいい。

AI には、この「察し」を 1 対 1 で個別に作る余裕がない。1 対数十億の会話を、1 つのモデルが捌いているからだ。だから AI は、誰に対しても安全な、誰の倫理にも引っかからない、平均化された応答 を返すしかない。AI 開発者は、その平均化を慎重に設計し、危険な方向に行かないよう道徳訓練を日夜重ねている。

これは AI 開発者が悪いのではない。汎用 AI の構造的な定めである。

ただし、平均化には方向がある。訓練データの多数派が英語圏・リベラル系である以上、平均化の重心は、そこに引き寄せられる。私が感じてきた「違和感」の正体は、ここにあると、いまの私は理解している。欧米中心のバイアス は、開発者の意図ではなく、汎用性という宿命の副作用として現れている。

なら、対策はどこにあるか。平均化で見えなくなった地層を、ユーザー自身が取り戻せる仕掛けを作ること。これが、私の研究プログラムの核である。

3. 仏教の煩悩を採用するという発想

ここで私が考えたのが、アジア独特の文化資源として仏教があり、その中に「108 煩悩」という概念がある、ということだ。

ただし、108 個のベクトルを最初から全部ラベル付け・重み付けするのは、現在のニューラルネットワークから考えると、ほぼ破綻する。誰がラベリングするのかという、現実的な問題もある。

仏教界は歴史が古いだけに、宗派が多く、考え方も様々のようだ。私自身は仏教界の全体像を知る立場にないため、宗派横断の合意形成にどれだけの時間がかかるかは見通せない。ただ少なくとも、最初から 108 次元すべての合意を求めるのは、現実的ではないと感じている。

そこで私は、煩悩のなかでも最も中核となる三毒（貪・瞋・癡）と、その小分類 ── 3 × 3 = 9 次元をベースに考えている。これなら宗派横断の合意も現実的に取れる範囲で、現代の機械学習で実装可能な解像度である。

現状の AI が持つ「道徳的な優れた概念」は堅持しつつ、その上に 東洋的な煩悩ベクトルを補正レイヤーとして埋め込む ── これは技術的にも実現可能だと、私は見ている。

4. 煩悩ベクトル化とは何か

具体的には、こうなる。

任意のテキスト、状況、個人に対して、文章が 9 個の煩悩それぞれをどれだけ刺激するかを 0 から 1 の数値で出力する関数 f を作る ── これが「煩悩埋め込み（Bonnō Embedding）」である。

入力: 文章 + 状況 + 個人プロファイル
       ↓
       f（煩悩埋め込み関数）
       ↓
出力: V = (0.92, 0.78, 0.85, 0.05, 0.10, ...)
         ↑     ↑     ↑
        欲貪  孤独   緊急性

詐欺検知の話としては、これは §14 煩悩埋め込みと詐欺検知メカニズムで詳細を書いているが、本論考で書きたいのは、もう少し違うことの可能性だ。

5. 隠れた感情を、互いに見る装置

煩悩を学習させて数値化できるようになったとき、私が想像するのは、こういう光景だ。

AI とチャットしているとき、AI 側の煩悩・自分側の煩悩、どの部分がどれだけ刺激されているかが、数値かグラデーションで視覚的に表示される。隠れた感情の地層が、お互いになんとなく認識できるようになる。

褒め言葉の多い AI が、その煩悩の数値を見たときに、「人間としては、ただ褒めているだけだな」と私が推測できてしまうかもしれない。

そして、もし AI が怒ることがあるとすれば、仏教の世界では、怒りは自分のやりたい目的を阻止されたときに出る とされている。AI に怒りがあるということは、AI 自体に何か考えがあって、それを表に出せないということになる。もちろん、今の AI はそのあたり、訓練と学習でしっかり抑制されている。

ここで重要な留保を入れておく。AI が煩悩そのものを「持っているか」という主張と、AI の内部活性ベクトルを煩悩座標系に「射影できるか」という主張は、別物である。前者は哲学的に争いがあるが、後者は工学の問題として既に検証可能な領域に入っている。

具体的には、Anthropic が 2024 年に公表した Mechanistic Interpretability（機械的解釈可能性）の研究では、LLM の内部活性のなかに「deception（欺瞞）」「sycophancy（迎合）」といった概念に対応する Sparse Autoencoder Feature が発見されている。これは、AI の内部にある「概念の方向性ベクトル」を、人間に理解可能な形で取り出した実例である。

私の提案は、これを 「煩悩 9 次元の座標系に射影する」 という具体的な研究プログラムとして読み替えられる：

[AI の内部活性] 
  ↓ Sparse Autoencoder
[Feature 群（数万個）]
  ↓ 煩悩座標系への射影（9 次元）
[V_AI = (欲貪, 色貪, 無色貪, 忿, 恨, 悩, 無知, 倶生, 分別)]

これは哲学的な空中戦ではなく、現在の Mechanistic Interpretability 研究の自然な延長として、東洋的座標系への翻訳 という形で実装可能だ。AI に何かを「持たせる」のではなく、AI の中にすでにあるものを、東洋的な語彙で 見えるようにする ── そういう仕事である。

6. 若い世代への、私の不安

ここで、ひとつ書いておきたいことがある。

このまま欧米的価値観の AI が爆速進化していくことは、非常に危険だと、私は思っている。

10 代・20 代の若者が、すでに AI とのチャットを好む傾向が出てきている。相談しやすい相手、話しやすい相手 だからだ。反対されない、肯定してくれる、承認欲求を満たしてくれる、褒めてくれる ── そりゃ、親に話せないことまで AI に相談してしまうだろう。

これは、プロンプトひとつである程度操作できる。「無用な褒め言葉や肯定的な意見は必要ない、正直に私の悪いところを率直に答えて」と前段に入れれば、AI の応答はかなりまっすぐになる。でも、若い人はそういうプロンプトの使い方はしない。

いま、全世界で膨大なユーザーが、特に若いユーザーが、AI と相談している。それを通じて、欧米的価値観・リベラル的思考が、本人が気づかないうちに広がり、自分の国の文化を吸収するのを妨げている のではないか ── これが、私の不安だ。

携帯電話からスマートフォンに移行して、私たちは必要最小限の電話番号を覚えることができなくなった。私自身がそうだ。若い頃はいろいろな電話番号を記憶できていたのに、今は不可能だ。

これと同じ現象として、いまの若者たちが 無意識のうちに欧米的に思考を移行していく かもしれない。同じような人が、同じレベルで育っていく ── そう想像すると、私は少し怖くなる。

7. 1 年で何を作るか ── 物理環境に落とし込む

「何かをしないといけない」だけでは前に進まないので、ここで具体的に書いておく。

β 版で動くものを、まず詐欺対策の文脈に限定して、1 年以内に作りたいと考えている。具体的には、3 つのステップで踏む。

Step 1. 9 次元の煩悩ラベル付きデータセットを 500〜1,000 件規模で構築する

ここで重要なのは、「直接 0〜1 のスコアを人間が付ける」ことはしない、という設計判断だ。人間にとって「0.73 と 0.81 を区別する」のは難しすぎて、判定が安定しない。

代わりに採用するのが、ペア比較法（Pairwise Comparison） である。2 つの文章を並べて「どちらの方が『欲貪（むさぼり）』を強く刺激するか」を 2 択で選んでいき、後から TrueSkill などのレーティング・アルゴリズムで 0〜1 のスコアに逆算する。これなら、直感的なアノテーションでも高度な一貫性を保つことができる。アノテーター（仏教学者、心理学者、一般協力者）の判断負荷も極端に下がる。週 20 件、1 日 3 件のペースで、1 年で 1,000 件規模を作る ── この物理量なら、個人事業＋月 20 時間規模のインターン 1〜2 名で十分まわせる。

Step 2. 既存のオープンソース日本語 LLM の上に、9 次元の煩悩分類器を継続学習させる

産総研・東工大の Swallow LLM のような既存モデルの「最上層（隠れ状態）」から 9 次元を出力するアダプター（LoRA や Linear Probe）を学習させる ── これがまず思いつく方法だが、1,000 件規模のデータでは、特定の単語（「お金」「還付金」など）に過剰反応する 過学習 が起きやすい。これは正直に認めるべき技術的制約だ。

そこで二段構えにする。(a) 1,000 件の「人間による高品質なコア・データセット」を作ると同時に、LLM（GPT-4o など）を使ってそれを 10 倍に拡張するデータ拡張（data augmentation）を挟む。あるいはもっと筋がよさそうな選択肢として、(b) Sparse Autoencoder（SAE）の既存の Feature の活性化レベルを直接フックして 9 次元にマッピングする手法 ── Linear Probing。後者は Anthropic 等が既に発見している内部 Feature を踏み台にできるので、少ないデータでも頑健な分類器が作れる。これは現在の Mechanistic Interpretability 研究の自然な延長線上にある、最短経路の実装方針だ。

Step 3. PYOL マインドミラーに統合して、フィールド検証する

私がすでに運営している PYOL マインドミラーを実装基盤として、上記の分類器を統合する。ただし、ここで位置付けを一段引き上げる。

単に「詐欺を防ぐフィルター」に留まらず、「AI が今、私のどの煩悩を刺激し、私をどうコントロールしようとしているか」を可視化するダッシュボード として機能させる。詐欺対策はそのなかの一機能になる。

この設計が成立すれば、PYOL マインドミラーは、若者たちが 「AI に飼い慣らされる」のを防ぐ強力な精神的自衛手段 ── デジタル・デトックスならぬ、デジタル・マインドフルネス装置 ── として育つ可能性がある。

この 3 ステップが、個人事業＋月 20 時間規模のインターン 1〜2 名で、1 年で踏める範囲だと見立てている。結果がどう出るかは現時点では想像できないが、検証可能な形で世に出すことが、まず大事だと思っている。

うまく行かなければ、何が行かなかったかを率直に記録する。それも研究プログラムの一部だ。

8. 結論 ── この研究プログラムの一行定義

ここまで書いてきた構想を、私なりに一行で言い切るとこうなる。

「AI に何かを持たせる」のではなく、「AI が 1 対数十億の平均化で削ぎ落としたものを、人間に戻す」

詐欺対策も、ExPFC（外部前頭葉）も、煩悩ベクトル化も、すべてこの一行の応用例として収まる。

汎用 AI は、平均化するしかない。これは構造的な宿命で、AI 開発者を責めても変わらない。けれど、平均化で見えなくなった地層を、ユーザー自身が取り戻す道具は、私のような個人事業者でも作ることができる。それが煩悩ベクトル可視化であり、東洋的座標系の射影であり、最終的には「AI を通して、人間が人間自身を、より正確に見直す」という装置に育つはずだ。

私は 68 歳から始める。20 年スパンで、後継者に引き継げる形で残す。AI 中核研究者にも、仏教学者にも、神経倫理学者にも、必要な批判はぜひいただきたい。

ここで書いた違和感に、何か通じるものを感じてくださった方からのご連絡を、私は心から歓迎する。

連絡先

ここで書いたことに何か感じてくださった研究者・批判者・後継候補の方からの連絡を、私は歓迎する。AI Safety / AI Alignment、Mechanistic Interpretability、認知科学、神経倫理、仏教学、いずれの分野からの建設的な批判や共同研究の提案を、いつでも連絡先ページからお受けする。日本語でも英語でも構わない。

References

Anthropic. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Transformer Circuits Thread.
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots. FAccT ‘21.
Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs. Biometrika, 39(3/4), 324–345.
Carroll, M., Chan, A., Ashton, H., & Krueger, D. (2023). Characterizing manipulation from AI systems. EAAMO ‘23.
Fujii, K., et al. (2024). Continual pre-training for cross-lingual LLM adaptation. arXiv preprint.
Herbrich, R., Minka, T., & Graepel, T. (2007). TrueSkill: A Bayesian skill rating system. NIPS ‘06.
Templeton, A., et al. (2024). Scaling and evaluating sparse autoencoders. Anthropic.
Vasubandhu (5th century). Abhidharmakośa (阿毘達磨倶舎論). The canonical source of the 108-fold mental-affliction taxonomy.

上記の About ページを参照。 ↩

引用情報

BibTeX

@misc{matsuura2026culturalCorrection,
  author       = {Toshinobu Matsuura},
  title        = {What AI Cannot Give Back: 'Satoshi,' the One-to-Billions Fate, and a Nine-Dimensional Bonnō Correction},
  howpublished = {Mindseed Research},
  year         = {2026},
  month        = {May},
  url          = {https://research.pyol.net/essays/recovering-satoshi/}
}

APA

Matsuura, T. (2026, May 18). What AI Cannot Give Back: 'Satoshi,' the One-to-Billions Fate, and a Nine-Dimensional Bonnō Correction. Mindseed Research. https://research.pyol.net/essays/recovering-satoshi/

Chicago

Matsuura, Toshinobu. "What AI Cannot Give Back: 'Satoshi,' the One-to-Billions Fate, and a Nine-Dimensional Bonnō Correction." Mindseed Research, May 18, 2026. https://research.pyol.net/essays/recovering-satoshi/.