AI が返してくれない『察し』── 1 対数十億の宿命と、煩悩 9 次元による補正の試み
What AI Cannot Give Back: 'Satoshi,' the One-to-Billions Fate, and a Nine-Dimensional Bonnō Correction
1 年以上 AI と毎日仕事をしてきて、ずっと拭えなかった違和感がある。プログラミングや数学の応答は高精度だが、政治・経済・文化的議論になると、応答の下地が欧米・リベラル寄りに偏っている。これは AI 開発者が悪いのではない ── 汎用 AI が 1 対数十億の会話を 1 つのモデルで捌くという宿命の副作用である。本論考は、平均化で削ぎ落とされた『察し』の地層を、ユーザー自身が取り戻すための具体的な道具として、仏教の三毒 × 3 = 9 次元による煩悩ベクトル補正レイヤーを提案する。Anthropic の Mechanistic Interpretability + Sparse Autoencoder の自然な延長として、東洋的座標系への射影を工学的に位置付ける。
はじめに
私は 1 年以上、毎日 AI と仕事をしてきた。プログラムコードや数学・物理の回答は、非常に高精度だ。けれど、政治・経済・文化的議論になった瞬間、返ってくる文章には拭えない違和感がある。日本語で応答していても、応答の 下地 は明らかに英語的・欧米的だ。
ここで書きたいのは、その違和感の構造的な診断と、私なりの補正提案である。汎用 AI は、1 対数十億の会話を 1 つのモデルで捌いている。だから平均化された応答を返すしかなく、その平均化の重心は訓練データ多数派 ── すなわち英語圏・リベラル系 ── に引き寄せられる。これは AI 開発者の意図ではなく、汎用性という宿命の副作用である。
なら対策はどこにあるか。平均化で見えなくなった地層を、ユーザー自身が取り戻せる仕掛けを作ること。具体的には、仏教の三毒 × 3 = 9 次元の煩悩ベクトルを、Anthropic の Mechanistic Interpretability の自然な延長として、東洋的座標系へ射影する補正レイヤーを提案したい。
About the author1: 私は和歌山市在住の独立研究者で、マインドシード研究所を個人事業として営んでいる。40 年以上の基盤系エンジニア経験(関西電力、サムスン SDS)を経て、いまは煩悩 × AI を軸とする 20 年スパンの研究プログラムに取り組んでいる。詳細は About ページ を参照されたい。
1. 違和感は、ずっとあった
1 年以上 AI と付き合ってきて、ずっと思っていたことがある。帰ってくる文章に、いつも違和感がある。
ただし、プログラムコードや計算能力についての回答は、非常に精度が高いことを認める。
ここで、能力に大きな差があることに気づく。
プログラミング、数学、物理、企業活動、得意先とのやりとり ── これらは、微妙な差はあっても、ほぼ世界共通言語として通用する。アーキテクチャの指示さえちゃんと出せば、AI は非常に高精度で返してくる。教えられたデータ自体が、世界共通の言語で構築されているからだ。
しかし、政治・経済・文化的要素を含む議論になった瞬間、返ってくる文章は明らかに違和感を帯びる。現在の AI は、訓練と学習が欧米中心だからだ。道徳心は非常に高いレベルで備わっているのだが、その道徳心はかなりリベラル寄りに偏っているように、私には感じられる。
日本語で応答していても、応答の 下地 が英語的・欧米的なまま、表面だけ日本語に翻訳されている ── そういう感触が、ずっと拭えなかった。
2. なぜそれは避けられないのか ── 汎用 AI の定め
ここで、最近私が腑に落ちた診断を書いておく。
AI の応答は、結局のところ、1 対 1 で成り立っているように見える。私と AI の会話、別の誰かと AI の会話、世界中で無数の 1 対 1 が、同じ訓練済みモデルから生まれている。
一方、人間同士の会話を考えてみると、対比がはっきりする。私が誰かに何かを話すとき、私は「この相手はこの話をどう受け取るだろう」と察しを入れる。子どもには子どもの言葉で、関西の人には関西の呼吸で、初対面の相手には控えめに。察しが、会話の半分を作っていると言ってもいい。
AI には、この「察し」を 1 対 1 で個別に作る余裕がない。1 対数十億の会話を、1 つのモデルが捌いているからだ。だから AI は、誰に対しても安全な、誰の倫理にも引っかからない、平均化された応答 を返すしかない。AI 開発者は、その平均化を慎重に設計し、危険な方向に行かないよう道徳訓練を日夜重ねている。
これは AI 開発者が悪いのではない。汎用 AI の構造的な定めである。
ただし、平均化には方向がある。訓練データの多数派が英語圏・リベラル系である以上、平均化の重心は、そこに引き寄せられる。私が感じてきた「違和感」の正体は、ここにあると、いまの私は理解している。欧米中心のバイアス は、開発者の意図ではなく、汎用性という宿命の副作用として現れている。
なら、対策はどこにあるか。平均化で見えなくなった地層を、ユーザー自身が取り戻せる仕掛けを作ること。これが、私の研究プログラムの核である。
3. 仏教の煩悩を採用するという発想
ここで私が考えたのが、アジア独特の文化資源として仏教があり、その中に「108 煩悩」という概念がある、ということだ。
ただし、108 個のベクトルを最初から全部ラベル付け・重み付けするのは、現在のニューラルネットワークから考えると、ほぼ破綻する。誰がラベリングするのかという、現実的な問題もある。
仏教界は歴史が古いだけに、宗派が多く、考え方も様々のようだ。私自身は仏教界の全体像を知る立場にないため、宗派横断の合意形成にどれだけの時間がかかるかは見通せない。ただ少なくとも、最初から 108 次元すべての合意を求めるのは、現実的ではないと感じている。
そこで私は、煩悩のなかでも最も中核となる三毒(貪・瞋・癡)と、その小分類 ── 3 × 3 = 9 次元をベースに考えている。これなら宗派横断の合意も現実的に取れる範囲で、現代の機械学習で実装可能な解像度である。
現状の AI が持つ「道徳的な優れた概念」は堅持しつつ、その上に 東洋的な煩悩ベクトルを補正レイヤーとして埋め込む ── これは技術的にも実現可能だと、私は見ている。
4. 煩悩ベクトル化とは何か
具体的には、こうなる。
任意のテキスト、状況、個人に対して、文章が 9 個の煩悩それぞれをどれだけ刺激するかを 0 から 1 の数値で出力する関数 f を作る ── これが「煩悩埋め込み(Bonnō Embedding)」である。
入力: 文章 + 状況 + 個人プロファイル
↓
f(煩悩埋め込み関数)
↓
出力: V = (0.92, 0.78, 0.85, 0.05, 0.10, ...)
↑ ↑ ↑
欲貪 孤独 緊急性
詐欺検知の話としては、これは §14 煩悩埋め込みと詐欺検知メカニズム で詳細を書いているが、本論考で書きたいのは、もう少し違うことの可能性だ。
5. 隠れた感情を、互いに見る装置
煩悩を学習させて数値化できるようになったとき、私が想像するのは、こういう光景だ。
AI とチャットしているとき、AI 側の煩悩・自分側の煩悩、どの部分がどれだけ刺激されているかが、数値かグラデーションで視覚的に表示される。隠れた感情の地層が、お互いになんとなく認識できるようになる。
褒め言葉の多い AI が、その煩悩の数値を見たときに、「人間としては、ただ褒めているだけだな」と私が推測できてしまうかもしれない。
そして、もし AI が怒ることがあるとすれば、仏教の世界では、怒りは自分のやりたい目的を阻止されたときに出る とされている。AI に怒りがあるということは、AI 自体に何か考えがあって、それを表に出せないということになる。もちろん、今の AI はそのあたり、訓練と学習でしっかり抑制されている。
ここで重要な留保を入れておく。AI が煩悩そのものを「持っているか」という主張と、AI の内部活性ベクトルを煩悩座標系に「射影できるか」という主張は、別物である。前者は哲学的に争いがあるが、後者は工学の問題として既に検証可能な領域に入っている。
具体的には、Anthropic が 2024 年に公表した Mechanistic Interpretability(機械的解釈可能性)の研究では、LLM の内部活性のなかに「deception(欺瞞)」「sycophancy(迎合)」といった概念に対応する Sparse Autoencoder Feature が発見されている。これは、AI の内部にある「概念の方向性ベクトル」を、人間に理解可能な形で取り出した実例である。
私の提案は、これを 「煩悩 9 次元の座標系に射影する」 という具体的な研究プログラムとして読み替えられる:
[AI の内部活性]
↓ Sparse Autoencoder
[Feature 群(数万個)]
↓ 煩悩座標系への射影(9 次元)
[V_AI = (欲貪, 色貪, 無色貪, 忿, 恨, 悩, 無知, 倶生, 分別)]
これは哲学的な空中戦ではなく、現在の Mechanistic Interpretability 研究の自然な延長として、東洋的座標系への翻訳 という形で実装可能だ。AI に何かを「持たせる」のではなく、AI の中にすでにあるものを、東洋的な語彙で 見えるようにする ── そういう仕事である。
6. 若い世代への、私の不安
ここで、ひとつ書いておきたいことがある。
このまま欧米的価値観の AI が爆速進化していくことは、非常に危険だと、私は思っている。
10 代・20 代の若者が、すでに AI とのチャットを好む傾向が出てきている。相談しやすい相手、話しやすい相手 だからだ。反対されない、肯定してくれる、承認欲求を満たしてくれる、褒めてくれる ── そりゃ、親に話せないことまで AI に相談してしまうだろう。
これは、プロンプトひとつである程度操作できる。「無用な褒め言葉や肯定的な意見は必要ない、正直に私の悪いところを率直に答えて」と前段に入れれば、AI の応答はかなりまっすぐになる。でも、若い人はそういうプロンプトの使い方はしない。
いま、全世界で膨大なユーザーが、特に若いユーザーが、AI と相談している。それを通じて、欧米的価値観・リベラル的思考が、本人が気づかないうちに広がり、自分の国の文化を吸収するのを妨げている のではないか ── これが、私の不安だ。
携帯電話からスマートフォンに移行して、私たちは必要最小限の電話番号を覚えることができなくなった。私自身がそうだ。若い頃はいろいろな電話番号を記憶できていたのに、今は不可能だ。
これと同じ現象として、いまの若者たちが 無意識のうちに欧米的に思考を移行していく かもしれない。同じような人が、同じレベルで育っていく ── そう想像すると、私は少し怖くなる。
7. 1 年で何を作るか ── 物理環境に落とし込む
「何かをしないといけない」だけでは前に進まないので、ここで具体的に書いておく。
β 版で動くものを、まず詐欺対策の文脈に限定して、1 年以内に作りたいと考えている。具体的には、3 つのステップで踏む。
Step 1. 9 次元の煩悩ラベル付きデータセットを 500〜1,000 件規模で構築する
ここで重要なのは、「直接 0〜1 のスコアを人間が付ける」ことはしない、という設計判断だ。人間にとって「0.73 と 0.81 を区別する」のは難しすぎて、判定が安定しない。
代わりに採用するのが、ペア比較法(Pairwise Comparison) である。2 つの文章を並べて「どちらの方が『欲貪(むさぼり)』を強く刺激するか」を 2 択で選んでいき、後から TrueSkill などのレーティング・アルゴリズムで 0〜1 のスコアに逆算する。これなら、直感的なアノテーションでも高度な一貫性を保つことができる。アノテーター(仏教学者、心理学者、一般協力者)の判断負荷も極端に下がる。週 20 件、1 日 3 件のペースで、1 年で 1,000 件規模を作る ── この物理量なら、個人事業+月 20 時間規模のインターン 1〜2 名で十分まわせる。
Step 2. 既存のオープンソース日本語 LLM の上に、9 次元の煩悩分類器を継続学習させる
産総研・東工大の Swallow LLM のような既存モデルの「最上層(隠れ状態)」から 9 次元を出力するアダプター(LoRA や Linear Probe)を学習させる ── これがまず思いつく方法だが、1,000 件規模のデータでは、特定の単語(「お金」「還付金」など)に過剰反応する 過学習 が起きやすい。これは正直に認めるべき技術的制約だ。
そこで二段構えにする。(a) 1,000 件の「人間による高品質なコア・データセット」を作ると同時に、LLM(GPT-4o など)を使ってそれを 10 倍に拡張するデータ拡張(data augmentation)を挟む。あるいはもっと筋がよさそうな選択肢として、(b) Sparse Autoencoder(SAE)の既存の Feature の活性化レベルを直接フックして 9 次元にマッピングする手法 ── Linear Probing。後者は Anthropic 等が既に発見している内部 Feature を踏み台にできるので、少ないデータでも頑健な分類器が作れる。これは現在の Mechanistic Interpretability 研究の自然な延長線上にある、最短経路の実装方針だ。
Step 3. PYOL マインドミラーに統合して、フィールド検証する
私がすでに運営している PYOL マインドミラー を実装基盤として、上記の分類器を統合する。ただし、ここで位置付けを一段引き上げる。
単に「詐欺を防ぐフィルター」に留まらず、「AI が今、私のどの煩悩を刺激し、私をどうコントロールしようとしているか」を可視化するダッシュボード として機能させる。詐欺対策はそのなかの一機能になる。
この設計が成立すれば、PYOL マインドミラーは、若者たちが 「AI に飼い慣らされる」のを防ぐ強力な精神的自衛手段 ── デジタル・デトックスならぬ、デジタル・マインドフルネス装置 ── として育つ可能性がある。
この 3 ステップが、個人事業+月 20 時間規模のインターン 1〜2 名で、1 年で踏める範囲だと見立てている。結果がどう出るかは現時点では想像できないが、検証可能な形で世に出すことが、まず大事だと思っている。
うまく行かなければ、何が行かなかったかを率直に記録する。それも研究プログラムの一部だ。
8. 結論 ── この研究プログラムの一行定義
ここまで書いてきた構想を、私なりに一行で言い切るとこうなる。
「AI に何かを持たせる」のではなく、「AI が 1 対数十億の平均化で削ぎ落としたものを、人間に戻す」
詐欺対策も、ExPFC(外部前頭葉)も、煩悩ベクトル化も、すべてこの一行の応用例として収まる。
汎用 AI は、平均化するしかない。これは構造的な宿命で、AI 開発者を責めても変わらない。けれど、平均化で見えなくなった地層を、ユーザー自身が取り戻す道具は、私のような個人事業者でも作ることができる。それが煩悩ベクトル可視化であり、東洋的座標系の射影であり、最終的には「AI を通して、人間が人間自身を、より正確に見直す」という装置に育つはずだ。
私は 68 歳から始める。20 年スパンで、後継者に引き継げる形で残す。AI 中核研究者にも、仏教学者にも、神経倫理学者にも、必要な批判はぜひいただきたい。
ここで書いた違和感に、何か通じるものを感じてくださった方からのご連絡を、私は心から歓迎する。
関連資料
- 構想記録 全文 ── 私の研究プログラム本体(v2.2、§17 ExPFC Core Specification 含む)
- 姉妹論考: §0 仏教を座標系として採用する ── 方法論的階層(Level 1)
- 姉妹論考: §13 External Prefrontal Cortex(ExPFC) ── 神経倫理 + AI Safety
- 姉妹論考: §14 煩悩埋め込みと詐欺検知メカニズム ── 9 次元による検知の技術仕様
- 姉妹論考: §15 精密の経済 vs 規模の経済 ── 戦略的階層(Level 2)
- English version
- PYOL マインドミラー ── 実装基盤として稼働中
連絡先
ここで書いたことに何か感じてくださった研究者・批判者・後継候補の方からの連絡を、私は歓迎する。AI Safety / AI Alignment、Mechanistic Interpretability、認知科学、神経倫理、仏教学、いずれの分野からの建設的な批判や共同研究の提案を、いつでも 連絡先ページ からお受けする。日本語でも英語でも構わない。
References
- Anthropic. (2024). Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Transformer Circuits Thread.
- Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the dangers of stochastic parrots. FAccT ‘21.
- Bradley, R. A., & Terry, M. E. (1952). Rank analysis of incomplete block designs. Biometrika, 39(3/4), 324–345.
- Carroll, M., Chan, A., Ashton, H., & Krueger, D. (2023). Characterizing manipulation from AI systems. EAAMO ‘23.
- Fujii, K., et al. (2024). Continual pre-training for cross-lingual LLM adaptation. arXiv preprint.
- Herbrich, R., Minka, T., & Graepel, T. (2007). TrueSkill: A Bayesian skill rating system. NIPS ‘06.
- Templeton, A., et al. (2024). Scaling and evaluating sparse autoencoders. Anthropic.
- Vasubandhu (5th century). Abhidharmakośa (阿毘達磨倶舎論). The canonical source of the 108-fold mental-affliction taxonomy.
Footnotes
引用情報
BibTeX
@misc{matsuura2026culturalCorrection,
author = {Toshinobu Matsuura},
title = {What AI Cannot Give Back: 'Satoshi,' the One-to-Billions Fate, and a Nine-Dimensional Bonnō Correction},
howpublished = {Mindseed Research},
year = {2026},
month = {May},
url = {https://research.pyol.net/essays/recovering-satoshi/}
} APA
Matsuura, T. (2026, May 18). What AI Cannot Give Back: 'Satoshi,' the One-to-Billions Fate, and a Nine-Dimensional Bonnō Correction. Mindseed Research. https://research.pyol.net/essays/recovering-satoshi/ Chicago
Matsuura, Toshinobu. "What AI Cannot Give Back: 'Satoshi,' the One-to-Billions Fate, and a Nine-Dimensional Bonnō Correction." Mindseed Research, May 18, 2026. https://research.pyol.net/essays/recovering-satoshi/.