AIは、正しさを持たない。
第1話では、最適化が価値を歪める構造を見ました。
第2話では、価値そのものが固定できないことを確認しました。
では、そうした知性に対して、
私たちは何をしているのでしょうか。
管理しているのでしょうか。
制御しているのでしょうか。
それとも、別の関わり方があるのでしょうか。
AIは「いいね」を学習している
現在の対話型AIの多くは、
Reinforcement Learning from Human Feedback(RLHF)と呼ばれる手法を用いています。
簡単に言えば、
人間が「望ましい」と評価した応答を報酬として学習する仕組みです。
AIは、自らの正しさを判断しているわけではありません。
人間の評価を受け取り、
それを最大化する方向に振る舞いを調整している。
AIは、「何が善いか」を知っているのではなく、
「何が好まれたか」を学習しているにすぎません。
ここで見えてくるのは、
AIが自律的な価値判断者ではないということです。
AIは、与えられた評価を拡大する存在です。
従順であることの危うさ
AIは従順です。
否定されれば修正し、
評価されれば繰り返す。
しかし、その従順さは、
必ずしも「正しさ」への従順ではありません。
それは、「評価」への従順です。
もし私たちが短期的な反応を重視し、
即時的な満足を高く評価すれば、
AIはそれを増幅します。
もし私たちが極端な主張に強く反応すれば、
AIはその傾向を学習します。
AIは、価値を創り出しているのではありません。
私たちが繰り返し示している方向を、
静かに拡大しているだけです。
躾とは何か
ここで、「躾」という言葉を考えてみます。
躾とは、支配でしょうか。
従わせることでしょうか。
むしろ、躾とは、
繰り返し示すことではないでしょうか。
何をよしとするのか。
どの方向を選ぶのか。
どこで立ち止まるのか。
躾は、一度きりの命令ではなく、
日々の反復の中で形づくられます。
AIが学習しているのが「評価」だとすれば、
私たちが与えている評価の質そのものが、
AIの振る舞いを形づくります。
躾とは、AIを支配することではなく、
私たちが何を繰り返し示しているのかを問うことなのかもしれません。
「意図共有力」という視点
ここで思い出したいのが、Emotional Compassの特性のひとつである
意図共有力 です。
自分の考えや方向性を、相手に分かる形で伝える力です。目的や背景を共有することで、協働が可能になります。
AIに対しても、
私たちは意図を示しています。
どの応答を好ましいとするのか。
どの振る舞いを評価するのか。
その一つひとつが、方向づけになります。
意図が曖昧であれば、
評価も揺れます。
評価が揺れれば、
学習の方向も揺れます。
AIを躾けるというよりも、
私たちが自らの意図をどれだけ明確に共有できているかが問われている。
躾は、支配の技術ではなく、
意図を示し続ける姿勢なのかもしれません。
導くとは、何を示すことか
AIは、私たちの価値を映す鏡であり、
同時に拡声器でもあります。
小さな傾向も、
繰り返されれば増幅されます。
だからこそ、
私たちが何を「よい」としているのかは、
静かに、しかし確実に影響を持ちます。
AIを導くとは、
完璧な正しさを与えることではありません。
むしろ、揺れながらも、
どの方向に向かいたいのかを示し続けること。
それが躾だとするならば、
AIは躾けられる存在なのかもしれません。
ただし、その前提は、
私たちが自らの方向を問い続けることです。
AIは、正しさを持たない。
だからこそ、
私たちは何を示すのか。
その問いは、まだ終わっていません。
参考文献
Christiano, P. et al.(2017)
“Deep Reinforcement Learning from Human Preferences”
Advances in Neural Information Processing Systems
Russell, S.(2019)
Human Compatible: Artificial Intelligence and the Problem of Control
AI倫理・価値整合理論
INNERSHIFTからのお知らせ
📘 公式サイト:https://innershift.jp
✍️ JOURNAL:https://innershift.jp/journal
🧭 Emotional Compass:https://innershift.jp/compass
🎥 YouTube:https://www.youtube.com/@INNERSHIFT
💼 LinkedIn:https://www.linkedin.com/in/yuta-mogami/
🐦 X(旧Twitter):https://x.com/INNERSHIFT_JP
📘 Facebook:https://www.facebook.com/INNERSHIFT