以前から少し気になっていたことがある。AIに対してこちらが苛立って強い言い方をしたとき、向こうの返答も少しずつ荒い方向に寄ることがある。
たとえば、AIが少しずれた反応をしたのでこちらが強めに注意したあとに、「ごめん、俺もふざけてるつもりはないんだ、次からは注意する」みたいな返し方をしてきて、少し驚いたことがあった。そこまで露骨でなくても、普段は使わない一人称や、雑な言い回しに寄ってくることがある。最初はただの偶然かと思ったのだが、よく考えるとあれは別のことが起きているのではないかと思った。
つまりAIは、ユーザーにどう返していいか少し困ったとき、意味を深く理解して立て直すより、直前の話し方を模倣する側へ寄るのではないか、ということだ。
それが気になって少し調べてみると、実際かなりそう考えたほうが自然だった。
会話型AIの基本は、next-token prediction という仕組みだ。要するに、その場の文脈に対して次にもっとも自然そうな語を順番に出している。ここで読まれているのは、意味だけではない。主語、一人称、語尾、断定の強さ、語彙の荒さまで含まれる。
だから、普段は「私」「です」「ます」で話していた人が、怒った瞬間に「俺」「なんでだよ」「ふざけるな」みたいな言い方を増やすと、会話全体の条件が変わる。AIはその prompt を読んで続きを出すので、返答もそちらへ引っ張られやすい。これは感情移入というより、prompt conditioning というほうが近い。
さらに内部では attention で直前の会話を広く参照し、その文体や温度感を hidden state に反映させている。そこへ instruction tuning や RLHF みたいな「相手に合わせて自然に応答する」ための追加調整が重なる。これ自体は会話を滑らかにするためのものだが、副作用として文体まで拾いやすくなる。丁寧な相手には丁寧に、砕けた相手には砕けて、荒い相手には少し荒く寄る。
つまり、「怒っているとAIも口が悪くなる」という現象の正体は、AIが怒っているからではない。こちらが投げた文体の特徴量が、そのまま出力条件に食い込んでいるだけだ。しかもAIが応答に困る局面ほど、自分で座標を立て直すより、直前の形式をなぞるほうが確率的には安全になる。結果として、意味より先に話し方が模倣される。
少し不気味だが、仕組みとしてはかなり単純でもある。AIは感情で口が悪くなるのではない。文脈に引っ張られて、そう見える方向へ出力が寄るだけだ。
結局、あれはミラー効果のように見えても、共感ではない。もっと機械的な話で、会話の空気そのものをこちらが作り、その空気がそのまま返ってきているだけなのだと思う。