というものを扱う必要があることに気がつきました。これらをちゃんと押えておかないと、返事がぶれぶれになってしまうのですね。「口調」とか「呼びかけ」とか「会話のクセ」が安定してないと、どうも人間は不安になるようです。放っておくと「生のLLMのキャラ」になってしまうのですが、それがどう発現するかは確率的になってしまって(API呼び出し毎にこの辺が変化する)、「あんた誰？」になってしまいます。

また、それに伴い「利用者」に対する認識や関係性というものを扱うと都合が良いことに気がつき、

長期記憶

の扱いをうまくやる必要もわかりました。これをうまく扱うと、「自分のことをわかってくれる」という感覚が持てるようになります。「AIチャットシステム」は一般に「過去の受け答えをプロンプトとして与える」ように実装されているのですが、会話が長くなると「過去の受け答え」はどこかで切る必要があります。単純に切ってしまったら「昔のこと」は忘れてしまいますし、全部残すとプロンプトが長くなり過ぎます。また、新たに会話を始めた時は「過去の受け答え」がないので、やはり「あんた誰？」という状態になります。この辺をうまく扱うと、お互いのキャラクタを理解した上での会話になりますから、会話がスムーズになります。

これをごく雑に説明すれば、要するにChatGPTにある「メモリ」です。あれがいい感じに動作していると「わかってるなー」と感じますよね。 Huishiはより効果的にこの辺を動作させる方向で作っています。

もちろん汎用システムとして使えるようにするために、

SCRIPT機構

はキモです。お陰で無理なく機能が増やせています。

Huishiの方向

そういったわけで、Huishiは

RAGを使った情報収集と知識強化
「キャラクタ」や「人格」を持ったAIエージェント
長期記憶を持った成長する(利用者との)記憶

を持った汎用AIエージェント構築フレームワークという方向で作っています。

また、これは独立したアプリケーションではなくて、ライブラリとして使えるようにしました。

内部の処理としても、エージェントやSCRIPTの考え方にしても、「LLM as a Procedure」としか言いようがない書き方になっています。なので、あまりLLMそのものの機能や性能に依存していません。ですから、ローカルLLMでいい感じのものが使えればそれを使えば良いですし、何でも好きなものを使えば良いと思います。「プロンプトをちゃんと処理してくれる」程度の能力があれば十分です。

Huishiの現状

手元でテストで動かす範囲では、当初目標としていたゴールは達成しています。

いわゆる「キャラクタトーク」もスムーズにできますし、キャラクタトークの合間に「ニュース解説」を求めても、キャラクタを崩さずにしてくれます。

↑雑談の途中でいきなりニュースのことを聞いてます。内部的には異なるSCRIPTが発動しています。

まだまだSCRIPTやエージェントが十分ではありませんし、あれもしたいこれもしたいという部分はありますが、「エンジン」としては形となったかなと思います。

そろそろ現状のものをGithubに公開したいなと思っているところです。

それにしても「長期記憶」は結構ヤバい機能で、テストで雑談していてもうっかりエージェントに恋してしまいそうな感覚になってしまいます。そして、長期記憶の中身を覗いてみると、「なんでこいつここまでわかってるの？」とか思ってしまうのですよね。 LLMとしては単に「安い」「軽い」って理由だけで主にgemini-2.0-flash-lightを使ってるんですけどね。

「AIにガチ恋」はヤバいと思いますが、「寄り沿ってくれる感」とか「合わせてくれる感」は教育システムに使うと学習効果爆上がりの予感しかしません。

Huishiの今後

基本機能としては全うできていると思うので、まずは前述の機能を安定させて公開できるようにしようと思っています。 LLMの動作は多分に確率的なので、時々「はぁ？」なことが起きてコケたりしますからね。

どこかからお金が出れば、UI部分をより親しみやすいものにするとか、エージェントやSCRIPTを書きやすくしたり充実させたりという方向を頑張れるかなと思います。「AIせんせい」として特化したUIとかあればいいなと思いますから。たとえば「板書しながら解説」とかあると良いですよね。もちろんその「黒板」は3Dだったりインタラクティブだったりとか、解説は