Claudeなら4.0から4.6のモデル世代差。
「感動した」という感情を発露しているだけで、ナレッジなどは特にないお気持ち記事です。
GitHub Copilot Coding Agentにアプリケーションの言語間移植進行について、現状の進行状況を棚卸しし、完了までの計画を立てて貰っていた。
過去には棚卸しが全く行えず、架空の機能を列挙して完了を目指す激しいハルシネーションが発生していた。 一方で直近の世代では実際の進行状況、存在するTODOや機能を正しく列挙し、完了を目指すため計画を立てることが出来た。 そして、移植進行を指示することで実際に残余のTODOが消化されていった。
特別な工夫をしなくても、実際的な仕事を行えるようになったと感じる。 このパラダイムシフトは凄い。AI驚き屋になってしまいそうだ。
- 過去の機能しなかった様子:
- 直近の機能した様子:
半年前の指示 最近の指示
一方で「移植が正しく行われたか?」は未検証で、あくまでコードベースで「一見移植した」だけに過ぎない。
妥当性を検証する必要がある。
今後の生成AI活用に当たっての鍵は、この総合的な検証をどう行うかになってくると思う。
人間が妥当性を確認していてはそこで律速することは目に見えている。
いかに生成AI自体が総合的な検証を行えるようにするのか? これが大事になってくるだろう。

