Claude Code / Codex ユーザーのための誰でもわかるHarness Engineeringベストプラクティス
by 逆瀬川ちゃん
53 min read
こんにちは!逆瀬川ちゃん (@gyakuse) です!
今日はHarness Engineering(ハーネスエンジニアリング)について、2026年3月時点のベストプラクティスを徹底的にまとめていきたいと思います。
by 逆瀬川ちゃん
53 min read
こんにちは!逆瀬川ちゃん (@gyakuse) です!
今日はHarness Engineering(ハーネスエンジニアリング)について、2026年3月時点のベストプラクティスを徹底的にまとめていきたいと思います。
by 逆瀬川ちゃん
21 min read
こんにちは!逆瀬川 (@gyakuse) ちゃんです
今日はOpenAIから本日リリースされたGPT-5.4について、Codexリポジトリのソースコードから読み取れるinstructionsの進化、1Mコンテキストウィンドウの有効化方法、そして他モデルとのベンチマーク比較をまとめていきたいと思います。
by 逆瀬川ちゃん
20 min read
こんにちは!逆瀬川ちゃん (@gyakuse) です!
今日はAnthropicが公式に出しているskill-creatorというスキルを深掘りしていきます。
skill-creatorは「スキルを作るためのスキル」なのですが、このスキル自体の構造が、実はスキル設計のベストプラクティスの宝庫になっています。さらに、以前自分が作った機械学習モデルの自動ベンチマーク用スキルagentic-bench(紹介記事)との比較を通じて、「複数の処理をオーケストレーションするスキル」をどう設計すべきかを考えていきます。
by 逆瀬川ちゃん
18 min read
こんにちは!逆瀬川ちゃん (@gyakuse) です!
今日は前回の記事で「未解決の問題」として残しておいた、スキル間のAttention競合問題に正面から取り組んだ話をしていきます。作ったスキルが10個、20個と増えてきたとき、それぞれがちゃんと正しく発火しているのか。あるスキルのdescriptionを改善したら別のスキルの精度が下がっていないか。そんなポートフォリオレベルの監査を自動でやってくれるスキル、skill-auditorを作りました(現在はClaude Code専用となっています)。
by 逆瀬川ちゃん
24 min read
こんにちは!逆瀬川ちゃん (@gyakuse) です!
今日はひらがなだけを出力する音声認識モデルを自分で作った話をまとめていきたいと思います。なぜ漢字仮名交じり文ではなくひらがななのか、なぜWhisperではダメなのか、そしてどうやってLLMと組み合わせることで実用的な音声対話を実現するのか——背景から実装、検証結果まで一気に書いていきます。