← 本日のニュースに戻る
専門メディア Simon Willison 2026-04-29 重要度 中

OpenAI Codexのベース指示書における特定の表現規制

要約

OpenAI Codexのベース指示書の一部が引用され、「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト、その他の動物や生物については、ユーザーのクエリに絶対的かつ明確に関連する場合を除き、決して話さないこと」という指示が示されている。これは、LLMが不適切な、あるいは意図しない出力を行うことを防ぐための内部的なアライメントまたはフィルタリングメカニズムの一部であると考えられる。

CISO視点での示唆・学び

示唆・学びLLMの安全性とアライメントは、AIシステムが意図しない出力を生成するリスクを管理する上で重要である。このような内部的な指示は、プロンプトインジェクションやモデルの意図しない挙動を抑制するための基本的な制御策として機能する。自社のLLM運用においても、モデルの挙動を制御するための明確な指示セットやガードレールの設計と監査が不可欠である。

重要度判定の理由

LLMの安全性とアライメントに関する具体的な制御メカニズムの一例を示しており、AI利用におけるリスク管理の参考になるため。

タグ

AIリスク アライメント安全性評価

元記事情報

原題
Quoting OpenAI Codex base_instructions
ソース・公開日
Simon Willison / 2026-04-29

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to

関連記事:同じ「AIリスク」の最近の記事