専門メディア Simon Willison 2026-04-29 重要度中

OpenAI Codexのベース指示書における特定の表現規制

要約

OpenAI Codexのベース指示書の一部が引用され、「ゴブリン、グレムリン、アライグマ、トロール、オーガ、ハト、その他の動物や生物については、ユーザーのクエリに絶対的かつ明確に関連する場合を除き、決して話さないこと」という指示が示されている。これは、LLMが不適切な、あるいは意図しない出力を行うことを防ぐための内部的なアライメントまたはフィルタリングメカニズムの一部であると考えられる。

CISO視点での示唆・学び

示唆・学びLLMの安全性とアライメントは、AIシステムが意図しない出力を生成するリスクを管理する上で重要である。このような内部的な指示は、プロンプトインジェクションやモデルの意図しない挙動を抑制するための基本的な制御策として機能する。自社のLLM運用においても、モデルの挙動を制御するための明確な指示セットやガードレールの設計と監査が不可欠である。

重要度判定の理由

LLMの安全性とアライメントに関する具体的な制御メカニズムの一例を示しており、AI利用におけるリスク管理の参考になるため。

元記事情報

原題

Quoting OpenAI Codex base_instructions

ソース・公開日

Simon Willison / 2026-04-29

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to


    
      🔗 元記事を読む（外部サイト）
      Xでシェア



  
  関連記事：同じ「AIリスク」の最近の記事
  2026-04-26重要度 中Simon Willison
AI生成画像の異常性とハルシネーションリスク2026-04-25重要度 中arXiv cs.AI
ルールベースAI評価における「合意の罠」の克服とDefensibility Indexの導入2026-04-23重要度 中arXiv cs.CR
ハードウェア保証における連合学習への補助データ不要なメンバーシップ推論攻撃

OpenAI Codexのベース指示書における特定の表現規制

要約

CISO視点での示唆・学び

重要度判定の理由

タグ

元記事情報

関連記事：同じ「AIリスク」の最近の記事