security 2026/5/14 LLMのバックドアを検出・除去する手法「BackFlush」がarXivで公開、正常なウォーターマークを維持 大規模言語モデル(LLM)への悪意ある入力を無効化するBackFlushは、事前知識なしでバックドアを検出し、モデルに埋め込まれた正規のウォーターマークを損なわずに除去する点が特徴です。 #llm#backdoor#security