security 2026/5/14 arXivでLLMのバックドア検出・除去手法「BackFlush」が公開、ウォーターマーク保持が特徴 arXivにて、大規模言語モデル(LLM)におけるバックドア攻撃を知識なしで検出し除去する新手法「BackFlush」が論文2605.12529として公開されました。この手法は、ウォーターマークを保… #arxiv#research#security