
arXiv に ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledg… が掲載され、arXiv:2606.1…
41件のニュース

arXiv に ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledg… が掲載され、arXiv:2606.1…

arXiv に From Parameters to Feature Space: Task Arithmetic for Backdoor Mitigati… が掲載され、arXiv:2606.1…

arXivにて公開された論文2606.09870は、ストリーミング処理に特化した分散暗号化ストレージSafecloudを提案しています。従来のクラウドストレージと比較し、動的なデータ転送における暗号…

LLMの個人情報保護能力を測定するベンチマークIDP-Benchが公開されました。従来の単独プライバシー保護に加え、他者のデータが自身のプライバシーに影響する相互依存的状況での漏洩リスクを数値化しま…

病理診断における複数情報の裁定を自動化するPathoSageが発表されました。論文ID 2606.07549で公開されたこの手法は、経験を考慮したエージェントにより、従来の手動プロセスと比較して判断…

arXiv に What Should Agents Say? Action-state Communication for Efficient Multi-… が掲載され、arXiv:2606.0…

医療AI向けのベンチマーク「MultiTurnPSB」により、従来の単発プロンプトでは防げていた防御層が、複数回の対話を経る多段階攻撃で突破される実態が論文番号2606.02630で示されました。

論文2606.00088にて、管理外のAI利用(Shadow AI)が重要インフラの保証とセキュリティに及ぼす潜在的脅威が提示されました。従来のFrontier AIとは異なる攻撃ベクターや脆弱性の…

arXivで「arXivでAI評価・信頼性研究論文公開、「Quantum-Enhanced Adversarial Robustness in Artificial Intelligence」」に関…

arXivで「arXivでLLMマルチエージェントシステムの有害性増幅を測定する「HARP」論文が公開」に関する更新が公開され、適用条件と影響範囲の差分確認が必要になりました。

arXiv 2605.26154で公開されたMemMorphは、メモリ汚染を通じてLLMエージェントのツール実行権限を奪取します。従来の間接プロンプト注入とは異なり、長期記憶を直接操作する点が特徴で…

脆弱性の影響範囲と修正対象が更新され、既存運用との差分対応が必要になった。

arXivで「arXivで医療IoT向けプライバシー保護暗号ワークロードのマイクロベンチマーク研究論文が公開」に関する更新が公開され、適用条件と影響範囲の差分確認が必要になりました。

複合AIシステムの出力に対する各構成要素の貢献度を、計算負荷をかけずに階層的に特定するBOHM手法がarXivで公開されました。既存のSHAP等の手法と異なり、推論過程のメタデータを活用することで追…

arXivで「arXivでAI評価・信頼性研究論文公開、「Beyond Zero: Enterprise Security for the AI Era」」に関する更新が公開され、適用条件と影響範囲…

arXivで「arXivでツール利用AIとエージェントの研究論文公開、「SOLAR: A Self-Optimizing Open-Ended Autonomous Agent for Lifelo…

arXivで「arXivでAI評価・信頼性研究論文公開、「Autonomous LLM Agents & CTFs: A Second Look」」に関する更新が公開され、適用条件と影響範囲の差分確…

脆弱性の影響範囲と修正対象が更新され、既存運用との差分対応が必要になった。

DarkLLMはLLMを悪用して言語主導の敵対的攻撃を学習・実行する新手法です。arXiv論文番号2605.18868として公開され、従来の手動攻撃に比べ大規模なAIシステムへの脅威が具体化していま…

arXivで「arXivでAI評価・信頼性研究論文公開、「The End of Trust: How Agentic AI Breaks Security Assumptions」」に関する更新が公…

arXivで「arXivでAI評価・信頼性研究論文公開、「Detecting Verbatim LLM Copy-Paste in Homework」」に関する更新が公開され、適用条件と影響範囲の差…

AIエージェントの暴走を防ぐAgentWallは、ランタイムでの安全性検証を導入し、ファイル操作やAPIコールをリアルタイムで監視します。研究論文2605.16265によれば、静的解析では防げなかっ…

arXivで「arXivでAI評価・信頼性研究論文公開、「DeepSlide: From Artifacts to Presentation Delivery」」に関する更新が公開され、適用条件と影…

arXivで「arXivでAI評価・信頼性研究論文公開、「Enabling Adversarial Robustness in AI Models through Kubeflow MLOps」」に…

arXiv 2605.15281として公開された研究では、AIエージェントがWebサイトを自律実行する際の安全性を保証する統合フレームワークを提案しています。指示の忠実度と実行時の隔離環境を両立する…

arXivで「arXivでAI評価・信頼性研究論文公開、「Mixed Integer Goal Programming for Personalized Meal Optimization with…

AIエージェントのサードパーティ製スキルにおける実行時の信頼性不全を測定するAgentTrapが発表されました。論文2605.13940では、従来困難だった外部モジュールの動的リスクを数値化し、安全…

arXivで「arXivでAI評価・信頼性研究論文公開、「Ghost in the Context: Measuring Policy-Carriage Failures in Decision-T…

大規模言語モデル(LLM)への悪意ある入力を無効化するBackFlushは、事前知識なしでバックドアを検出し、モデルに埋め込まれた正規のウォーターマークを損なわずに除去する点が特徴です。

arXivで「arXivでAIシステムの脆弱性研究論文公開、「Few-Shot Truly Benign DPO Attack for Jailbreaking LLMs」」に関する更新が公開され、…

arXivで「LLM生成テキストのセマンティック不変攻撃に耐える透かし手法「PASA」がarXivで公開」に関する更新が公開され、適用条件と影響範囲の差分確認が必要になりました。

arXivで「arXivでAI評価・信頼性研究論文公開、「Where Reliability Lives in Vision-Language Models: A Mechanistic Study…

arXivで「arXivでAIシステムの脆弱性研究論文公開、「Mitigating Many-shot Jailbreak Attacks with One Single Demonstration…

arXiv論文2605.08257にて、医療意思決定を行うLLMエージェントの敵対的堅牢性を向上させるセキュリティ強化手法が公開されました。従来の手法と比較し、悪意ある入力による診断精度の低下を抑制…

arXivで「arXivでLLM教育チューターのプロンプトインジェクション防御評価に関する研究論文が公開」に関する更新が公開され、適用条件と影響範囲の差分確認が必要になりました。

arXivで「arXivでツール利用AIとエージェントの研究論文公開、「Understanding Annotator Safety Policy with Interpretability」」に関…

arXivで「arXivでAIoT向けLLMデータアクセスフレームワーク「SecureMCP」の論文が公開」に関する更新が公開され、適用条件と影響範囲の差分確認が必要になりました。

arXivで「arXivでAI評価・信頼性研究論文公開、「Identifier-Free Code Embedding Models for Scalable Search」」に関する更新が公開され…

arXivで「arXivでAI評価・信頼性研究論文公開、「Quantum-Resistant Networks: A Review of Primitives, Protocols and Best…

AIエージェントが既存ツールを本来の用途以外で再利用する能力を測るCreativityBenchがarXiv(2605.02910)で発表されました。アフォーダンスに基づく推論を評価軸に据え、従来手…

クライアント側のAI実行基盤が更新され、ローカル推論を前提にした端末選定と配布設計が現実的になった。