ایمنی در مدلهای زبانی بزرگ: از حملات تزریق پرامپت تا دفاعهای عاملمحور |
کد مقاله : 1132-CYSP2025 (R1) |
نویسندگان |
شکوفه بابایی *1، کاظم فولادی قلعه2 1ندارم 2دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهران |
چکیده مقاله |
با گسترش روزافزون مدلهای زبانی بزرگ (LLMs) در حوزههای حیاتی نظیر مراقبتهای بهداشتی، انکولوژی و رباتیک، موضوع ایمنی و امنیت آنها به یک چالش فوری و جانی تبدیل شده است. این مقاله به تحلیل سیستماتیک تهدیدات نوظهور، بهویژه حملات تزریق پرامپت (Prompt Injection) و جیلبریکینگ (Jailbreaking)، میپردازد که قادر به دور زدن دستورالعملهای محوری و ایجاد پیامدهای جدی در کاربردهای حساس هستند. این پژوهش مروری جامع بر اکوسیستم حملات و دفاعها ارائه داده و نشان میدهد که دفاعهای سنتی، نظیر فیلترینگ ورودی و آموزش مقابلهای، در برابر حملات پیشرفته مانند پسوندهای خصمانه و حملات چندنوبتی ناکارآمد و شکننده هستند. در مقابل، این مقاله پارادایم نوین و پیشگام ایمنی عاملمحور (Agentic Safety) را معرفی و تحلیل میکند. این چارچوب دفاعی، با بهرهگیری از سیستمهای چندعاملی، گاردریلهای هوشمند و استفاده از یک LLM بهعنوان عامل امنیتی، امکان تشخیص نیت مهاجم و ارائه دفاعی انطباقپذیر و پیشفعال را فراهم میآورد. علاوه بر این، نقش روشهای Red Teaming خودکار، مانند ابزارهای مبتنی بر یادگیری تقویتی و الگوریتمهای بهینهسازی، در ارزیابی سیستماتیک آسیبپذیریها بررسی میشود. در نهایت، با تحلیل چالشهای کلیدی پیشرو، از جمله هزینه محاسباتی بالای دفاعهای نوین و تهدید حملات روز صفر (Zero-day)، این مطالعه نقشه راهی جامع برای تقویت استانداردهای ایمنی جهانی و تضمین عملکرد قابل اعتماد LLMs در کاربردهای حساس ترسیم میکند. این یافتهها مسیر حرکت از دفاع واکنشی به سوی معماری ایمنی ذاتی در سیستمهای عاملمحور را برجسته میسازد. |
کلیدواژه ها |
LLM ، ایمنی، امنیت، تزریق پرامپت، جیلبریکینگ، دفاع عاملمحور، گاردریل. |
وضعیت: پذیرفته شده برای ارائه شفاهی |