ایمنی در مدل‌های زبانی بزرگ: از حملات تزریق پرامپت تا دفاع‌های عامل‌محور
کد مقاله : 1132-CYSP2025 (R1)
نویسندگان
شکوفه بابایی *1، کاظم فولادی قلعه2
1ندارم
2دانشکده مهندسی، دانشکدگان فارابی، دانشگاه تهران
چکیده مقاله
با گسترش روزافزون مدل‌های زبانی بزرگ (LLMs) در حوزه‌های حیاتی نظیر مراقبت‌های بهداشتی، انکولوژی و رباتیک، موضوع ایمنی و امنیت آن‌ها به یک چالش فوری و جانی تبدیل شده است. این مقاله به تحلیل سیستماتیک تهدیدات نوظهور، به‌ویژه حملات تزریق پرامپت (Prompt Injection) و جیل‌بریکینگ (Jailbreaking)، می‌پردازد که قادر به دور زدن دستورالعمل‌های محوری و ایجاد پیامدهای جدی در کاربردهای حساس هستند. این پژوهش مروری جامع بر اکوسیستم حملات و دفاع‌ها ارائه داده و نشان می‌دهد که دفاع‌های سنتی، نظیر فیلترینگ ورودی و آموزش مقابله‌ای، در برابر حملات پیشرفته مانند پسوندهای خصمانه و حملات چندنوبتی ناکارآمد و شکننده هستند.
در مقابل، این مقاله پارادایم نوین و پیشگام ایمنی عامل‌محور (Agentic Safety) را معرفی و تحلیل می‌کند. این چارچوب دفاعی، با بهره‌گیری از سیستم‌های چندعاملی، گاردریل‌های هوشمند و استفاده از یک LLM به‌عنوان عامل امنیتی، امکان تشخیص نیت مهاجم و ارائه دفاعی انطباق‌پذیر و پیش‌فعال را فراهم می‌آورد. علاوه بر این، نقش روش‌های Red Teaming خودکار، مانند ابزارهای مبتنی بر یادگیری تقویتی و الگوریتم‌های بهینه‌سازی، در ارزیابی سیستماتیک آسیب‌پذیری‌ها بررسی می‌شود. در نهایت، با تحلیل چالش‌های کلیدی پیش‌رو، از جمله هزینه محاسباتی بالای دفاع‌های نوین و تهدید حملات روز صفر (Zero-day)، این مطالعه نقشه راهی جامع برای تقویت استانداردهای ایمنی جهانی و تضمین عملکرد قابل اعتماد LLMs در کاربردهای حساس ترسیم می‌کند. این یافته‌ها مسیر حرکت از دفاع واکنشی به سوی معماری ایمنی ذاتی در سیستم‌های عامل‌محور را برجسته می‌سازد.
کلیدواژه ها
LLM ، ایمنی، امنیت، تزریق پرامپت، جیل‌بریکینگ، دفاع عامل‌محور، گاردریل‌.
وضعیت: پذیرفته شده برای ارائه شفاهی