ایمنی در مدل‌های زبانی بزرگ: از حملات تزریق پرامپت تا دفاع‌های عامل‌محور
کد مقاله : 1132-CYSP2025 (R1)
نویسندگان
شکوفه بابایی گرجی *1، کاظم فولادی قلعه2
1دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران
2استادیار گروه مهندسی کامپیوتر، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران؛ سرپرست آزمایشگاه پژوهشی یادگیری عمیق دانشگاه تهران
چکیده مقاله
با گسترش مدل‌های زبانی بزرگ (LLMs) در حوزه‌های متنوع، از دستیاران شخصی گرفته تا سیستم‌های حساس پزشکی و رباتیک، موضوع ایمنی و امنیت آن‌ها به یک چالش حیاتی تبدیل شده است. این مقاله مروری به تحلیل تهدیدات نوظهور از جمله تزریق پرامپت (Prompt Injection) و جیل‌بریکینگ (Jailbreaking) پرداخته و چارچوبی مفهومی برای درک اکوسیستم حملات و دفاع‌ها ارائه می‌دهد. حملات تزریق پرامپت می‌توانند در کاربردهای حساس، مانند سیستم‌های انکولوژی یا رباتیک سیار، پیامدهای جدی و حتی جانی ایجاد کنند. این پژوهش با مرور جامع ادبیات، هم دفاع‌های سنتی (مانند فیلترینگ ورودی) و هم رویکردهای نوین مانند PathSeeker مبتنی بر یادگیری تقویتی را بررسی می‌کند. علاوه بر این، پارادایم ایمنی عامل‌محور (Agentic) که بر پایه سیستم‌های چندعاملی، گاردریل‌ها و روش‌های Red Teaming بنا شده، به‌عنوان چارچوبی نوظهور برای مقابله بیش‌فعال با تهدیدات معرفی می‌شود. در پایان، با تحلیل چالش‌ها و مسیرهای تحقیقاتی آینده، این مطالعه چشم‌اندازی جامع برای تقویت ایمنی و تاب‌آوری LLMs فراهم می‌آورد.
کلیدواژه ها
LLM، ایمنی، امنیت، تزریق پرامپت، جیل‌بریکینگ، دفاع عامل‌محور، گاردریل‌.
وضعیت: پذیرفته شده برای ارائه شفاهی