| ایمنی در مدلهای زبانی بزرگ: از حملات تزریق پرامپت تا دفاعهای عاملمحور |
| کد مقاله : 1132-CYSP2025 (R1) |
| نویسندگان |
|
شکوفه بابایی گرجی *1، کاظم فولادی قلعه2 1دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران 2استادیار گروه مهندسی کامپیوتر، دانشکده مهندسی دانشکدگان فارابی دانشگاه تهران؛ سرپرست آزمایشگاه پژوهشی یادگیری عمیق دانشگاه تهران |
| چکیده مقاله |
| با گسترش مدلهای زبانی بزرگ (LLMs) در حوزههای متنوع، از دستیاران شخصی گرفته تا سیستمهای حساس پزشکی و رباتیک، موضوع ایمنی و امنیت آنها به یک چالش حیاتی تبدیل شده است. این مقاله مروری به تحلیل تهدیدات نوظهور از جمله تزریق پرامپت (Prompt Injection) و جیلبریکینگ (Jailbreaking) پرداخته و چارچوبی مفهومی برای درک اکوسیستم حملات و دفاعها ارائه میدهد. حملات تزریق پرامپت میتوانند در کاربردهای حساس، مانند سیستمهای انکولوژی یا رباتیک سیار، پیامدهای جدی و حتی جانی ایجاد کنند. این پژوهش با مرور جامع ادبیات، هم دفاعهای سنتی (مانند فیلترینگ ورودی) و هم رویکردهای نوین مانند PathSeeker مبتنی بر یادگیری تقویتی را بررسی میکند. علاوه بر این، پارادایم ایمنی عاملمحور (Agentic) که بر پایه سیستمهای چندعاملی، گاردریلها و روشهای Red Teaming بنا شده، بهعنوان چارچوبی نوظهور برای مقابله بیشفعال با تهدیدات معرفی میشود. در پایان، با تحلیل چالشها و مسیرهای تحقیقاتی آینده، این مطالعه چشماندازی جامع برای تقویت ایمنی و تابآوری LLMs فراهم میآورد. |
| کلیدواژه ها |
| LLM، ایمنی، امنیت، تزریق پرامپت، جیلبریکینگ، دفاع عاملمحور، گاردریل. |
| وضعیت: پذیرفته شده برای ارائه شفاهی |
