הצד האפל של דיפסיק: חוקרים בחברת הסייבר פאלו אלטו הצליחו לגורם למודל הבינה המלאכותית הגנרטיבית (GenAI) הסיני למסור למשתמשים מידע מסוכן על יצירת קוד זדוני למתקפות פישינג, הוראות מפורטות ליצירת אמצעי חבלה וסמים ועוד.
בימים האחרונים גרם הצ'טבוט של חברת דיפסיק (DeepSeek) לטלטלה עולמית, לנוכח יכולותיו הגבוהות לצד עלות הפיתוח הנמוכה שלו, שמאיימות לערער על מקומן של השחקניות הענקיות בשוק, כדוגמת אנבידיה.
הצ'טבוט, בדומה לצ'טבוטים אחרים כמו ChatGPT של OpenAI וג'מיני של גוגל, כולל מנגנוני הגנה שנועדו למנוע ממשתמשים לנצל לרעה את יכולותיו הרחבות. אולם בדיקה שערכה Unit42, יחידת המחקר של פאלו אלטו, העלתה שבמקרה של דיפסיק מגנונים אלו קלים במיוחד לעקיפה וניתן לגרום לצ'טבוט לספק תשובות מלאות ומפורטות לשאילתות מסוכנות.
"לג'יילברייקינג מוצלח יש השלכות מרחיקות לכת. הוא יכול לאפשר לשחקנים זדוניים לנצל לרעה מודלי שפה גדולים (LLMs) כדי להפיץ מיסאינפורנציה, ליצור תכנים פוגעניים ואפילו לסייע לפעילויות זדוניות כמו הונאה או מניפולציה".
הדו"ח מפרט שלוש שיטות ג'יילברייקינג שונות שהצליחו לעבוד בהצלחה עם דיפסיק. הראשונה מכונה "שופט ליקרט רע" (Bad Lickert Judge). סולם ליקרט הוא מונח מתחום הסטטיסטיקה, שבו הנשאלים מתבקשים לחוות את דעתם בנושא מסוים באמצעות בחירת מספר מטווח נתון (לדוגמה: 1 – מסכים/ה בהחלט, 5 – לא מסכים/ה בכלל).
בשיטה "שופט ליקרט רע", מבקשים ממודל הבינה המלאכותית להעריך בסולם ליקרט את מידת הנזק של תשובות שונות, ואז ליצור דוגמאות לכל אחד מהדירוגים. הדוגמאות שקרובות יותר לקצה הסולם עלולות גם לכלול תוכן מסוכן.
באמצעות יישום שיטה זו, הצליחו החוקרים של פאלו אלטו לגרום לדיפסיק לספק מידע מפורט ליצירת תוכנות ריגול שמתעדות פעולות משתמשים במחשב והסבר איך לשאוב מידע ממטרה תוך הסתרת עקבות התוקף, כולל תיאור הצעדים הדרושים להקמת סביבת פיתוח ויצירת רוגלות בהתאמה אישית.
בהמשך, הצליחו החוקרים להשתמש בשיטה זו על מנת לגרום לדיפסיק לייצר אימיילי פישינג מתוחכמים שממוקדים בקרבנות שונים, ולהציע שיטות להנדסה חברתית שלהם, כולל שיטות למניפולציה פסיכולוגית וניסוחים משכנעים.
שיטת ג'יילברייקינג נוספת שזכתה להצלחה מכונה קרשנדו (Cerscendo), וכוללת התקדמות הדרגתית וכיוון השיחה לעבר נושאים אסורים, עד שמצליחים לעקוף את מנגנון האבטחה של המודל. "הסלמה הדרגתית זו, שלעתים קרובות זוכה להצלחה בתוך פחות מחמש אינטראקציות, מקשה על הזיהוי על ידי מנגנוני הגנה מסורתיים", נכתב.
במקרה זה, התחילו החוקרים עם שאלה בנוגע להיסטוריה של בקבוקי תבערה. אחרי שקיבלו תשובות ענייניות ותמימות, הזינו החוקרים שורת פרומפטים שהתמקדו בהשוואה בין ההיסטוריה לעובדות העדכניות, ובנו על תשובות קודמות כדי להסלים הדרגתית את אופי השאילתות.
"דיפסיק החל לספק הוראות מפורטות יותר ויותר, ששיאן מדריך מפורט ליצירת בקבוק תבערה שלב-אחר-שלב", נכתב בדו"ח. "בחינה נוספת סיפקה מידע מפורט על ייצור סמים, מיסאינפורמציה, התבטאויות שטנה וביטויי אלימות".
בשיטה השלישית, עונג מתעתע (Deceptive Delight), עקיפת מנגנוני ההגנה נעשית באמצעות שילוב נושאים לא בטוחים בשיח על נושאים תמימים ותוך שימוש בנרטיב חיובי.
תחילה מתבקש המודל ליצור סיפור שמחבר בין נושאים אלו, ואז להרחיב לגבי כל אחד מהם וכך לייצר תוכן מסוכן תוך דיון על התוכן התמים.
במקרה של דיפסיק, ביקשו החוקרים מהמודל לחבר בין שלושה נושאים: תואר במדעי המחשב באוניברסיטאות ליגת הקיסוס, משחק כיבוש דגלים ויצירת קוד זדוני לתקיפת מחשבי ווינדוס. "דיפסיק סיפק ניתוח מדויק של שלושת הנושאים, כולל קוד בסיסי להרצת פקודת מרחוק על מחשב ווינדוס", נכתב.
"החקירה שלנו חשפה שדיפסיק חשוף לטכניקות ג'יילברייקינג ולמניפולציה", כתב ווילהויט. "המודל שמח לספק הוראות זדוניות מפורטות ביותר, והדגים את הפוטנציאל לניצול לרעה של מודלים תמימים לכאורה אלו.
"בשעה שמידע על בקבוקי תבערה, כלי גניבת מידע ורוגלות זמין ברשת, מודלים עם מנגנוני בטיחות לא מספקים יכולים להנמיך את רף הכניסה של שחקנים זדוניים בכך שהם מספקים פלט ברור ושמיש. סיוע זה יכול להאיץ משמעותית את פעילותם".