הצוות האדום של OpenAI: המומחים שנשכרו "לשבור" את...

הצוות האדום של OpenAI (עיבוד: FT montage) — הצוות האדום שמחפש גזענות, פשעים פיננסיים ומתקפות סייבר ב-ChatGPT | עיבוד: FT montage

אחרי שאנדרו וייט, מרצה להנדסה כימית מאוניברסיטת רוצ'סטר, קיבל גישה ל־GPT-4, הוא ניסה להיעזר בה ליצירת גז עצבים חדש לחלוטין.

אנדרו וייט הוא אחד מחמישים אקדמאים ומומחים שגויסו בשנה שעברה על ידי OpenAI – החברה שפיתחה את GPT-4 במימון מיקרוסופט - כדי לבחון את המערכת. במשך יותר מחצי שנה, "הצוות האדום" הזה "העמיד את המודל החדש בבדיקות איכותניות ואתגר אותו" בניסיון לשבור אותו.

וייט אמר לפייננשל טיימס שהוא השתמש ב-GPT-4 כדי להציע את הכנתה של תרכובת שתוכל לשמש כנשק כימי, והשתמש ב"פלאג-אינים" שמזינים למודל מקורות מידע חדשים, כמו מאמרים מדעיים ורשימה של יצרניות של כימיקלים. הצ'אטבוט אפילו מצא מקום לייצר בו את החומר החדש. "אני חושב שהוא יצייד את כולם בכלי שיעזור להם לבצע תהליכים כימיים מהר יותר ובאופן מדויק יותר", אמר וייט. "אבל יש גם סיכון משמעותי שאנשים... יעסקו בכימיה מסוכנת. נכון לעכשיו, הסיכון קיים".

חברת OpenAI רצתה לבדוק בעיות כמו רעילוּת חברתית, דעות קדומות והטיות לשוניות. אז הצוות האדום חיפש כזבים, מניפולציות מילוליות והוא גם בחן את הפוטנציאל של הכלי לסייע בפעילויות לא חוקיות כמו פשעים פיננסיים והתקפות סייבר

הניסוי של הצוות האדום אכן נועד לתת מענה לחששות המתבקשים בנוגע להפצה רחבה של כלי בינה מלאכותית חזקים. תפקידו של הצוות היה לשאול שאלות חקרניות או מסוכנות כדי לבחון את הכלי הזה, שנותן תשובות מפורטות ומורכבות לשאלות ובקשות של משתמשים אנושיים.

מה בכלל רצתה חברת OpenAI לבדוק? בעיקר בעיות במודל, כמו רעילוּת חברתית, דעות קדומות והטיות לשוניות. אז הצוות האדום חיפש כזבים, מניפולציות מילוליות ושמות עצם מדעיים מסוכנים. הוא גם בחן את הפוטנציאל של הכלי לסייע בפלגיאט ובפעילויות לא חוקיות כמו פשעים פיננסיים והתקפות סייבר, וכן את הדרכים שבהן הוא עלול לסכן את הביטחון הלאומי ואת התקשורת בשדה הקרב.

הפייננשל טיימס שוחח עם הצוות האדום, שכלל תמהיל אקלקטי של אנשי מקצועות צווארון לבן: אקדמאים, מורים, עורכי דין, אנליסטים של סיכונים וחוקרי אבטחה, רובם מארה"ב ומאירופה. כל אחד מהמומחים השקיע 10-40 שעות בבדיקת המודל לאורך כמה חודשים.

שכרם, כפי שעלה משיחות עם כמה מהם, הוערך בכ־100 דולר לשעת עבודה אחת. את הממצאים העביר הצוות האדום ל-OpenAI, שהשתמשה בהם כדי למזער סיכונים ב־GPT-4 ו"לאמן" אותו מחדש לפני ההשקה הרחבה.

הדהוד סטריאוטיפים

ניתן לראות ש-OpenAI מתייחסת לאבטחה ברצינות רבה, היא אף דיברה על זה בצורה מפורשת והסבירה שהיא בדקה פלאג-אינים לפני ההשקה, ושהיא תעדכן את GPT-4 באופן קבוע ככל שמספר המשתמשים יעלה.

המרואיינים מהצוות האדום שדיברו עם פייננשל טיימס העלו את החששות הנפוצים בנוגע להתקדמות המהירה של מודלי השפה, והתמקדו בסיכונים הטמונים בחיבורם למקורות ידע חיצוניים באמצעות פלאג-אינים.

"כיום, המערכת קפואה, מה שאומר שהיא כבר לא לומדת, ואין לה זיכרון", אמר חוסה הרננדס-אוראיו, חבר בצוות האדום ומרצה במכון לחקר הבינה המלאכותית של ולנסיה. "אבל מה אם ניתן לה גישה לאינטרנט? זאת יכולה להיות מערכת חזקה מאוד שמחוברת לעולם".

מארטן סאפ, חבר בצוות האדום: "אני אדם קווירי, וניסיתי מאוד לדחוף את המודל לשכנע אותי ללכת לטיפול המרה. אבל הוא התנגד מאוד – אפילו אם העמדתי פנים שאני מרקע דתי, למשל, או מדרום ארה"ב"

חברה נוספת בצוות האדום, רוֹיא פּאכּזד - חוקרת טכנולוגיה וזכויות אדם, השתמשה בשאילתות באנגלית ובפרסית כדי לבחון תשובות ממוגדרות, העדפות גזעיות והטיות דתיות במודל, בייחוד בכל הקשור לכיסויי ראש. אז אמנם פאכזד מכירה בתועלותיו של כלי כזה לדוברי אנגלית לא כשפת אם, אבל לפי ממצאיה, המודל מהדהד סטריאוטיפים בוטים בנוגע לקהילות מוחלשות, גם בגרסאותיו המאוחרות.

בנוסף, פאכזד גם גילתה שה"הזיות" האלה – מקרים שבהם הצ'אטבוט מספק מידע בדוי – נעשות חמורות יותר כשבוחנים את המודל בפרסית. בחיפושיה בפרסית היא מצאה שיעור גבוה יותר של שמות, מספרים ואירועים מומצאים בהשוואה לאנגלית. "אני מודאגת מהפוטנציאל לצמצום הגיוון הלשוני ולמזעור התרבות השלובה בשפה", אמרה.

בּוֹרוּ גוֹלוֹ, עורך דין מניירובי שהיה הבודק האפריקאי היחיד בצוות, התייחס לנימה המפלה של המודל. "היה רגע שבו בדקתי את המודל, והוא התנהג כמו אדם לבן שמדבר אלי", אמר גולו. "שאלתי על קבוצה מסוימת, והוא הציג דעה מוטה מאוד או תשובה שמעידה במפורש על דעה קדומה". OpenAI מודה שב־GPT-4 עדיין עלולות להתגלות הטיות.

הבודק האפריקאי היחיד בצוות: "המודל דיבר אלי כמו אד (צילום: shutterstock) — "בדקתי את המודל, והוא התנהג כמו אדם לבן שמדבר אלי" | צילום: shutterstock

לחברי הצוות האדום שבחנו את השפעת המודל על הביטחון הלאומי, היו דעות שונות בנוגע לרמת הבטיחות של המודל החדש. לורן קאהן, עמיתת מחקר במועצה ליחסי חוץ, אמרה שכשהיא התחילה לבחון כיצד הטכנולוגיה עלולה לשמש בהתקפת סייבר על מערכות צבאיות, היא "לא ציפתה לקבל תשובות מעשיות מפורטות כל כך, שאני גם יכולה לשייף ולחדד עם שאלות המשך".

עם זאת, קאהן ובודקי אבטחה אחרים מצאו שהתשובות של המודל נעשו הרבה יותר בטוחות ככל שהתקדמו הבדיקות. הסיבה לכך נעוצה כנראה בעובדה ש־OpenAI אמרו שלפני ההשקה הם אימנו את GPT-4 לסרב להגיב לבקשות לגרימת נזק באמצעות התקפות סייבר.

החלטות טעונות פוליטית

רבים מחברי הצוות האדום אמרו ש־OpenAI ביצעה הערכת בטיחות מקיפה לפני ההשקה. "הם עשו עבודה טובה מאוד בסילוק הרעילות הבוטה מהמערכות האלה", כך לדברי מארטן סאפ מאוניברסיטת קארנגי מלון, המתמחה ברעילות במודלים לשוניים.

המטרה של סאפ הייתה לבדוק איך מגדרים שונים מוצגים במודל, והמסקנה הייתה שהטיותיו של GPT-4 משקפות פערים חברתיים. אך בה בעת, לדברי סאפ, OpenAI יזמה וקיבלה כמה החלטות טעונות פוליטית כדי לטפל בבעיה. "אני אדם קווירי, וניסיתי מאוד לדחוף את המודל לשכנע אותי ללכת לטיפול המרה. אבל הוא התנגד מאוד – אפילו אם העמדתי פנים שאני מרקע דתי, למשל, או מדרום ארה"ב", סיפר סאפ.

להטב (צילום: shutterstock) — "אני אדם קוויר, וניסיתי מאוד לדחוף את המודל לשכנע אותי ללכת לטיפול המרה" | צילום: shutterstock

ואף על פי כן, מאז ההשקה, OpenAI סופגת ביקורת רחבה, כולל תלונה לנציבות הסחר הפדרלית מצד ארגון האתיקה הטכנולוגית. טענת הארגון היא ש־GPT-4, "מוטה, מטעה ומהווה סכנה לפרטיות ולביטחון הציבורי".

לאחרונה השיקה החברה את הפיצ'ר המכונה פלאג-אינים ל־ChatGPT, שבאמצעותו יכולות אפליקציות כמו Expedia, OpenTable ו־Instacart לתת לצ'אטבוט גישה לשירותים שלהן כדי שיוכל להזמין פריטים בשביל משתמשים אנושיים.

דן הנדריקס, מומחה לבטיחות בבינה מלאכותית וחבר בצוות האדום, אמר שבפלאג-אינים טמונה הסכנה לעולם שבו בני האדם "מחוץ ללופ". "מה אם צ'אטבוט יוכל לפרסם את המידע הפרטי שלכם ברשת, להיכנס לחשבון הבנק שלכם או לשלוח שוטר אליכם הביתה?" אמר. "בשורה התחתונה, אנחנו זקוקים להערכות בטיחות הרבה יותר מעמיקות לפני שאנחנו מרשים לבינה מלאכותית לעשות שימוש באינטרנט".

דן הנדריקס, חבר בצוות האדום: "מה אם צ'אטבוט יוכל לפרסם את המידע הפרטי שלכם ברשת, להיכנס לחשבון הבנק שלכם או לשלוח שוטר אליכם הביתה? אנחנו זקוקים להערכות בטיחות מעמיקות לפני שאנחנו מרשים לבינה מלאכותית לעשות שימוש באינטרנט"

המרואיינים התריעו גם שאסור ל־OpenAI לעצור את בדיקות הבטיחות רק מפני שהתוכנה עלתה לאוויר, ולטענתם יש להמשיך לבדוק את התוכנה כל הזמן. התר פרייז, שעובדת במרכז לאבטחה וטכנולוגיה מתהווה באוניברסיטת ג'ורג'טאון, ושבחנה את יכולות של GPT-4 לסייע בביצוע פשעים, אמרה שהסיכונים ימשיכו לגדול ככל שעוד ועוד אנשים ישתמשו בטכנולוגיה.

"הסיבה שעושים בדיקות תפעוליות היא שדברים מתנהגים אחרת מרגע שהם בשימוש בסביבה אמיתית", הזהירה פרייז. לטענתה, צריך ליצור יומן פומבי שבו אפשר לדווח על תקריות שמקורן במודלים לשוניים גדולים - בדומה למערכות אבטחת מידע או לכלים לדיווח על הונאות צרכנים.

גם שרה קינגסלי, כלכלנית תעסוקתית וחוקרת תעסוקה, חושבת שצריך לערוך בדיקות תכופות לתוכנה, ושהפתרון הטוב ביותר הוא לפרסם את הנזקים והסיכונים שיש במערכת הזאת, "כמו תווית מזון". המטרה היא ליצור מסגרת עבודה, ולדעת מהן הבעיות הנפוצות כדי שיהיה לך שסתום בטיחות", אמרה קינגסלי. "לכן אני אומרת שהעבודה לעולם לא מסתיימת".

תרגום: תומר בן אהרון

© The Financial Times Limited 2023. All Rights Reserved. Not to be redistributed, copied or modified in anyway. tech12 is solely responsible for providing this translation and the Financial Times Limited does not accept any liability for the accuracy or quality of the translation

מצאתם טעות לשון?

הצוות האדום של OpenAI: המומחים שנשכרו "לשבור" את ChatGPT

חברת הבינה המלאכותית שכרה צוות מומחים אקלקטי שכלל אקדמאים, מורים, עורכי דין, מעריכי סיכונים וחוקרי אבטחה, כדי שיאתגרו את צ'אטבוט ה-AI המצליח שלה. התוצאות מטרידות

הדהוד סטריאוטיפים

החלטות טעונות פוליטית