דאטה סיינטיסטים? כך תימנעו מהטיות של מודלים

דאטה סיינטיסטים, data science (צילום: everything possible, shutterstock) — דאטה סיינטיסטים. מנתחים נתונים ונמנעים מהטיות | צילום: everything possible, shutterstock

הטיות של מודלים נחשבות לאחד האתגרים המרכזיים שעומדים בפני הדאטה סיינטיסט. גם הדאטה סיינטיסט המוכשר והמנוסה ביותר לא חף מלבנות מודל בעל הטיות, ועל כן צריך לבצע בדיקת אתיות בשלבים שונים בחיי המודל: במהלך הכנת הנתונים, בשלב בניית המודל ולבצע מעקב שוטף לאחר שהמודל הועבר לייצור.

רבים חושבים שהדאטה סיינטיסט אחראי לבנות את המודל באופן היעיל והאפקטיבי ביותר, אך לדאטה סיינטיסט יש אחריות רחבה יותר מעבר לבניית המודל הסטטיסטי. באחריותו לבדוק שהמודל שבנה אינו מוטה (bias) כלומר התוצאות שממליץ המודל אינן נוטות ל"צד" מסוים או לקבוצה מסוימת.

אחריות זו הינה כבדת משקל שכן על פי תוצאות המודל והמלצותיו יוחלטו החלטות גורליות לפרט בתחומי הפיננסים, הבריאות וכו'. מתפקידו לבדוק את הוגנות המודל בשלבים שונים במחזור החיים של המודל (Responsible AI). במאמר זה נסקור מהם האתגרים העומדים בפני הדאטה סיינטיסט, באילו מקומות עלול המודל להיות מוטה לקבוצה מסוימת, כיצד לזהות זאת ומהם דרכי הפעולה למנוע זאת.

בניית מודל עם המלצות מוטות עלול להוביל בסופו של דבר ל'נפילת הפרויקט' במקרה הטוב טרם עלייתו לאוויר, או לקבלת תוצאה מוטעית על נתוני אמת במקרה הרע, מה שמוביל לעיתים להפסדים כספיים או המלצות לא נכונות שהינן מוטות כלפי אוכלוסייה מסוימת ומפלות אותה לרעה

חשוב להבין שבניית מודל עם המלצות מוטות עלול להוביל בסופו של דבר ל'נפילת הפרויקט' במקרה הטוב טרם עלייתו לאוויר, או לקבלת תוצאה מוטעית על נתוני אמת במקרה הרע, מה שמוביל לעיתים להפסדים כספיים או המלצות לא נכונות שהינן מוטות כלפי אוכלוסייה מסוימת ומפלות אותה לרעה.

דוגמאות להטיות בולטות של מודלים מהעולם העסקי:

1. מתחום משאבי האנוש בהם מסתמכים על מודלים מבוססי AI שינסו לנבא את סיכוי ההצלחה או ההישרדות של העובד בעבודה. אם הדאטה סיינטיסט יבנה מודל של קבלת עובדים לעבודה, ולא יהיו לו נתונים המייצגים את כל העובדים הפוטנציאלים, המודל לא ימליץ על עובד מסוים (למרות שהוא יכול להיות מעולה בתפקידו), בגלל שלא למד על ה"אוכלוסייה" שממנה הגיע.

2. בעולם הבנקאות: הבנקים מסתמכים על מודלים כדי לאשר או לסרב לבקשות הלוואות של הלקוחות. אם המודל מוטה, הבנק עלול לסרב הלוואה ללקוח למרות שלאדם יש יכולת החזר, אך בגלל שהמודל לא הכיר את המאפיינים של אותו אדם, הוא קבע באופן מוטה שאינו בר יכולת החזרה ולכן המליץ לא לאשר לו הלוואה או לייקר את תנאי ההלוואה.

3. בתחום הבריאות: במידה ומתבססים על המודל כהמלצה תומכת לקבלת החלטות רפואיות לדוגמא עבור אשפוז או מתן טיפול מסוים. אם הבעיה של אותו מטופל לא מוכרת או לא מוכרת מספיק בנתונים, ההמלצה עלולה להיות שגויה.

כדי להימנע מהטיות אלה, הכרחי עבור מדעני הנתונים לבצע מספר בדיקות איכות ואתיות לבחינת המודל בשלבים שונים: במהלך הכנת הנתונים, במהלך הבנייה של המודל ומעקב אחר ביצוע המודל.

א. שלב בניית סט הנתונים: איתור הטיות בנתונים - חשוב לבדוק אם הנתונים איתם אנו בונים את המודל הם בעלי ההתפלגות המתאימה עבור האוכלוסייה שעבורה המודל מיועד. למשל במידה ובונים מודל עבור האוכלוסייה הכללית, חשוב שכמות הגברים בנתונים תהיה כ-50%.

ב. שלב בניית המודל: הסבריות המודל - חלק גדול מהמודלים הפופולריים הם מודלים מסוג BLACK BOX שלא ניתן לדעת למה ואיך הם קיבלו את החלטה. במקרים אלה רצוי להפעיל אלגוריתמים אשר יחקו את המודל ובעזרתם נוכל להבין מדוע המודל קיבל את החלטה שהחליט, או מה הייתה הסיבה שבגללה התקבלה החלטה. המטרה לנסות להבין כיצד ערך מסוים ישפיע על קבלת החלטה (למשל אם האדם מעל גיל 55 נאשר לו הלוואה, אבל אם גילו פחות מ-55 אז לא) ולהבין למה קבלת ההחלטה נעשה כפי שנעשתה.

הוגנות המודל (Fairness) - נדרש לבצע בדיקות האם המודל מעדיף קבוצה אחת על פני אחרת, למשל אם עבור גברים אחוז הדיוק של המודל מאוד גבוה 95% ואילו של הנשים נמוך בהרבה - 60%. מדובר במצב לא הוגן. מצב זה יכול לקרות כאשר המודל "מזניח" את קבוצת הנשים, ומתרכז בדיוק של קבוצת הגברים.

ג. תחזוקת המודל: מכיוון שאיכות החיזוי של המודל הינו קרוב מאוד לביצועים שהיו למודל ביום שהוא נבנה. נדרש לבדוק לאורך הזמן שינויים של הנתונים. בנוסף, צריך לבדוק כי התפלגות של הנתונים שאיתם המודל משתמש על מנת לחזות, נשארת כפי שהייתה ולא חל שינוי. לדוגמא, בתקופת הקורונה אנשים רבים נסעו פחות קילומטרים, והתפלגות של הנתון "מספר קילומטרים בשנה" השתנה ממה שהיה לפני הקורונה.

ביקורת על החלטות - מומלץ לאורך הזמן לבדוק כיצד החלטות המודל השפיעו על הקבוצות השונות, והאם אלו השפעות שהן רצויות.

לסיכום, לבנות מודל טוב מורכב מפרמטרים נוספים מעבר לביצועי המודל. בפני ה-Data Scientist קיימים אתגרים לא פשוטים שהבולט ביניהם, כאמור, הוא הטיות של מודלים. כדי להימנע מהם, הכרחי לבצע בדיקות איכות ואתיות לבחינת המודל בשלבים שונים בחיי המודל.

תמונת עיגול חן חלפי (צילום: יחצ) — צילום: יחצ

הכותבת היא: חן חלפי, Data Scientist בחברת מיה אנליטיקס, נציגת SAS בישראל

מצאתם טעות לשון?