בעולם הבינה המלאכותית, זה הכי קרוב שיש להופעת רוק: בתוך מרכז מחשוב העל של המרכז הצרפתי הלאומי למחקר מדעי בפאתי פריז, שורות על גבי שורות של מכשירים שחורים דמויי מקררים מזמזמים בעוצמה מחרישת אוזניים של 100 דציבלים. יחד הם מרכיבים חלק ממחשב-על שדגר במהלך 117 יום על "מודל שפה גדול" (LLM) חדש בשם BLOOM. יוצריו מקווים שהמודל הזה מבשר מהפכה באופן הפיתוח של בינה מלאכותית.

בניגוד למודלים אחרים מסוג זה - כמו GPT-3 של OpenAI ו־LaMDA של גוגל - BLOOM (ראשי תיבות של BigScience Large Open-science Open-acess Multilanguage Language Model) נועד להיות כמה שיותר שקוף. החוקרים שפיתחו אותו חולקים פרטים על הנתונים שבאמצעותם הוא אומן, על אתגרי הפיתוח ועל האופן שבו הם העריכו את ביצועיו. זאת בניגוד ל-OpenAI וגוגל, שלא חלקו את הקוד שלהן או הנגישו את המודלים שלהן לציבור, וחוקרים חיצוניים מבינים מעט מאוד בנוגע לשיטות האימון שהן השתמשו בהן.

על פיתוחו של בלום (BLOOM) עמלו בשנה החולפת יותר מאלף חוקרים מתנדבים, במסגרת פרויקט בשם BigScience, שאותו תיאם סטארט אפ הבינה המלאכותית Hugging Face בסיוע מימון מממשלת צרפת. בלום הושק רשמית ב-12 ביולי השנה, והחוקרים מקווים שקיומו של מודל LLM בקוד פתוח שביצועיו לא נופלים מהמודלים המובילים הקיימים, יוביל לשינויים ארוכי טווח בתרבות פיתוח הבינה המלאכותית. הם מקווים גם שהוא יתרום לדמוקרטיזציה של הגישה לטכנולוגיית בינה מלאכותית מתקדמת בעבור חוקרים מכל העולם.

הגישה הנוחה ל-BLOOM היא היתרון "המסחרי" הגדול ביותר שלו: עכשיו שהוא באוויר, כל אחד יכול להוריד אותו מהאתר של Hugging Face ולשחק איתו בלי צורך בתשלום. המשתמשים יכולים לבחור מתוך מגוון שפות ואז לתת ל-BLOOM מטלות כמו כתיבת מתכונים, תרגום טקסטים או כתיבת קוד. ומפתחים יכולים להשתמש בו כמודל לבניית אפליקציות

הגישה הנוחה למודל היא היתרון "המסחרי" הגדול ביותר שלו: עכשיו שהוא באוויר, כל אחד יכול להוריד אותו מהאתר של Hugging Face ולשחק איתו בלי צורך בתשלום. המשתמשים יכולים לבחור מתוך מגוון שפות ואז לתת ל-BLOOM מטלות כמו כתיבת מתכונים או שירה, תרגום או תמצות של טקסטים, או כתיבת קוד. מפתחי בינה מלאכותית יכולים להשתמש במודל כבסיס לבניית אפליקציות משלהם.

למודל יש 176 מיליארד פרמטרים (משתנים שקובעים כיצד הקלט הופך לפלט הרצוי), מה שאומר שהוא גדול יותר מ-GPT-3 של OpenAI בעל 175 מיליארד הפרמטרים. יתרה מזו, חוקרי BigScience טוענים שרמות הדיוק - וגם וה"רעילות" - של המודל דומות לאלה של מודלים אחרים באותו גודל. בשפות כמו ספרדית וערבית, BLOOM הוא מודל השפה הגדול הראשון.

אבל אפילו יוצריו של המודל מתריעים שהוא לא יתקן את הבעיות המושרשות של מודלי השפה הגדולים, ובהן היעדר מדיניות הולמת לפיקוח על נתונים ופרטיות, ונטייתם של האלגוריתמים לייצר תוכן רעיל, כמו אמירות גזעניות או סקסיסטיות.

לעשות הכל באוויר הפתוח

מודלי שפה גדולים (LLM) הם אלגוריתמים של למידה עמוקה שחוקרים מאמנים באמצעות כמויות עתק של נתונים. זהו באחד מתחומי מחקר הבינה המלאכותית החמים ביותר. למודלים חזקים כמו GPT-3 ו-LaMDA, שמייצרים טקסטים שכאילו נכתבו על ידי בן אדם, יש פוטנציאל עצום לשנות את האופן שבו אנו מעבדים מידע באינטרנט. אפשר להשתמש בהם כצ'אטבוטים או כדי לחפש מידע, לפקח על דיונים וטוקבקים, לתמצת ספרים או לייצר קטעי טקסט יש מאין על סמך נתונים שנזין להם. אבל הם גם מרובי בעיות. לא צריך לחטט בהם עמוק מדי לפני שהם מתחילים להפיק תוכן פוגעני.

בעיה נוספת היא שהמודלים האלה שמורים למתי מעט. מכיוון שצריך לאמן אותם על כמויות אדירות של נתונים, ומכיוון שהם דורשים כוח מחשוב עצום, רק חברות הייטק גדולות (ולרוב אמריקאיות) כמו גוגל יכולות להרשות זאת לעצמן.

רוב חברות הטכנולוגיה הגדולות שמפתחות LLMים מתקדמים מגבילות את הגישה אליהן לאנשים מבחוץ, ולא משחררות מידע אודות המנגנון הפנימי של המודל - ולכן קשה לכפות עליהן לקחת אחריות על תוצריו. הסודיות והיעדר הנגישות האלה הן מה שמפתחי BLOOM שואפים לשנות. חברת מטא כבר חרגה מהסטטוס קוו: במאי 2022 שחררה החברה מודל שפה גדול משלה בשם OPT-175B (או Open Pretrained Transformer) והפיצה את הקוד שלו ואת הלוגים המפרטים את שיטת האימון של המודל.

אבל המודל של מטא זמין רק למי שמגיש בקשה רשמית אליו, והחברה מגבילה את השימוש בו רק עבור מטרות מחקר. חברת Hugging Face הלכה צעד אחד רחוק יותר. הפגישות המפרטות את העבודה על המודל בשנה האחרונה מצולמות וקיימות ברשת, וכל אחד יכול להוריד את המודל בחינם ולהשתמש בו גם למחקר וגם לפיתוח אפליקציות מסחריות.

בינה מלאכותית  (אילוסטרציה: shutterstock)
למידה עמוקה (אילוסטרציה). עד כה רק חברות גדולות יכלו לממן את כח המחשוב הנדרש | אילוסטרציה: shutterstock

אחד הדגשים המרכזיים של פרויקט BigScience היה להטמיע שיקולים אתיים במודל כבר מראשית פיתוחו, ולא לראות בהם תוספת שולית. LLMים מאומנים באמצעות הררי נתונים שנאספים ב-scraping - סריקה ושאיבה של מידע האינטרנט. זה עלול להיות בעייתי שכן מערכי הנתונים הנסרקים כוללים מידע אישי רב שמשקף לא אחת דעות קדומות מסוכנות. החוקרים של BigScience פיתחו מבני פיקוח ייעודים עבור LLMים, שנועדו לספק תשובות ברורות וגלויות לשאלות אודות אילו נתונים שימשו לפיתוח המודל ולמי הם שייכים, והם אף השיגו מערכי נתונים שונים מכל העולם שלא היו זמינים לכל ברשת.

החוקרים גם משיקים רישיון חדש ל"בינה מלאכותית אחראית" - מעין הסכם תנאי שימוש. הרישיון נועד להרתיע מפני השימוש ב־BLOOM גורמים כמגזרים בסיכון גבוה, כמו אכיפת חוק או שירותי בריאות, וכן את כל מי שמתכוון להשתמש בו לגרימת נזק, הונאה, ניצול או התחזות. חוקר הבינה המלאכותית דאניש קונטרקטור, ממתנדבי הפרויקט ומפתחי הרישיון, אומר שזהו למעשה ניסוי ב־LLMים שמווסתים את עצמם שנערך כעת לפני שהחוק יתחיל להדביק את הפער. אך האמת היא שאין שום דבר שמונע שימוש לרעה ב־BLOOM.

הפרויקט התנהל לפי הגדרות אתיות משלו כבר מההתחלה, והן שימשו כעקרונות מנחים לפיתוח הפרויקט, אומרת ג'אדה פּיסְטילי, האתיקאית של Hugging Face, שניסחה את האמנה האתית של BLOOM. האמנה קובעת, לדוגמה, שיש לגייס מתנדבים ממגוון רקעים וארצות כדי להבטיח שלאנשים מחוץ לפרויקט יהיה קל לשחזר את ממצאיו וכדי לסייע בהפצת תוצאותיו.

כולם מוזמנים למסיבה

הפילוסופיה הזו מביאה לביטוי את אחד ההבדלים הגדולים בין BLOOM למודלים גדולים אחרים הקיימים כיום: מספר השפות האנושיות העצום שהמודל מבין. BLOOM יודע להתמודד עם 46 שפות, כולל צרפתית, וייטנאמית, מנדרינית, אינדונזית, קטלאנית, 13 שפות הודיות (הינדי ואחרות) ו־20 שפות אפריקאיות. רק מעט יותר מ-30% מנתוני האימון שלו היו באנגלית. המודל מבין גם 13 שפות תכנות.

המולטי-תרבותיות הזו חריגה מאוד בעולם מודלי השפה הגדולים, שבו מושלת האנגלית כתוצאה מבניית מודלים על בסיס scarping של האינטרנט, שהאנגלית היא השפה הנפוצה ביותר בה. 

BLOOM מבין מספר עצום של שפות אנושיות - 46 ליתר דיוק - הודות לכך שרק כ-30% מנתוני האימון שלו היו באנגלית. זו יכולת חריגה ביחס למקובל בעולם מודלי השפה הגדולים שהאנגלית שולטות בו, ותסייע לחוקרי AI במדינות עניות, שמתקשים להשיג גישה לכלי עיבוד שפה טבעית

BLOOM מצליח להציג שיפור ביחס למקובל בתחום הודות לכך שהצוות מאחוריו גייס מתנדבים מכל העולם לבניית מערכי נתונים הולמים בשפות אחרות, גם אם הן אינן מיוצגות היטב באינטרנט. כך, Hugging Face ערכה סדנאות עם חוקרי בינה מלאכותית מאפריקה כדי לנסות למצוא מערכי נתונים כמו מסמכים של רשויות מקומיות או אוניברסיטאות, שהמודל יוכל להשתמש בהן כדי להתאמן על שפות אפריקאיות, אומר כריס אמזוּאי, מתמחה ב־Hugging Face וחוקר ב־Masakhane, ארגון שעובד על עיבוד שפה טבעית של שפות אפריקאיות.

ההכללה של שפות רבות כל כך תסייע רבות לחוקרי בינה מלאכותית במדינות עניות, המתקשים לעתים תכופות להשיג גישה לכלי עיבוד שפה טבעית, הדורשים כוח עיבוד גדול. BLOOM נותן להם את האפשרות לדלג על החלק היקר של פיתוח ואימון המודלים, ולהתמקד בבניית אפליקציות והתאמת המודל לביצוע משימות בשפות האם שלהם.

"אם רוצים לכלול שפות אפריקאיות בעתיד [של עיבוד השפה הטבעית]... זה צעד מצוין וחשוב לשלב אותן באימון של מודלי שפה", אומר אמזואי.

חומר מסוכן

BigScience עשתה עבודה פנומנלית בבניית קהילה סביב BLOOM, והתעקשותה לשים דגש על נושא האתיקה והפיקוח כבר מראשית הפרויקט ראויה להערכה, אומר פרסי ליאנג, מרצה למדעי המחשב בסטנפורד המתמחה ב־LLMים. עם זאת, ליאנג סבור שהעבודה הזו לא תוביל לשינוי משמעותי באופן פיתוח המודלים הללו. "OpenAI וגוגל ומיקרוסופט עדיין מובילות את הדרך", לדבריו.

בסופו של דבר, BLOOM הוא עדיין מודל שפה גדול, והוא עדיין סובל מכל הכשלים והסיכונים הכרוכים במודלים האלה. חברות כמו OpenAI טוענות כי הסיבה שהן לא שחררו לציבור את המודלים או הקוד שלהם, היא שהמודלים מסוכנים מדי לשימוש פתוח בגלל השפה הסקסיסטית והגזענית שהוטמעה בהם.

סביר להניח שגם ב־BLOOM יש אי דיוקים ושפה המתבססים על דעות קדומות, אך מכיוון שהמודל פתוח לחלוטין, המשתמשים יוכלו לחקור את יתרונותיו וחסרונותיו, אומרת מרגרט מיטשל, חוקרת בינה מלאכותית ואתיקאית ב־Hugging Face.

BLOOM הוא עדיין מודל שפה גדול, והוא עדיין סובל מכל הכשלים והסיכונים הכרוכים במודלים האלה. חברות כמו OpenAI טוענות כי הסיבה שהן לא שחררו לציבור את המודלים או הקוד שלהם, היא שהמודלים מסוכנים מדי לשימוש פתוח בגלל השפה הסקסיסטית והגזענית שהוטמעה בהם

אולי בסופו של דבר יתברר כי תרומתו הגדולה ביותר של פרויקט BigScience לעולם הבינה המלאכותית אינה BLOOM עצמו, אלא פרויקטי הלווין הרבים שמתנדביו משתלבים בהם. פרויקטים כאלה עשויים, בין היתר, לשכלל את הגנות הפרטיות של המודל ולמצוא דרכים להשתמש בטכנולוגיה הזאת בתחומים שונים, כמו מחקר ביו־רפואי.

"מודל שפה גדול יחיד אינו הולך לשנות את מהלך ההיסטוריה", אומר טֶבֶן לה סקאוֹ, חוקר מ־Hugging Face וממובילי תהליך האימונים של BLOOM. "ובכל זאת, יש חשיבות ארוכת טווח גדולה לעצם קיומו של מודל שפה פתוח ומוצלח שאנשים יכולים, לשם שינוי, להשתמש בו כדי לבצע מחקרים". בכל הקשור לנזקים הפוטנציאליים של מודלי שפה גדולים, "תיבת פנדורה כבר פתוחה לרווחה", אומר לה סקאו. "כל מה שאפשר לעשות הוא לייצר בשביל החוקרים את התנאים הטובים ביותר ללמוד אותם".

.Copyright 2022 MIT Technology Review, Inc. Distributed by Tribune Content Agency, LLC

https://www.technologyreview.com/2022/07/12/1055817/inside-a-radical-new-project-to-democratize-ai/