איתמר שפי (צילום: יוני ברזובסקי)
איתמר שפי. הושפע מאמו האגיפטולוגית שחשפה אותו לכתב חרטומים | צילום: יוני ברזובסקי

השעה מאוחרת. צחצחתי שיניים. הורדתי עדשות. החתולים מחכים כבר במיטה במבט מצועף שכולו אומר "יאללה, אמא. שחררי". אבל עדיין לא פתרתי את הסמנטעל ואני לא אחת שמוותרת בקלות, או בכלל. יש לי עשר מלים באלפייה. יש לי הקשרים, יש לי רעיונות ומושג, ויש לי רעיון טוב לגבי השדה הסמנטי.

סטופ. איך הגעתי למצב שבו אני יודעת מה זה שדה סמנטי ולמה זה נוטל ממני שעות שינה? כרגיל, הכל התחיל בטוויטר. אנשים התחילו לשתף תוצאות של משחק חדש, קוביות ירוקות בדומה לוורדל, אבל משהו אחר - סמנטעל. אני מודה שבפעם הראשונה שנכנסתי לא הבנתי. הייתי צריכה לקרוא פעמיים כדי להבין, וגם אז לא ירדתי לסוף העניין. אבל בסוף האסימון נפל ומאז אני מכורה. ולא רק אני. הקולגות, החברים, השכנה מקומה 5 ועוד 9,000 משתמשים פעילים יומיים שכנראה נהנים ממשחקי מלים, אתגרים ותסכול כמוני.

אז למי שאינם מבין ה-9,000 המכורים, נסביר שסמנטעל הוא משחק ניחוש מילה. בכל יום, ב-02:00 מתחדשת מילה וצריך למצוא אותה על פי ה"קרבה הסמנטית", כלומר ההקשר שבין המילים. כל מילה שנזין לסמנטעל, תתן לנו ציון מספרי שמהווה חיווי (מסוים, ועל כך בהמשך) לקרבה הסמנטית, שנמדדת באמצעות מודל Word2Vec: שתי מילים יהיו קרובות סמנטית ככל שעולה הסבירות להשתמש בשתיהן בהקשר דומה. הקורפוס שעליו נבנה המודל, קרי אוסף הטקסטים שמהווה את הבסיס להבנת ההקשר בין המילים, הוא ויקיפדיה בעברית. ופרט טריוויה אחרון למי שצלח עד כה את ההסבר המפותל: הסמנטעל העברי הוא גיור של משחק באנגלית, שגם הוא נקרא סמנטל, המבוסס על קורפוס של גוגל ניוז.

איתמר שפי, האיש שאחראי על סמנטעל העברי, בוא נדבר רגע.
"את רוצה לסקול אותי?"

להיפך, אני מאוד נהנית, המתח בין האתגר לתחושת כישלון, תחושת הצלחה שמלווה בהלקאה עצמית. בול אני. אבל חוץ ממני, כמה זמן המשחק גוזל מאנשים?
"גוגל אנליטיקס מספקים לי זמן של אינטראקציה עם האתר. זה אומר שאין לי מידע על כמה זמן עבר בין הניחוש הראשון לאחרון. יש לי דאטה על אנגייג'מנט, כשאת עושה דברים אקטיבית באתר - זה כולל רק זמן אקטיבי באתר, את הזמן שאת מקלידה ומסתכלת על התוצאות, לא את הזמן כשאת באתר. הזמן הממוצע הוא שמונה דקות. אין לי מידע אם את מתחילה בטלפון ועוברת למחשב וכו'".

יש לי דאטה על אנגייג'מנט, כשאת עושה דברים אקטיבית באתר - זה כולל רק זמן אקטיבי באתר, את הזמן שאת מקלידה ומסתכלת על התוצאות, לא את הזמן כשאת באתר. הזמן הממוצע הוא שמונה דקות"

איך הגעת לזה?
"חבר שלח לי את הגירסה באנגלית, שבוע אחרי זה הוצאתי את הגרסה בעברית, שלחתי את זה לשני חברים ואמרתי שאפרסם את זה אחר כך. באותו היום הבנתי שזה יציב ומוכן לשחרור לעולם. הוספתי את אפשרות השיתוף, בדיוק כמו וורדל עם הריבועים הירוקים, כי ככה וורדל פרץ. פרסמתי את זה בפייסבוק ובטוויטר שלי ובשתי קבוצות פייסבוק ולא עשיתי השקעה של PR".

סטארטאפיסט בסטלת', תיראו מופתעים

שפי מעיד על עצמו שתמיד אהב שפות. הוא בן 32 וגר בתל אביב. לשפי תואר ראשון במדעי המחשב ובלשנות ותואר שני בבלשנות חישובית. לא מזמן הוא הקים סטארט אפ שעדיין נמצא בסטלת'. הוא מעיד על עצמו שהתאהב בשפות בגיל צעיר כשאמא שלו, שלמדה ארכיאולוגיה ואגיפטולוגיה חשפה אותו לכתב חרטומים, ואחרי שירות במודיעין הוא התחיל לעבוד ולהתעסק בדברים שמשלבים את שתי האהבות שלו - מחשבים ושפה.

מה למדת על שפות ואנשים דרך סמנטעל?
"לאנשים הרבה יותר קל לנחש שמות עצם. זה כתוב גם ב-FAQ בסמנטעל בגרסה האנגלית. השבוע למשל המילה הייתה 'לטפל' וחברה אמרה שהם לא פתרו והמילה הכי קרובה הייתה 'טיפול', כי טיפול ולטפל זה אותו הדבר. אבל בעברית יש כל כך הרבה הטיות לכל מילה".

אם כבר אנחנו מדברים על עברית, בוא נדבר על הטיות מגדריות, המילים "רופא" ו"רופאה" יקבלו ציונים שונים. זה מעצבן קצת.
"הקורפוס הוא ויקיפדיה בעברית. מילים בזכר מופיעות הרבה יותר, בכללי זה כנראה נכון לכל קורפוס בשפה העברית, שיש יותר מילים בזכר מאשר מלים בנקבה. בגלל זה אני מעדיף לא לבחור שמות תואר בנקבה כי יכול להיות שההטייה בנקבה מאבדת כל כך הרבה משמעויות סמנטיות מבחינת האלגוריתם".

"האלגוריתם לוקח את כל המילים בקורפוס, ויוצר וקטור. ואז למילים שמופיעות באותו קונטקסט, או מופיעות הרבה אחת ליד השניה יהיו וקטורים קרובים. העניין עם מילים בנקבה, שברגע שהן מופיעות פחות, הן מאבדות הרבה הקשרים - ואז אני מאבד המון מידע"

מאשים את האלגוריתם, הבנתי. איך האלגוריתם עובד?
"הוא לוקח את כל המילים בקורפוס, ויוצר וקטור. ואז למילים שמופיעות באותו קונטקסט, או מופיעות הרבה אחת ליד השניה יהיו וקטורים קרובים. העניין עם מילים בנקבה, שברגע שהן מופיעות פחות, הן מאבדות הרבה הקשרים - ואז אני מאבד המון מידע. וגם יש לי את המחשבה שכולנו גדלנו בסביבה שמדברים בה עברית באופן נפוץ, וכולנו חושבים קודם כל בצורת זכר. ובנוגע לסמנטעל זה אומר שרוב הסיכויים שאנשים קודם כל ינחשו מילים בזכר".

אם תבחר מילה מזוהה מגדרית כמו "גננת" או "אחות"?
"פה יש סיבה יותר טובה לבחור. 'גננת', לדוגמה, זו מילה טובה כי גנן וגננת זה אפילו ממש דברים אחרים. אם נסתכל רגע על מילים שבחרתי כמו 'עלילתי'. אם הייתי בודק את המילה 'עלילתית', היא הייתה מופיעה משמעותית פחות. זו בעיה מוכרת של קורפוסים בעברית, שהדיפולט בזכר".

זה עושה את המשחק העברי שונה מהגרסה המקורית?
"חד משמעית. בכלל העברית, השוני הבולט שלה מאנגלית, זה שאפשר לכתוב מלים בכמה איותים, כתיב מלא וחסר ואין בקרה על זה בוויקיפדיה. נגיד המילה 'עגבנייה', בוויקיפדיה, מאוייתת עם שני יו"דים. דרך הבחירה שלי שונה מהבחור באנגלית מכל מיני סיבות. הוא בוחר מתוך ה-5,000 המילים הכי נפוצות בקורפוס באנגלית (מתוך הקורפוס של גוגל ניוז, נ"ש) ואני הסתכלתי בקורפוס של ויקיפדיה ויש שם כל מיני מלים פחות מעניינות כמו 'ישראל', 'ארצות הברית' ודברים שהייתי צריך לנקות כמו שימוש באותיות בומ"פ". 

 למה אין גרף שיפור למה

סמנטעל הוא משחק בלשני גבה-מצח, אבל הוא מוציא מאנשים אמוציות מפתיעות. הבעיה העיקרית שיש לאנשים עם סמנטעל היא שאין גרף שיפור. אפשר להבין את המהות - אבל אי אפשר להשתפר, או לנצח את האלגוריתם. וגם כשאת כבר חושבת שירדת לסוף דעתו, בסוף הסמיכות של הווקטורים אחד לשני היא משהו שגלוי רק לאיתמר. אבל גם הוא מודה שהיו פאשלות בבחירת המילים, כמו במילה "מנגנון" שהופיעה בשבוע שעבר ושיגעה רבים. שפי אפילו התנצל על כך פומבית בטוויטר.

איזו פאשלה היתה במילה 'מנגנון'?
"בעשר המלים הקרובות היו מילים כמו 'מכני' ו'מכניזם' וחשבתי שזה מושלם, אבל לא הסתכלתי על מה קורה במילים שבאלף, והתברר שכמעט כל המילים היו מתחום הביולוגיה".

כששפי אומר "המילים שבאלף" הוא מתכוון לכך שכשמשתמשים מגיעים סוף סוף קרוב למילה - מרחק של אלף מילים - הם מתחילים לראות את הפסים הירוקים שמאותתים "חם", "מתחמם", "רותח" - עד הפיצוח. הפונקציה הזו במשחק יצרה ז'רגון שלם: "כבר יש לי 16 מילים באלפיה ואני עדיין לא קרובה", למשל.

 

בגלל זה לא הצלחתי! כל האלפייה שלי היתה עולמות הביוכימיה, ניסיתי מילים כמו "מיטוכונדריה" מרוב תסכול.
"חברים שהם רופאים או שלמדו ביולוגיה ומתעסקים עם העולמות האלה פתרו את זה. אבל זאת היתה פאשלה. מה שאני אוהב במשחק זו העובדה שאפשר להגיע לאותה מילה בכמה דרכים. המילה השנייה במשחק הייתה 'חמלה', אבל גם אליה הובילו מילים שליליות. הסיבה שבחרתי במילה 'חמלה' כי חשבתי שדווקא המלים הקרובות יהיו חיוביות".

השבוע בדרך למילה "לטפל" היה לי "לרצוח" ו"להרוג".
"אני לא יכול לשלוט על הקשרים בויקיפדיה. אני מנסה לבחור מלים נייטרליות וחיוביות שעולות לי לראש".

זה מעסיק אותך? התהליך הרגשי שאנשים יעברו בזמן שהם משחקים? זה הרי משחק אסוציאטיבי.
"אני חושב שיוצרי משחקים, לפחות בז'אנר משחקי אינדי, ניגשים למשחק כאילו זו יצירת אמנות, ואת יוצרת את המשחק וכן פונה לרגש. פה זה משהו אחר באמת. הרי לקחתי את המשחק באנגלית ועברתתי אותו. רק אחרי שאנשים התחילו לשחק, הבנתי מה זה מעורר ואמרתי שאני רוצה לקחת אחריות. אני אוהב את זה שאנשים אוהבים את המשחק ושהם מתוסכלים מהמשחק. אני נהנה מזה שיצרתי משהו שלאנשים כל כך איכפת ממנו".