מבחנים אדפטיביים

פיתוח והטעמה של מבחן דפ"ר אדפטיבי

שלבים, אתגרים ומשמעויות בהטמעת בחינת הדפ"ר האדפטיבית – מתיאוריה למעשה
מאת: סרן לימור רייז, פסיכולוגית בהתמחות תעסוקתית (ענף 1), ענף פיתוח מערכות מיון, ממד"ה, צה"ל.
פרטי קשר להתייחסות: Limor.raiz@gmail.com

מערכת המיון של צה"ל כוללת מספר שלבי מיון מרכזיים, ביניהם: צו ראשון, יום המא"ה, מיונים פיזיים ומיוני המשך לתפקידים ספציפיים. מטרת מערכת המיון היא להכיר את היכולות של המועמדים לשירות ביטחון (מלש"בים) בכדי להתאים להם את התפקיד שבו יכולותיהם יוכלו לבוא לידי ביטוי באופן מיטבי. השלב הראשון של המיון, אותו עוברים כלל המלש"בים, הוא ה"צו הראשון" המהווה את שער הכניסה לצה"ל. לשלב זה חשיבות רבה לשיבוץ לתפקיד ולמיוני ההמשך. במסגרת הצו הראשון מבצעים המלש"בים מספר תחנות מיון, כאשר המרכזיות שבהן: ראיון אישי, בחינת הדפ"ר (דירוג פסיכוטכני ראשוני) ובדיקות רפואיות.

בחינת הדפ"ר אומדת את היכולת הקוגניטיבית הכללית של המלש"ב. בחינה זו מהווה עוגן משמעותי בתהליך המיון לצבא ולה השפעה גדולה על השיבוץ, קבלת זימונים למיוני התפקידים המאותרים, וכן על יציאה לפיקוד וקצונה בהמשך השירות. הבחינה הועברה במשך עשרות שנים במתכונת קלאסית בלשכות הגיוס וכללה ארבעה פרקים בנושאים שונים: אנלוגיות מילוליות, אנלוגיות צורניות, חשיבה כמותית והבנת הוראות. בכל פרק היו 30-25 שאלות, וציון הגלם נקבע בהתאם למספר התשובות הנכונות. על אף היותה כלי מיוני מתוקף וסטנדרטי הוחלפה בחינת הדפ"ר הקלאסית בבחינה אדפטיבית חדשה, כדי לקצר את משך הבחינה ולצמצם את פוטנציאל שחיקת השאלות.

בחינת הדפ"ר האדפטיבית כוללת את אותם ארבעה פרקים, כשבכל אחד מהם הטמענו מודל IRT (כלומר Item Response Theory) תלת-פרמטרי. במודל זה כל שאלה מאופיינת בשלושת הפרמטרים הבאים: קושי (רמת היכולת הנדרשת על מנת לענות נכון על השאלה), הבחנה (עד כמה השאלה מבחינה בין מועמדים בעלי רמת יכולת גבוהה לנמוכה) וניחוש (מה הסיכוי למועמד בעל יכולת נמוכה לענות נכונה על השאלה).

הבחינה מתחילה בשאלה בעלת רמת הבחנה בינונית ומכאן ואילך השאלות המוצגות הן אלו האופטימליות ביותר (בהתאם לפרמטרים האדפטיביים של כל שאלה) לאיתור רמת היכולת של המועמד לאור דפוסי המענה שלו עד לאותו שלב. הבחינה תמשך באופן זה עד להתכנסות, קרי עד לשלב בו האלגוריתם מזהה את רמת היכולת של המועמד ברמת ביטחון מספקת. כמות השאלות והקושי שלהן משתנה בין מועמדים שונים כתלות ביכולת ובעקביות דפוס המענה שלהם.

הבחינה האדפטיבית דורשת משאבים רבים הן לטובת פיתוח אלגוריתם אדפטיבי המתאים לצורכי הארגון והן לטובת פיתוח שאלות רבות ליצירת מאגר שאלות גדול שהכרחי בבחינה מסוג זה. אולם ההשקעה משתלמת! לבחינה האדפטיבית יתרונות משמעותיים העונים על הצרכים הארגוניים שלנו: ראשית כל, היא קצרה יותר – על פי רוב נדרשות פחות שאלות בבחינה האדפטיבית מאשר כמות השאלות בבחינה הקלאסית. שנית, שחיקת השאלות נמוכה יותר שכן כל מועמד מקבל סט אחר של שאלות בהתאם לדפוסי המענה שלו. שלישית, היא תורמת לחוויית מועמד טובה יותר, שכן בעלי יכולת נמוכה לא חווים תסכול מחשיפה לשאלות ברמה גבוהה, ולהפך.

בכתבה זו אציג את עשרת השלבים המרכזיים לפיתוח והטמעה של בחינה אדפטיבית בארגון, על בסיס הניסיון שצברנו:

העמקה בתורת המבחנים האדפטיביים ו-IRT – עד כה לא הועברו בצבא בחינות אדפטיביות, לכן נדרשנו לתהליך למידה והעמקה על מנת להגיע לפתרון המקצועי והמתאים ביותר לצורכי הארגון.
פיתוח מאגר שאלות גדול – על מנת שהבחינה האדפטיבית תהיה אפקטיבית נדרש מאגר שאלות גדול יותר באופן משמעותי מאשר בבחינה הקלאסית, לצורך כך פותחו מאות שאלות אשר הצטרפו למאגר השאלות הקיים. מאגר זה צפוי לגדול בכל שנה בשאלות רבות נוספות.
פיתוח אלגוריתם אדפטיבי המותאם לצרכי הארגון – ניתן למצוא בתוכנות שונות קודים רלוונטיים עבור בחינה אדפטיבית, אך על פי רוב נדרש לבצע בהם התאמות ודיוקים לצורכי הארגון. למשימה זו גויסו מתכנתים אשר למדו לעומק את האלגוריתם בו השתמשנו ואפשרו לנו לעשות את ההתאמות הנדרשות. לדוגמא, עלה צורך לאפשר בחינת דפ"ר חוזרת באופן שלא יפגע במהימנות הבחינה. לכן ביצענו התאמה באלגוריתם כך שמבצעי בחינה חוזרת לא ייבחנו באף שאלה שביצעו בבחינה הראשונה.
פיתוח תשתית טכנולוגית לבחינה האדפטיבית – בחינה אדפטיבית דורשת תשתית של מערכת מבחנים שונה מזו הקלאסית, שכן הפעלת הבחינה נעשית על בסיס אלגוריתם ולא הצגה לינארית של שאלות כפי שמתקיים בבחינה קלאסית.
פיתוח סימולטור אדפטיבי – אחד מהכלים המרכזיים לפיתוח ואחזקה של בחינה אדפטיבית הוא הסימולטור האדפטיבי. הסימולטור מאפשר הרצה של כמות גדולה של מועמדים פיקטיביים שאנחנו קובעים מראש את רמת היכולת שלהם. דפוס המענה של כל מועמד פיקטיבי הוא בהתאם להסתברות שלו לענות נכונה על כל שאלה לאור רמת היכולת האפריורית שקבענו לו ולפרמטרים האדפטיביים של השאלה. בכך אנחנו יכולים לבחון כיצד ישפיעו שינויים ועדכונים באלגוריתם או במאגר השאלות על הבחינה.
לדוגמא, לטובת בחינת ההתאמה שביצענו עבור מבחנים חוזרים (ראו סעיף 3) בחנו תחילה את האלגוריתם המעודכן בסימולטור. רק לאחר שהסימולטור הראה מהימנות מבחן חוזר גבוהה, בחנו את האלגוריתם גם בפיילוט על מלש"בים בלשכת הגיוס. ככל שהרבנו להשתמש בסימולטור מצאנו כי הממצאים שלו דומים מאד לאלו הנאספים בפיילוטים הכוללים מועמדים, דבר המחזק את האמון שלנו בסימולטור, והוא הפך להיות גורם מרכזי בתהליך הפיתוח וקבלת ההחלטות טרם ביצוע הפיילוטים עם מועמדים.
אמידת פרמטרים אדפטיביים – כלל השאלות עברו פיילוטים על בסיסם נאמדו פרמטרים בהתאם למודל התלת פרמטרי: קושי, הבחנה וניחוש. אציין כי על מנת שהאמידה תהיה טובה ומדויקת היא נדרשת להתבסס על נתונים ממדגמים גדולים (בבחינת הדפ"ר כל שאלה עברה פיילוט על כ- 1,000 מועמדים).
תהליך זה של תיקוף הפרמטרים הוא תהליך מתמשך שאנו מבצעים באופן שוטף לטובת הבטחת איכות הבחינה גם לאחר עלייתה לאוויר. לכן, מספר חודשים לאחר עליית הבחינה האדפטיבית לאוויר, ביצענו תהליך נוסף של תיקוף הפרמטרים האדפטיביים של כלל השאלות, ובכך שיפרנו עוד יותר את איכות השאלות וכן איתרנו שאלות שנשחקו. בימים אלו אנו בוחנים פיתוח מנגנון שיאפשר שימוש בנתונים שנאספים באופן שוטף בבחינה האדפטיבית לטובת אמידה מחודשת ואיתור שאלות שנשחקות, כך שהתהליך יתבצע באופן אוטומטי כמה שניתן.
מחקר לבחינת מאפייני הבחינה - במסגרת הליך הפיתוח של האלגוריתם ערכנו פיילוטים ובדיקות שונות לבחינת מאפייני הבחינה (התפלגות, מספר שאלות, משך הבחינה וכו'). בהתאם בוצעו תיקונים ודיוקים במאגר השאלות ובאלגוריתם האדפטיבי. להלן הממצאים המרכזיים:

א. משך הבחינה: הבחינה האדפטיבית נמשכת כמחצית הזמן מהבחינה הקלאסית.
ב. כמות שאלות: בחנו מהו מספר השאלות המינימלי הנדרש להתכנסות ולעצירת הבחינה. בפרק אדפטיבי ממוצע השאלות עומד על כ-12 שאלות בפרק, לעומת 30-25 בפרקים הקלאסיים.
ג. סקלת ציונים: סקלת ציוני הגלם של הבחינה האדפטיבית הרבה יותר רגישה ומדויקת מאשר בבחינה הקלאסית. כלומר בבחינה האדפטיבית ניתן להבחין בהבדלים קטנים ביכולות של מועמדים, כאלו שייתכן והיו מקבלים את אותו ציון הגלם בבחינה הקלאסית. בנוסף התפלגות הציונים בבחינה האדפטיבית קרובה יותר לנורמלית בהשוואה לזו הקלאסית.
ד. בחינת שימוש במאגר השאלות: ערכנו בדיקה של ניצול מאגר השאלות ושל אחוז החשיפה של כל שאלה. כך לדוגמא מצאנו כי הרוב המוחלט של השאלות נמצא בחשיפה אופטימלית של עד 20% מהאוכלוסייה. בנוסף, ממצאי הבדיקה סייעו בדיוק האלגוריתם כך שייעשה שימוש נרחב יותר במאגר השאלות וכן באיתור שאלות בעייתיות בפרמטרים האדפטיביים שלהם, לטובת תיקונם או הוצאתם ממאגר השאלות.
מחקר לבחינת מהימנות ותוקף - בטרם עליית הבחינה האדפטיבית לאוויר בוצעה בחינה מקיפה של המהימנות והתוקף שלה. לצורך כך הועברו פיילוטים על מלש"בים בלשכות הגיוס וכן על חיילים בשלב הראשוני של השירות, ואלו הממצאים העיקריים:

א. נמצאה מהימנות מבחן חוזר גבוהה באמצעות בדיקת הקשר שבין ציון הדפ"ר בבחינה הקלאסית לבין ציון בבחינה האדפטיבית בקרב חיילים שביצעו את שתי הבחינות.
ב. הקשרים בין פרקי הדפ"ר בבחינה האדפטיבית הינם בינוניים כמצופה בדומה לקשרים הקיימים בין פרקי הדפ"ר בבחינה הקלאסית.
ג. הקשרים בין ציון הדפ"ר האדפטיבי לציוני מבחנים קוגניטיביים אחרים בתהליך המיון הינם בינוניים כמצופה, והם משמרים את עוצמת הקשרים המוכרים לנו מהבחינה הקלאסית.
ד. הקשרים בין ציון הדפ"ר האדפטיבי לבין ציוני מיון נוספים שאינם קוגניטיביים (כדוגמת הריאיון ויכולות בינאישיות ביום המא"ה) הינם חלשים כמצופה, ואף חלשים יותר מהקשרים המוכרים לנו מהבחינה הקלאסית – ממצא המחזק את התוקף המבחין של הבחינה.

ממצאים אלו מעידים על כך שהבחינה האדפטיבית מתנהגת באופן דומה לבחינה הקלאסית וכן על מהימנות ותוקף של הבחינה האדפטיבית.
קביעת נורמות למתן הציונים – אחד האתגרים במערכת המיון הצה"לית הוא העובדה שהיא מתקיימת באופן רציף בכל השנה ומורכבת משלבי מיון רבים התלויים בנתוני המיון שקדמו להם. לכן, נדרש להעניק ציון לכל מלש"ב בסמיכות רבה לביצוע המיון. בניגוד לצורך זה, החלפת כלי מיוני מחייבת תקופה של איסוף נתונים לטובת קביעת נורמות למתן ציונים. לכן עם העלייה לאוויר הייתה "תקופת החשכה" של כשלושה חודשים במהלכם מלש"בים ביצעו את הבחינה האדפטיבית וציוני הגלם שלהם נשמרו אך לא הופק מהם ציון סופי של דפ"ר.

אציין כי מהלך זה חייב תיאום ושיתוף פעולה בין גורמים רבים בצבא, בכדי שהתהליכים הארגוניים לאחר הצו הראשון שמושפעים ממנו (כמו זימון למיון המשך בהתאם לציון הדפ"ר) לא יפגעו מ"תקופת ההחשכה".

ציוני הגלם האדפטיביים נעים על סקלה שבה מרבית הנבחנים מקבלים ציון בין (3-) ל-(3) ואותם ממירים לציון דפ"ר סופי בסקלה של תשעה ערכים, על בסיס הנורמות (התפלגות האוכלוסייה, ממוצע, וסטיית תקן) שחושבו מהנתונים שנאספו במהלך תקופת ההחשכה. תהליך זה של קביעת הנורמות והפרמטרים לא מתרחש רק לפני העלייה לאוויר בפעם הראשונה, אלא הוא מבוצע שוב ושוב באופן תקופתי.
הסברה - החלפת בחינת הדפ"ר הינה משמעותית הן עבור המלש"בים אשר נבחנים בבחינה בעלת מאפיינים שונים מהבחינה הקלאסית, והן עבור גורמים שונים בתוך הצבא שעושים שימוש בציוני הדפ"ר בקבלת החלטות ארגוניות שונות (לדוגמא גורמי שיבוץ ואיתור לקצונה). לכן, בפלטפורמות שונות באופן המותאם לקהלי היעד הרלוונטיים נערכו מופעי הסברה על הבחינה החדשה: הסיבות לשינוי, מאפייני הבחינה, הציונים המופקים, התפלגות הציונים ועוד.

עשרת השלבים שתיארתי עד כה הכרחיים על מנת לעלות עם בחינה מקצועית ומהימנה. אך עם זאת הבחינה האדפטיבית מאפשרת עוד שלל פיתוחים שיכולים לסייע לארגון להפיק ממנה את המיטב. ולכן, בעיניי, פיתוח הבחינה האדפטיבית לא מסתיים בעלייה לאוויר או בהגדלה קבועה של מאגר השאלות. דוגמא לרעיון פיתוח נוסף אותו אנו בוחנים בימים אלה הוא מנגנון שיאפשר "צינון" אוטומטי של שאלות בעלות חשיפה גבוהה. כלומר האלגוריתם יאתר את השאלות שהיו בחשיפה הגבוהה ביותר וישהה שימוש בהן למשך תקופת זמן שתקבע, לאחר תקופת זמן זו, יחזרו השאלות למאגר באופן אוטומטי.

לסיכום, בכתבה זו סקרתי תהליך מורכב מאד של הטמעה של בחינת דפ"ר אדפטיבית חדשה, במסגרתו נדרשנו להעמקה, מחקר, פיתוח ותיאום מול גורמים רבים בצבא ומחוצה לו. לאור החשיבות הגדולה של בחינת הדפ"ר להמשך תהליכי המיון והשיבוץ בצבא הושקעו משאבים רבים וקשב ארגוני משמעותי לשינוי זה. כיום, שנה וחצי לאחר הטמעתה של בחינת הדפ"ר האדפטיבית ניתן לומר בוודאות כי השינוי הוביל לכל התוצאות הרצויות. הרווחנו בחינה בעלת מאפיינים פסיכומטריים טובים, מדויקת, קצרה, בעלת פוטנציאל שחיקה נמוך ולא פחות חשוב, בעלת חווית מועמד טובה יותר. זאת הזדמנות להודות לכל השותפים שלנו מבית (אכ"א, מיטב וממד"ה) ומחוץ (מאל"ו) שאלמלא ההירתמות והנכונות לשיתוף פעולה משמעותי מצדם – תהליך זה לא היה מסתיים בהצלחה שכזו.

אסיים באנקדוטה קטנה – במהלך ניקיונות הפסח בשנה החולפת נמצאה במשרדי חוברת משנת 1993 הנושאת את הכותרת "פיילוט מבחנים אדפטיביים ממוחשבים בלשכת הגיוס". איני יודעת לומר מה עלה בגורל הפיילוט ומדוע לא המשיך לשלב ההטמעה, על אף שנראה כי המחקר היה מעמיק והממצאים היו טובים. אולם, ניכר כי למי שאייש אז את ענף מיון היה חזון שפשוט הקדים מעט את זמנו, ואולי זרע אז בדמעה את מה שאנחנו קוצרים עכשיו בשמחה.

דבר העורכת פינת היו"רית בינה מלאכותית ופסיכומטריקה נעים להכיר מדידת כישורים מורכבים חם מן התנור מבחנים אדפטיביים מבזקים

מידעונט אפי גיליון 8

מבחנים אדפטיביים

האגודה הישראלית לפסיכומטריקה (אפי)

דבר העורכת
פינת היו"רית
בינה מלאכותית ופסיכומטריקה
נעים להכיר
מדידת כישורים מורכבים
חם מן התנור
מבחנים אדפטיביים
מבזקים

מידעונט אפי
גיליון 8