אורח: אהוד לויטין מנחה: ד"ר ליאת בסיס
בזמן האחרון כולם מדברים על ביג דאטה. כשמושג חוזר על עצמו יותר מדי פעמים אני מוצאת את עצמי שואלת האם אנשים מבינים על מה הם מדברים ובמיוחד אני מרגישה צורך לנסות להבין בעצמי במה מדובר. על ארגונים מופעל היום לחץ לעשות שימוש בנתונים. לפעמים מתוך תרבות תופסת תאוצה של קבלת החלטות מבוססת נתונים ולעתים רק משום שיש להם הרבה כאלה והם מרגישים שהם צריכים לעשות איתם משהו. מיהם אותם ארגונים שמודדים ומעריכים?! תסתכלו סביב. מי לא?! ארגונים ציבוריים שאוספים נתונים על מאות אלפי אזרחים, רשויות מקומיות על תושבים, ארגונים עסקיים על עובדים ולקוחות, ארגונים חברתיים על המוטבים עליהם הם מנסים להשפיע. אהוד יספר לנו מיד מהו אותו ביג דאטה, מהי כריית נתונים ועל כי הם נועד בעיקר כדי לייצר את היתרון התחרותי בעולם של משאבים מוגבלים.
שלושה פרטים ששלפתי מה-"ביג דאטה" של אהוד:
1. הוא בעל תואר ראשון במדעי ההתנהגות ותואר שני בנוירופיזיולוגיה אך הוא לא עסק בזה מעולם.
2. תוך כדי לימודים התחיל ללמד ולעסוק בסטטיסטיקה ובשנים האחרונות הוא סטטיסטיקאי עצמאי, אנליסט ראשי בחברת ג'ניוס-SPSS, מרצה במרכז הבינתחומי, ומנתח ב-data mining.
3. המשתנים המרכזיים העולים מניתוח הביג דאטה שלו הם משפחה וחברים.
אהוד נדמה שפתאום כולם מדברים על ביג דאטה ועל כריית נתונים (Data Mining). בוא נעשה רגע סדר? בשמחה. כשמדברים על ביג דאטה מתכוונים לכך שלכל ארגון יש היום כמויות אדירות של מידע, אם לפני עשור היו לארגון אלפי עד מאות אלפי רשומות, היום מדברים על מליוני , מאות מליוני, ומילארדי רשומות. טרות של נתונים. השאלה מה עושים עם הנתונים האלה. ביג דאטה דורש שני דברים:
1. ניהול הנתונים – בו לא נעמיק הפעם רק נזכיר שכמות כזו של דאטה צריך לדעת איך לנהל במובן של גודל אחסון, אחסון יעיל שמאפשר שליפה מהירה, חומרה מתאימה ועוד.
2. ניתוח הנתונים – הפקת תובנות, למידה, וחיזוי מתוך כל המידע הזה. ניתוח הנתונים נעשה מתוך שלוש מטרות עיקריות:
א. לדעת מה קרה – סטטיסטיקה תיאורית שמתארת תופעות שקרו, וקורות כיום.
ב. להבין למה זה קרה – ניתוחים סטטיסטיים ששופכים אור על קשרים בין משתנים, סיבות לתופעות, מגמות וכו'.
ג. לחזות – מתוך הבנה של מה שהיה עד היום, לחזות מה יקרה מחר.
כל אלה לא ייחודיים לביג דאטה.
איפה מתחיל הסיפור של ביג דאטה? כשיש כמויות אדירות של נתונים שמהן ניתן להפיק תובנות כאלה.
מה הופך דאטה לביג דאטה?
נפח הנתונים. כמות רשומות (סדר גודל של מיליונים לרוב) וכמות המשתנים (עשרות רבות עד מאות ואלפים). ברגע שיש לנו מינימום של עשרות אלפי רשומות ועשרות משתנים, אנחנו כבר מדברים על ביג דאטה.
ומהו כריית נתונים ?
כריית נתונים. הדימוי הוא מכרה. במכרה חופרים בהר שלם ומחפשים בתוכו יהלומים קטנים. כיום בארגון יש הרים על גבי הרים של מידע שמהם צריך להפיק את היהלומים הקטנים שנותנים לך את התועלת. בעקבות ריבוי הנתונים, נוצר צורך לנתח את כמויות הנתונים האדירות ולהפיק מהם את התובנות שמסתתרות עמוק בתוך כל המידע. ארגונים תמיד עסקו בסטטיסטיקה אבל היום הם מתמודדים עם כמויות מידע עצומות שדורשות שינוי טרנספורמטיבי באיך שאנחנו תופסים ניתוח נתונים.
במה שונה ניתוח הנתונים של ביג דאטה מניתוח קלאסי, או במילים אחרות במה שונה כריית נתונים מניתוח סטטיסטי קלאסי רגיל? מה שמייצר בעיקר את השינוי זה כמות הנתונים. ההתמודדות עם כמות גדולה מאוד של נתונים דורשת שלושה דברים:כוח מחשובי – מחשבים בעלי יכולות טובות בהיבט של יכולות החומרה (למשל זיכרון רם גדול, נפח דיסק גדול, מהירות מעבד גדולה וכו').כלים שמותאמים לניתוח כמויות גדולות של נתונים – כלים שיודעים להתמודד עם כמות נתונים מאוד גדולה – אתה לא יכול לנתח כמות גדולה של רשומות עם אקסל בזמן סביר. משתמשים בכלים כדוגמת SPSS,SAS, R או כלים שמיועדים ספציפית לכריית נתונים כמו ה- IBM SPSS MODULER.הניתוחים הסטטיסטיים - הניתוחים עצמם מעט שונים ומותאמים לכמות דאטה יותר גדולה. במה שונים הניתוחים? הכריית נתונים שונה מהסטטיסטיקה הקלאסית, בשני היבטים עיקריים: הראשון הוא סוג הניתוחים – ריבוי המשתנים בביג דאטה מביא לשימוש בניתוחים סטטיסטיים שונים. ברגרסיה אם את מכניסה יותר מעשרה משתנים יש לך מולטיקולינאריות כמעט ודאית, ואת בוודאי לא יכולה להכניס 500 משתנים לרגרסיה. ניתוחים סטטיסטיים קלאסיים כמו רגרסיה, מבחני T, וניתוחי שונות, אינם מתאימים כאשר ישנם הרבה משתנים, והרבה מאד קשרים בין המשתנים. שיטות ניתוח כדוגמת עצי החלטה (למשל CHAID , C5 , C&RT), ניתוחים מבוססי רשתות נוירונים Neural Networks)), ניתוחי קשרים אסוציאטיבים (למשל Apriori, Carma ) וכו', מסוגלות לטפל בכמות כמעט בלתי מוגבלת של משתנים ולמצוא מתוכם את המשתנים החשובים ואת הקשרים החשובים שבעזרתם ניתן להגיע לתובנות החשובות מתוך הדאטה.
אני רוצה לנסות להציץ לרגע בקופסא השחורה של מה שכרגע אמרת, אתה יכול לתת דוגמא? אם אנחנו רוצים למשל לנבא האם לקוח צפוי לנטוש את החברה הסלולארית. על כל לקוח ישנה כמות אדירה של נתונים ממקורות שונים – משתנים דמוגרפיים (מין, גיל, מקום מגורים, סוגי מכשירים, כמות מנויים במשפחה), נתוני צריכה (כמה מדבר, עם מי מדבר, באיזו תדירות, מגמות) נתונים כספיים (כמה הוא משלם, מסלולים, הנחות) נתוני פניות למוקדים, ועוד מגוון רחב של נתונים. עץ החלטה ימצא מהם המשתנים שחשובים לניבוי נטישה, מה היחסים ביניהם וכיצד לחלק את אותם משתנים לרמות שונות על מנת לקבל ניבוי מיטבי. לדוגמא יכול להיות שהמשתנה הראשון שהוא יבחר הוא פיצול לגברים ולנשים, כי שיעור הנשים הנוטשות נמוך משיעור הגברים הנוטשים. בשלב השני, העץ יצביע על כך שהמשתנה הבא החשוב ביותר אצל גברים הוא כמות הדקות שהם מדברים בחודש נניח עד 500 ומתחת ל- 500 (עץ ההחלטה יגדיר גם את המשתנה וגם את נקודות החתך לפיצול העץ), אבל אצל נשים לעומת זאת המשתנה שהכי משפיע הוא הגיל. עבור כל קבוצה בהמשך הוא מוצא מה המשתנה הבא הטוב ביותר ובאיזו חלוקה. בסוף מתקבלת תמונה מאוד מורכבת שמשקפת את המציאות. ייתכן כי על גברים ועל נשים משפיעים משתנים אחרים, ולכן אין טעם להגיד כמה גיל משפיע מעבר למין כי הוא משפיע אחרת בכל קבוצה. לאחר מכן אני יכול לחזות את הקבוצה בה שיעור הנטישה הוא הגבוה ביותר ולכוון את הארגון לעשות מאמץ ממוקד בה, ובמי כדאי לו לפנות מתוכה.
כמה מפורט ללכת?
עצי החלטה פשוטים הם יותר מכלילים ופחות מדויקים ברמת הלקוח הבודד, אך הם מאפשרים לראות את המשתנים העיקריים שמשחקים תפקיד והם יעילים להבנת תופעות ולקביעת מדיניות. יש להם לרוב מעט רמות בעץ ומעט עלים סופיים.
בעצים מפורטים יותר בעלי מספר רב של רמות ופיצולים – רמת הדיוק גבוהה יותר. הם קשים יותר להסבר, אבל מדויקים יותר בניבוי סיכויי הנטישה של לקוח ספציפי.
מה עדיף זו שאלה קשה.
הבחירה בעץ קטן ומסביר או גדול ומנבא תלויה בצרכים של הארגון. לישיבת הנהלה נחפש עץ קטן וברור שניתן להסביר אותו. כדי לקבל ציון של סיכוי לנטישה ברמת ההתקשרות עם הלקוח הבודד נעדיף עץ מדויק ככל האפשר.
הבדל נוסף בניתוחים מתייחס להערכת איכות המודלים - כמות הרשומות העצומה מכתיבה שימוש בשיטות שונות להערכת איכות המודלים - מאחר ומדברים על מיליוני רשומות, R2 (אחוז שונות מוסברת), או מובהקות משחקים תפקיד הרבה יותר קטן בקביעת איכות המודל והתאמתו לאוכלוסייה. כיוון שכשמספר הרשומות שווה מיליון כל "פיפס" יכול להיות מובהק, ולכן מובהקות אינה יכולה להוות קריטריון.
כדי לבחון איכות של מודלים מחלקים אותם אקראית לשתיים או שלוש קבוצות : אימון (Training), בחינה (Testing) ולעיתים גם קבוצת תיקוף (Validation). לומדים רק על חצי מהאוכלוסייה ובודקים את ביצועי המודל על החצי השני. אם יש לי מיליון לקוחות אני יכול לבנות מודלים על חצי מיליון לקוחות אקראיים, ולבדוק את הביצועים של המודל על חצי המיליון הנוספים. כשכמות הרשומות היא עשרות אלפים ומעלה היא מאפשרת לקבוע את איכות המודל מקריטריונים של ביצועים על קבוצת המבחן. משתמשים במדדים כמו hit rate, lift, טעויות של false positive/false negative הערכת ביצועי המודלים בעשירון העליון וכו'.
כולנו יודעים שהשלב הראשון בעבודה עם קובץ נתונים הוא טיוב. איך נראה טיוב של ביג דאטה?!
בכל פרוייקט ביג דאטה בערך 80% מהזמן מוקדש להכנת הנתונים לניתוח.
בגלל שמאגרי המידע כל כך גדולים הם כוללים תמיד הרבה זבל. למשל משתנים עם אחוז ערכים חסרים מאוד גדול(שלפעמים בדאטה רגיל נטרח להשלים. כאן לרוב לא נעשה זאת כי מדובר במיליונים. כמו כן מודלים של עצי החלטה יודעים להתמודד עם חסרים, הם עוד קבוצה בעץ ההחלטה למשל גבר, אישה ו"לא ידוע"), הרבה ערכים שהם לא הגיוניים (כמו בטיוב של נתונים רגילים. עושים שכיחויות על כל הנתונים, ומגלים למשל אנשים שהם בני 235, או גברים שעוברים הפרייה מלאכותית). ויצירה של מדדים חדשים מהמשתנים הקיימים. בגלל שאין הגבלה בכמות המשתנים יוצרים לרוב הרבה מאד מדדים נוספים שאולי יסייעו בניבוי (יחסים בין משתנים כמו כמות השיחות באמצע השבוע חלקי כמות שיחות כוללת, נתונים אגרגטיביים, נגזרות ומדדי מגמה).
מי משתמש בכריית נתונים או לפחות לאילו ארגונים אתה עשית כריית נתונים?
עשיתי כריית נתונים למגוון רחב מאד של ארגונים, במגוון רחב של שאלות מחקריות. חברת חשמל בחיזוי ובהבנה של תקלות, רשויות מקומיות בניתוח פניות למוקד 106, חברות ביטוח וסלולאר בניבוי נטישת לקוחות או רכישה של מוצרים, בנקים, ערוצי שיווק ועוד ועוד.
מי מסייע לארגון בהבנת הממצאים? אנליסט כריית נתונים הוא לא בהכרח סטטיסטיקאי. הוא יכול להגיע מתחומי הכלכלה, הפסיכולוגיה, מנהל עסקים או תעשייה וניהול. הכלים מתאימים יותר למדידה עסקית, לכן חשובה ההבנה של העסק, כלומר מישהו שידע לפרש את התוצאות במונחים עסקיים. האם יש מתודולוגיה מובנית לכריית נתונים ? ישנה מתודולוגיה טובה ויעילה של כריית נתונים בשם KRISP. מדובר במסלול מעגלי הכולל 6 שלבים שמנחה איך לנהל פרוייקט של דאטה מיינג:
1. להבין את הביזנס (מה השאלה העסקית שמעניינת אותי, ומה הולכים לעשות עם התוצאות – כישלון בשלב הזה יכול להביא לפרויקט מעולה סטטיסטית שלא עונה על כלל על הצרכים העסקיים)
2. להבין את הנתונים (מה יש לי)
3. להכין את הנתונים (טיוב, מיזוג, השטחת נתונים, יצירת משתנים נוספים)
4. מודלינג (בניית המודלים הסטטיסטיים שמנבאים מי הולך לנטוש)
5. הערכה (הערכת הביצועים – בודק האם זה עוזר לי למנוע נטישה)
6. הטמעה (הטמעת התוצרים בארגון)
ומה לפסיכומטריקאים ולכריית נתונים? בשאלונים ובכלים בהם יש הרבה שאלות אנחנו לרוב עושים רדוקציה לכמות המידע שיש לנו. פסיכומטריקאי לא ישתמש בכל 100 השאלות שיש לו בשאלון, הוא מבנה מהן מספר מצומצם של מדדים ואנתח רק את המדדים. אבל אם יש לי מספיק נבדקים אני יכול לפנות גם לשיטות של ביג דאטה. אני יכול לבחון את כל השאלות ואילו קומבינציות בניהן מנבאות משתנה מטרה כלשהו בצורה הטובה ביותר. או לבדוק למשל האם השאלות המסבירות יותר אצל בנים הן אותן השאלות המסבירות אצל הבנות. אני גם יכול לבחון מהו השקלול העדיף לניבוי – ממוצע או חציון או אולי אחוז השאלות שהוא ענה בהן במידה רבה מאוד – רבה מאוד או לשונות. בשיטות של עצי החלטה אפשר לחשב את כל המדדים האלו, להכניס את כולם לניתוח, ולראות מה מפיק את התובנות העיקריות. ניתוח כזה יכול אפילו להיות ניתוח מקדים שיכוון לאילו מדדים כדאי להתייחס, גם אם בסופו של דבר אבחר רק מספר קטן שלל מדדים ואשתמש בניתוח סטטיסטי קלאסי.
תודה. זה הרבה יותר ברור כעת. ומרגיש לי שאנחנו רק בתחילתו של עידן בהיבט הזה, ולא רק בהקשרים עסקיים אלא חברתיים וציבוריים. מילה לסיכום. איזו פנייה היית רוצה להפנות לפסיכומטריקאים בישראל? כמות הנתונים היתומים שמסתובבים בעולם גדלה בקצב מטורף, העתיד מתחבא במעמקי הררי המידע האלה. מאחל לכולנו שנשכיל לכרות את היהלומים.
הבלוגומטרי הוא פלטפורמה לשיתוף בידע פסיכומטרי רלבנטי ובעל ערך. מוזמנים לבקר כאורחים, כמגיבים וכצופים שאינם נראים.
תגובות
2. מידע קשיח זמיו? יעל שטימברג (05/03/2016)
שלום ראשית, תודה! שוב כתבה מעניינת ומוסיפה שמדייקת את השימוש במושגים רווחים. מעבר לאתגר של התמודדות עם מאגרי מידע גדולים ההולכים ומתרבים עם השנים, ולצד זה ההתמודדות של עמותות וארגונים בהטמעת תרבות של איסוף מידע והטמעה של מערכות ממוחשבות שונות.... ישנו גם אתגר רב הנוגע למקור המידע. מהימנות המידע הקשיח שאותו אנו אוספים. בעוד שמקור המידע הנוגע לשיחות טלפון(כפי שמתואר בדוגמא בכתבה)- שזהו מידע שנאסף אוטומטית, הרי במקרים רבים המידע הקשיח שנאסף בארגונים חברתיים מקורו בגורם אנושי כלשהו . נושא זה בפני עצמו מעמיד בפנינו אתגרים הנוגעים לאיכות המידע הרב הנערם במערכות השונות. שבוע טוב יעל
1. ביג דאטה והערכת תכניות ענת קדם (04/03/2016)
תודה לאהוד וליאת, נושא מרתק ועורר אצלי המון מחשבות. לאחרונה נכנס המרכז לטכנולוגיה חינוכית לנושא של ביג דאטה מתוך מחשבה שבמערכות ניהול הלמידה שלנו מצטברים אלפי נתונים שיכולים ללמד אותנו דברים על תהליכי למידה. בפועל מסתבר שהגם שיש המון נתונים זה עדיין לא המיליונים שמתאימים לניתוחים מהסוג שאהוד דיבר עליהם ומטח ייגש לאתגר הזה עם כלים אנליטיים סטנדרטיים. מחשבה שעלתה לי היא האפשרות ששיטות ניתוח של ביג דאטה יסייעו לנו בהערכת תכניות וכאן נדמה לי שיש כמה כיוונים מעניינים, בעיקר בכל הקשור לתכניות המבקשות להשפיע על "גרף לאומי" בסוגיות כמו תחלואה, פשיעה, תעסוקה וכדומה. בסוגיות אלה צוברת המדינה המון נתונים על מיליוני אזרחים - שווה למידה ואשמח להזדמנות ליישם את המחשבות האלה. תודה
Comments