יום שלישי, 14 בינואר 2014

טיפול שורש

לפני כחודש איחלנו לתפוז בריאות ואריכות ימים. גם רמזנו (רמזים עבים), שהגיע הזמן שיתבגר סופסוף, יתייחס ברצינות לביקורות, וייצב את האמינות והיציבות הטכנית של האתר. לצערי, זה לא ממש קורה.

ביום שני שעבר שוב היתה תקלה משמעותית פה בתפוז (שעד עכשיו לא נפתרה). חלק מכם לא היו מודעים לה, אבל מבחינתי זו היתה תקלה קריטית. אני מנוי לבלוגים של כולכם באמצעות מערכת ה-RSS. למי שלא יודע, יש פרוטוקול שלם שלפיו התפוז (או כל אתר אחר שיש לו את האופציה) 'משחרר הודעה' על רשומה חדשה, ומערכת מתאימה אוספת את אותן הודעות ומציגה לי אותם עם תקציר וקישור לקריאה באופן נוח.

ובכן, התקלה היתה שפתאום קיבלתי אלפי הודעות על רשומות חדשות מ-2009 והלאה, מכל בלוג ברצף. כולל כמובן בלוגים שלא פעילים כבר שנים. שטף מטורף של ממש. ובנוסף, כך הסתבר בהמשך – הקישורים שהועלו גם היו דפוקים – היה חסר בהם לוכסן.

התגובה הרגילה שלי לאירועים כאלה היא להודיע בפורום התמיכה הטכנית ולחכות לתגובה. מסתבר שלפני כבר הספיק חברנו Gils33 להעלות הודעה ראשונה על התקלה. אז הוספתי קצת פרטים נוספים, אבל ממילא לא ציפיתי להתייחסות, כי היא הועלתה ב-22:20. כלומר, כשהתפוז ישנים.

כמה שעות חלפו, ועוד פרטים נודבו שם על מהות התקלה. התגובה הלקונית הרגילה של שלומי שהתקלה "הועברה לבדיקה", והכלום של הטיפול בהמשך, כששעות רבות המשיכו להגיע עדכונים מיותרים שאף אחד לא עצר, מאוד הרגיזו אותי. רציתי כבר לכתוב לכם הודעה על יציאה לחופשה בלתי מוגבלת, לעשות "יציאה מהמערכת", לסגור את כל הלשוניות הפתוחות קבוע על התפוז, ולהיעלם מהסביבה לכמה זמן.

העניין הוא שדי איבדתי סבלנות לניהול הכושל ולרמה הטכנית הירודה של האתר הזה. לא לומדים מטעויות, לא משתפרים, ונשארים אתר מפגר ברמה טכנית חובבנית. אני מניח שעשו שם איזו פעולת אחזקה, שכמובן לא תוכננה ולא נבדקה, וזה מה שקרה. או שאולי עוד יומיים תצוץ "לגמרי במקרה" פלטפורמה פרסומית חדשה, שכמובן ממש בכלל לא קשורה למבול התקלות האחרון. מעניין, באתרים אחרים רציניים אין תקלות כאלה.

אבל במקום לעשות זאת (והייתי קרוב), חשבתי לכתוב את הרשומה המקצועית הזו, ולספר לכם מה עושות חברות רציניות כדי להשתפר. כי מה שקורה בתפוז זה תמיד טיפול סימפטומטי – יש תקלה אז מטפלים בה בתיקון ראשוני שטחי, בטח ע"י שינוי כלשהו בקוד שאיכשהו לרוב מתקו את התקלה (בערך), אבל מקלקל כמה דברים אחרים בלתי צפויים.

אבל יש תהליך אחר, רציני יותר ויסודי הרבה יותר לטפל בבעיות. תהליך כזה כולל כמה שלבים, שאפרט להלן:

שלב ראשון – תיקון מיידי
זה בעצם מה שאמור לקרות כיום בתפוז (ואפילו זה לא מבוצע כהלכה) - מטפלים מיידית בסימפטומים, מבודדים את בעיית האיכות המיידית כך שהפגיעה בלקוחות ובמערכת תהיה מינימלית. יש חברות שיפסלו מוצרים, יבצעו Recall, יתקנו את המכונה הלקוייה וכד'. ורק אחרי התיקון ימשיכו הלאה. זה שלב שמובן לכולם אינטואיטיבית, של תיקון מיידי, אבל לא נכון לעצור כאן, אלא רצוי להמשיך בתהליך היסודי.

שלב שני – אנליזת בעיות שורש
באנגלית זה נקרא Root Cause Analysis, שמשמעותו הליך מתודולוגי למציאת סיבת השורש, ועדיף אפילו מציאת כל סיבות השורש האפשריות לתקלה הנתונה, כך שטיפול בהם ימנע הישנותה של הבעיה בעתיד (ובעיות דומות וקשורות אליה).

יש מגוון שיטות לביצוע אנליזה מהסוג הזה, הנה העיקריות:
  • שיטת מיפוי עצם דג – שעוזרת לזהות גורמים שונים המשפיעים או גורמים לבעיה: כ"א, תהליך, חומרים שבשימוש, שיטת מדיה, ציוד.

  • שיטת 5-Whys – שבה שואלים בשלבים מה גרם לבעיה ומוצאים סיבה, ואז ממשיכים הלאה – מה גרם לסיבה? ומוצאים את הסיבה לזה. וכך ממשיכים לעומק, 5 רמות של סיבה ותוצאה.
http://ngsuyasa.files.wordpress.com/2013/12/root_cause.gif
  • שיטת העץ (אני מעדיף את השיטה הזו, כמו זו שבתמונה שמהרשת) -  בדומה לשיטת ה-5-Why אך באופן רחב ומקיף יותר, שואלים בשלב הראשון מה גרם או מה יכול היה לגרום לתקלה, ומקבלים רשימת סיבות אפשריות. לכל אחת ממשיכים ושואלים מה יכול היה לגרום לה, וממשיכים הלאה כמה רמות לעומק.
http://www.pierotaglia.net/wp-content/uploads/2012/10/fault-tree-analysis.jpg

לרוב, בעיות השורש מצביעות על כשלים מערכתיים. למשל, במקרה שלנו בתפוז, אני משער שזה יהיה: פרוטוקול תיקון לא הוגדר, אין תכנון מסודר להפעלת שינויים, הפעלת שינויים במערכת לא נבדקת כי אין פרוטוקול מתאים, אין אחריות מוגדרת מי עושה מה ואיך, אין הגדרה של איך נבדקים דברים לאחר שמבצעים שינוי, מה עושים אם לא עובד, וכן הלאה.

שלב שלישי – טיפול שיטתי בבעיות השורש
כל אחת מבעיות השורש מצריכה חשיבה ותכנון למתן מענה סדור עליה. זה כולל הגדרות, נהלים, תהליכי עבודה, אישורים, הדרכות ואחריות.

שלב רביעי – בקרה
לאחר שמבוצעים התהליכים היסודיים הללו ומוטמעים במערכת, יש לשוב לתיקונים שבוצעו ולבחון אותם לאור התובנות שהושגו בתהליך הבדיקה והשיפור היסודי, ולבצע תיקונים בהתאם.

בנוסף, עם צבירת הנסיון יש לשוב ולבחון את הנהלים והתהליכים הללו שהוגדרו, ולשפר גם אותם. כי הרי כך לומדים מטעויות ומטמיעים את מה שנלמד, וככל שמתקדמים משתפרים יותר. כמובן, גם הפתרונות הקודמים שאליהם הגענו ראויים לבחינה מחדש ושיפור.

ובנוסף, כל תקלה שקורית לאחר שהוטמעו השינויים, מרמזת על הזדמנות לשיפור נוסף. כי אולי משהו יסודי השתנה, אולי פספסנו משהו, וכד'. אז חוזרים על התהליך וממשיכים לשפר. לרוב מגיעים לסיבות שורש יותר מורכבות ועמוקות, ולמערכת יציבה ואיכותית הרבה יותר.

אני משוכנע שאפילו מעט מזה לא מבוצע בתפוז. במקום זה יש תרבות של כסת"ח, ניתוק, תקשורת פנימית שלא עובדת היטב, יישום פתרונות חלקיים, חוסר יסודיות, ועוד מיני ליקויים וכשלים, הן ברמה הטכנית והן ברמה הארגונית. חבל באמת.

אבל אפשר לשפר את זה, עם ייעוץ מתאים שילמד את הארגון לעבוד נכון, לתקשר בפתיחות, להשתפר ולשרת טוב יותר את הקהלים השונים של הלקוחות.


ובכ"ז, בינתיים אני פה, לפחות עד לתקלה הבאה..
להתראות, חברים!

אין תגובות:

הוסף רשומת תגובה

אשמח כמובן לתגובות. תודה :-)