לוגו זפירנט

יסודות סיווג הנתונים - DATAVERSITY

תאריך:

סיווג נתוניםסיווג נתונים
קרוויס / Shutterstock

ניתן לתאר בגדול את תהליך סיווג הנתונים כארגון הנתונים לקטגוריות רלוונטיות, המאפשר לגשת אליהם ולהגן עליהם בצורה יעילה יותר. במילים הפשוטות ביותר, תהליך סיווג הנתונים מדרג נתונים על סמך צורכי האבטחה שלו ומקל על איתור ואחזור נתונים. סיווג שימושי במיוחד לארגונים המאחסנים כמויות גדולות משמעותית של נתונים.  

ניתן להשתמש בסיווג נתונים למטרות מרובות: יוזמות אבטחת מידע, שמירה על ציות לרגולציה ועמידה ביעדים עסקיים אחרים. במצבים מסוימים, סיווג הנתונים הפך לדרישה רגולטורית, כאשר הנתונים ניתנים לרשות גופים ממשלתיים, הדורשים אותם לחיפוש ולשליפה במסגרת זמן מוגדרת. מכיוון שסיווג נתונים תומך בחיפושים ובאיסוף נתונים קלים ויעילים, ניתוח הנתונים הופך לתהליך יעיל יותר.

ג'וליה דאנקן, מנהלת באוניברסיטת טורונטו, מוסבר

"הנתונים נמצאים מסביבנו. סיווג הנתונים עוזר לנו להבין את הדרכים המתאימות ביותר לטיפול והגנה עליהם - מי יכול לראות או להשתמש בהם, היכן לאחסן אותם ולכמה זמן, האם ניתן לשתף אותם ואילו אמצעי הגנה הם המתאימים ביותר. בין אם מדובר בפרויקט מחקרי, כחלק מאיסוף נתונים, או שימוש יומיומי בנתונים ושיתוףם למטרות אקדמיות ומנהליות, סיווג הנתונים הוא צעד חשוב מאוד כאשר אנו ממשיכים לחזק את אבטחת המידע".

תהליך סיווג הנתונים גם מבטל את כפילות הנתונים, אשר, בתורו, משפר את דיוק הנתונים (איכות הנתונים ושלמות הנתונים). 

תיוג נתונים מיושם במהלך תהליך סיווג הנתונים. זה נחשב לשלב חיוני בסיווג נתונים. תגים אלו משמשים לזיהוי הנתונים ויכולים להעביר את רמת הסודיות/רגישות - למטרות אבטחה - ואת רמת איכות הנתונים. רגישות הנתונים קובעת את דירוג האבטחה שלו.

תיוג נתונים

תיוג נתונים מזהה נתונים על ידי הכללת התג בתוך המטא נתונים. "תג" הוא מילת מפתח, מספר או מונח שמוקצים לקובץ נתונים. בעסק, זיהוי עובד יכול לספק דרך ייחודית לזיהוי עובדים בודדים. עם הזנת מספר העובד, מנוע החיפוש מציג עובד בודד, במקום מספר עובדים שחולקים מילת מפתח משותפת. 

באופן דומה, במשחק כדורגל, ניתן להשתמש במספר מושב כדי להעביר את הקצאת המושב לכרטיס מסוים, ולבסס בעלות זמנית. מערכת תיוג בתוך המטא נתונים מקדמת איתור וגישה לקובץ נתונים במהירות ובקלות, ויכולה למנוע כל בלבול לגבי מי "הבעלים" של המושב.

תיוג נתונים משתמש במטא נתונים כדי לספק תהליך זיהוי ייחודי, לקידום יעילות.

תיוג נתונים הוא שלב חיוני בתהליך סיווג הנתונים. התגים משמשים לתקשורת סוג הנתונים, רמת הרגישות שלו ושלו רמת איכות הנתונים. הרגישות מבוססת בדרך כלל על החשיבות או הסודיות של הנתונים, ומתואמת לאמצעי האבטחה המתאימים הדרושים. 

סוגי נתונים נפוצים

סיווג נתונים יכול לספק גם הבנה משופרת וגם נגישות לנתוני הארגון. מצב זה מקדם את השימוש בניתוח נתונים ואבטחת מידע משופרת. השימוש היעיל בסיווג נתונים יכול לעזור לארגון עם כמות עצומה של נתונים מאוחסנים לתפקד בצורה יעילה יותר. 

כדי להבין טוב יותר כיצד עובד סיווג נתונים, חשוב להבין את סוגי הנתונים הנפוצים ביותר, המפורטים להלן:

  • נתונים ציבוריים: מספק מידע שזמין באופן חופשי לקהל הרחב לקריאה, מחקר ואחסון. זה בדרך כלל תומך בכמויות מינימליות של אבטחת מידע, מכיוון שהוא משותף בקלות ויש לו סיכון מועט לפגוע ביחידים, או בציבור הרחב. דוגמאות לנתונים ציבוריים כוללים שמות של אנשים, חדשות ומאמרים חינוכיים וכמה אתרי אינטרנט ממשלתיים.
  • נתונים פרטיים: מכיל מידע שאסור לחלוק עם הציבור. שיתוף מידע מסוג זה - סיסמאות, היסטוריית גלישה/מחקר, מספרי כרטיסי אשראי (ללא מספרי PIN ותאריכי תפוגה) - עלול להוות סיכון קטן לאדם או לארגון, ובדרך כלל ניתן לתקן אותו במהירות.
  • נתונים פנימיים: בדרך כלל, זה מתאר את הנתונים שבהם נעשה שימוש ספציפי בתוך ארגון ומתייחס לפונקציות הפנימיות של הארגון. דוגמאות לנתונים פנימיים כוללים תוכניות עסקיות, מידע אישי של עובדים, מיילים ותזכירים. נתונים פנימיים מתפרסים לרוב על פני רמות אבטחה שונות.
  • נתונים חסויים: רק מספר מוגבל של אנשים בתוך הארגון יכול לגשת לנתונים סודיים (המכונה לפעמים "נתונים רגישים"). גישה סודית לנתונים עשויה להיות כרוכה בסיסמאות מיוחדות או סריקות רשתית על מנת לצפות בתוכן. דוגמאות לנתונים חסויים הם מספרי תעודת זהות, רשומות רפואיות, מספרי כרטיסי אשראי עם מספרי PIN ותאריכי תפוגה.
  • נתונים מוגבלים: מדובר בנתונים שאם ייפגעו עלולים להוביל לקנסות משפטיים מסיביים או לאישומים פליליים. בדרך כלל יש לו בקרות אבטחה קפדניות מאוד להגבלת הגישה לנתונים, ולעתים קרובות משתמש בהצפנת נתונים כלשהי. אם אנשים עם כוונת זדון ניגשים אליו, המידע הקנייני של הארגון עלול להיות מועתק, או להפוך אותו לבלתי נגיש, עם דרישות כופר. לנתונים מוגבלים עשוי להיות גם פוטנציאל לסכן את בריאות הציבור הרחב. דוגמאות לנתונים מוגבלים כוללות קניין רוחני, מידע בריאותי מוגן וכמה חוזים פדרליים. 

שיטות לסיווג נתונים

תהליך סיווג הנתונים כולל בדרך כלל תיוג כדי להעביר את סוג הנתונים, רמת האבטחה המתאימה שלהם ואיכות הנתונים שלהם. 

בעיקרון פותחו שלושה סוגים של סיווג נתונים: 

  • סיווג נתונים מבוסס תוכן: זה מתמקד לעתים קרובות במידע רגיש - רשומות פיננסיות, מידע אישי מזהה - ומשתמש בתוכנה כדי לבדוק ולפרש קבצים תוך כדי חיפוש אחר מידע רגיש.
  • סיווג נתונים מבוסס הקשר: משתמש בתוכנה המתמקדת במידע מבוסס הקשר, כגון האפליקציה, מיקום המקור שלה או היוצר, כדי לקבוע את מיקום האחסון שלה. 
  • סיווג נתונים מבוסס משתמש: תהליך ידני הדורש מהאדם שמבצע את המשימה להיות בעל הבנה בסיווג נתונים. צורה זו של סיווג נתונים איטית משמעותית, ונוטה הרבה יותר לשגיאות, ממערכות סיווג הנתונים מבוססות התוכן וההקשר, המשתמשות בתוכנה.

Datamatation פרסמה סקירה של סיווג כלי תוכנה ל2024.

תקני ציות וסיווג נתונים

מספר הולך וגדל של מדינות, וכמה מדינות בארה"ב, יצרו תקנות ותקני ציות המחייבים עסקים וארגונים להקים מערכת סיווג נתונים. הדרישות עשויות להשתנות, בהתאם למדינה, לארגון ולסוגי הנתונים שבהם הוא משתמש. להלן מספר דוגמאות מדוע עמידה בדרישות יכולה להוות דאגה.

  • תקנת הגנת מידע כללית (GDPR): המאמצים של אירופה להגן על פרטיות אזרחיה הביאו לתקנות המחייבות עסקים לסווג את כל הנתונים שנאספו. ה- GDPR עוסק בנתונים הקשורים לגזע, שירותי בריאות, דעות פוליטיות, מוצא אתני ושימוש בביומטריה. (עסקים שאינם מאחסנים כמויות אדירות של נתונים יכולים להשתמש במערכת סיווג פשוטה למדי - המטרה היא לספק את הנתונים המבוקשים לפקידי האיחוד האירופי בצורה מהירה ויעילה).
  • תקן אבטחת נתונים של תעשיית כרטיסי תשלום (PCI DSS): דרישה 9.6.1, שנוצרה על ידי תעשיית כרטיסי האשראי, קובעת כי עסקים וארגונים חייבים "לסווג נתונים כך שניתן יהיה לקבוע את רגישות הנתונים". זה לא חוק, אלא הסכם משפטי.
  • חוק ניידות וחשבון אחריות (HIPAA): זהו חוק פדרלי בארה"ב. זה שוקל מידע בריאותי אישי (PHI) הוא מידע סודי, ודורש מתקנים רפואיים כדי להגן על הרשומות הרפואיות של אנשים. חוק הפרטיות של HIPAA מגביל את השימוש והחשיפה של מידע בריאותי אישי, ומחייב מתקנים רפואיים ושותפיהם לפתח מערכת סיווג נתונים.
  • חוק פרטיות הצרכן של קליפורניה (CCPA): השמיים CCPA קובע כי "סיווג הנתונים צריך לזהות אילו סוגי נתונים נמכרים, משותפים עם צדדים שלישיים או משמשים למטרות שיווק. כל בקשות זכויות לסוגי נתונים ספציפיים צריכות להיות מתועדות גם במלאי הנתונים כהוכחה לכך שאתה תואם CCPA."

חשוב לארגונים לעשות זאת לחקור חששות משפטיים, או להתייעץ עם ייעוץ מומחה, כאשר עושים עסקים דרך האינטרנט. 

האתגרים של סיווג נתונים

תהליך סיווג הנתונים שימושי מאוד מבחינת אבטחה ואחזור נתונים. עם זאת, ישנן כמה בעיות שעלולות להתפתח. חלק מהאתגרים הנפוצים הם:

  • חיובי שווא: זה מתרחש כאשר אותם נתונים מופיעים בהקשרים שונים ובפורמטים שונים, והתוכנה לא מזהה אותם ככפול. לתוכנת סיווג שאינה בוחנת את ההקשר והפורמט של הנתונים יש סבירות גבוהה יותר לייצר סיווגים כוזבים. מכיוון שבדרך כלל נעשה שימוש בכמויות גדולות של נתונים בפרויקטים של סיווג, אפילו שיעור חיובי שווא קטן ביותר עלול לעוות את תהליך הסיווג.
  • שלילי שווא: אלה מתרחשים כתוצאה מבלבול בנוגע להקשר. לדוגמה, שם לא ייחשב בדרך כלל למידע רגיש. עם זאת, כאשר הוא חלק מתיק רפואי, השם הזה הופך למידע רגיש. סיווג נתונים ללא הבנה של ההקשר שלהם עלול לגרום לסווג שגוי של נתונים.
  • העלות: המחיר של יישום ותפעול כלי סיווג נתונים יהיה תלוי במספר הבקרות שנקבעו ובכמות הנתונים המעובדים. סיווג נתונים יכול להיות די יקר ומסורבל. מאמצים ידניים לסיווג כמויות גדולות של נתונים עלולים להיות יקרים ביותר, כאשר כמויות גדולות יותר של נתונים עולות יותר.

ב-ChatGPT מתנסים ככלי לסיווג נתונים, אך יש חששות לגבי המערכת חוסר ביטחון.

ספוט_ימג

המודיעין האחרון

ספוט_ימג