לוגו זפירנט

מאגרי גרפים: יתרונות ושיטות עבודה מומלצות - DATAVERSITY

תאריך:

מאגרי גרפיםמאגרי גרפים
Shutterstock

מסדי נתונים של גרפים השתפרו משמעותית מאז שנות ה-1990, עם פיתוחים חדשים ומימוש טוב יותר של שיטות עבודה מומלצות. טכנולוגיית גרפים הפכה לאחת השיטות הפופולריות ביותר לביצוע מחקר ביג דאטה. ההתמקדות שלו במציאת מערכות יחסים והגמישות שלו הופכות אותו לאידיאלי עבור מגוון פרויקטי מחקר. מודעות לפיתוחים חדשים והבנה של שיטות עבודה מומלצות ייעלו כל עבודה עם מסדי נתונים גרפים.

מסדי נתונים של גרפים הם נחשב בדרך כלל טכנולוגיית NoSQL או לא-יחסית, המספקת להם את היכולת להרחיב את הזיכרון/אחסון ואת המחקר לכל כיוון, ללא צורך בהעברת הפרויקט למבנים שונים. למרות שמערכות SQL יכולות לתמוך במסדי נתונים גרפים, במיוחד עם שיפורים אחרונים, ארכיטקטורות NoSQL הן בדרך כלל הרבה יותר יעילות. יש לציין שמסד נתונים יחסי/SQL יכול לעבוד לצד מסד נתונים גרפי NoSQL, כאשר השניים משלימים זה את זה על ידי הקשה על החוזקות של שתי המערכות.

העקרונות הבסיסיים

מסד נתונים גרפים נועד להקצות ערך שווה הן לנתונים והן לקשרים המחברים את הנתונים. הנתונים והקשרים נחשבים חשובים באותה מידה. מבנים גרפים (הצומת והקצה) משמשים לייצוג ואחסון נתונים. צומת במסדי נתונים גרפים מייצג את הרשומה/האובייקט/הישות, בעוד שהקצה מייצג את הקשר בין הצמתים. שאילתת יחסים היא די מהירה, מכיוון שהם מאוחסנים בתוך מסד הנתונים עצמו.

ניתן לתאר צמתים כישויות בתוך גרף. ניתן לתייג צמתים אלה עם תוויות המייצגות תפקידים שונים בתחום. ניתן להשתמש בתוויות צמתים גם כדי לצרף מטא נתונים (אינדקס או מידע זיהוי) לצמתים מסוימים.

הקצוות, או היחסים, מספקים קשרים בין שתי ישויות צומת. (לדוגמה, מתנדב-לוח זמנים-ימי חול או מכונית-כיוונים-יעד.) למערכות יחסים יש תמיד כיוון, עם צומת התחלה, צומת סיום וסוג. גם למערכות יחסים/קצוות יכולים להיות מאפיינים. באופן כללי, הקשרים מבוססים על מאפיינים כמותיים, כגון מרחקים, משקלים, עלויות, דירוגים, חוזקות או מרווחי זמן. בגלל האופן שבו מערכות יחסים נשמרות, שני צמתים יכולים לשייך כל סוג או כל מספר של מערכות יחסים. למרות שקשרים מאוחסנים עם כיוון כיוון מסוים, ניתן לנווט בקשרים אלה ביעילות בכל כיוון.

שימוש במאגרי גרפים

ניתן להשתמש בגרפים במגוון יישומים יומיומיים, כגון ייצוג מיפוי סיבים אופטיים, עיצוב לוח מעגלים או משהו פשוט כמו כבישים ורחובות על מפה. פייסבוק משתמשת בגרפים כדי ליצור רשת נתונים, עם צמתים המייצגים אדם או נושא, וקצוות המייצגים תהליכים, פעילויות או שיטות המחברים את הצמתים.

Lockheed Martin Space משתמשת בטכנולוגיות גרפים עבור ניהול שרשרת הספקה, מה שמקל עליהם לחשוף חולשות אפשריות ולהגביר את החוסן של שרשרת האספקה. CDAO שלהם, טובין תומס, הצהיר ב- ראיון, "חשבו על מחזור החיים של האופן שבו מוצר נוצר. אנו משתמשים בטכנולוגיות כמו גרפים כדי לחבר את מערכות היחסים יחדיו, כך שנוכל לראות את מחזור החיים על סמך חלקים או רכיבים מסוימים והקשרים בין כל אלמנט."

גרטנר צופה כי שוק לטכנולוגיות גרפים יגדל ל-3.2 מיליארד דולר עד 2025. הפופולריות הגוברת של מסדי נתונים גרפים היא, בחלקה, תוצאה של אלגוריתמים מעוצבים היטב שהופכים את מיון הנתונים להרבה מאוד קל. הידוע לשמצה שערוריית ניירות פנמה מספק דוגמה מצוינת לאופן שבו נעשה שימוש באלגוריתמים כדי לחפש מידע מאלפי חברות מעטפת. אלה פגזים סיפק לכוכבי קולנוע, פושעים ופוליטיקאים, כמו ראש ממשלת איסלנד לשעבר, זיגמונדור דיוויד גונלאוגסון, מקום להפקיד כסף בחשבונות חוץ. גרפים מסדי נתונים, עם שלהם אלגוריתמים, אפשרו את המחקר של חברות המעטפת הללו.

בעיות עם מסדי נתונים של גרפים

הבעיות שעלולות להתפתח בעת עבודה עם מסדי נתונים גרפים כוללות שימוש בנתונים לא מדויקים או לא עקביים ולימוד כתיבת שאילתות יעילות. תוצאות מדויקות מסתמכות על מידע מדויק ועקבי. אם הנתונים הנכנסים אינם אמינים, התוצאות המגיעות אינן יכולות להיחשב מהימנות. 

בעיית שאילתת נתונים זו יכולה להיות בעיה גם אם הנתונים המאוחסנים משתמשים במונחים לא כלליים בעוד שהשאילתה משתמשת בטרמינולוגיה גנרית. בנוסף, השאילתה חייבת להיות מתוכננת כך שתעמוד בדרישות המערכת.

נתונים לא מדויקים מבוססים על מידע שהוא פשוט שגוי. שגיאות בוטות נכללו. נתונים לא מדויקים עשויים לכלול כתובת שגויה, מין שגוי או כל מספר שגיאות אחרות. נתונים לא עקביים, לעומת זאת, מתארים מצב עם מספר טבלאות במסד נתונים שעובדים עם אותם נתונים, אך מקבלים אותם מקלטים שונים עם גרסאות מעט שונות (שגיאות כתיב, קיצורים וכו'). חוסר עקביות מתווסף לעתים קרובות על ידי יתירות נתונים.

שאילתות גרף תחקור את מסד הנתונים של הגרפים, והשאילתות האלה צריכות להיות מדויקות, מדויקות ומעוצבות כך שיתאימו למודל מסד הנתונים. השאילתות צריכות להיות גם פשוטות ככל האפשר. ככל שהשאילתה פשוטה יותר, כך התוצאות שלה ממוקדות יותר. ככל שהשאילתה מסובכת יותר, כך התוצאות רחבות יותר - ואולי יותר מבלבלות.

שיטות עבודה מומלצות בהתחלה

למטרות מחקר, רוב הנתונים בתפזורת בחינם או שנרכשו מדויקים למדי. נתונים לא מדויקים ולא עקביים נוטים להיות תוצאה של טעות אנוש, כגון איש מכירות או איש צ'אט באתר שממלא טפסים שונים. הכשרת צוות לבדוק שוב ושוב את המידע שלהם (ולבצע בדיקה כפולה של עבודתם במהלך תהליך ההכשרה) יכול לעודד שיפורים דרמטיים.

שאילתות צריכות להתחיל פשוטות ולהישאר פשוטות. אם המחקר נעשה מורכב יותר, אל תיצור שאילתה מורכבת יותר. צור שאילתה חדשה ופשוטה למחקר בנפרד. CrowdStrike מציעה א דוגמה שימושית על הערך של שאילתות פשטניות בזמן שהם פיתחו את כלי ניתוח האבטחה שלהם, Threat Strike. מחברי CrowdStrike מרקוס קינג וראלף קאראו כתבו:

"בתחילת הפרויקט הזה, הנושא העיקרי שהיינו צריכים לטפל בו היה ניהול נפח גדול במיוחד של נתונים עם קצב כתיבה מאוד בלתי צפוי. בזמנו, היינו צריכים לנתח כמה מיליוני אירועים ביום - מספר שידענו שיגדל ועומד כעת על מאות מיליארדים. הפרויקט היה מרתיע, וזו הסיבה שהחלטנו לחזור אחורה ולחשוב לא על איך להרחיב, אלא איך לפשט. קבענו שעל ידי יצירת סכימת נתונים פשוטה בצורה יוצאת דופן, נוכל ליצור פלטפורמה חזקה ורב-תכליתית שאפשר לבנות ממנה. אז הצוות שלנו התמקד באיטרציה ובחידוד עד שהורדנו את הארכיטקטורה למשהו שהיה פשוט מספיק כדי להרחיב כמעט ללא סוף."

בינה מלאכותית, למידת מכונה ומסדי נתונים של גרפים

שיפורי גרפים המיושמים בבינה מלאכותית משפרים את הדיוק ואת מהירויות הדוגמנות.

An פלטפורמת AI מיזוג עם מסד נתונים גרפים הוכח כמשפר בהצלחה מודלים של למידת מכונה, ומקדם את הפוטנציאל לתהליכי קבלת החלטות מורכבים. נראה כי טכנולוגיית הגרפים משתלבת היטב עם בינה מלאכותית ולמידת מכונה, והופכת קשרי נתונים לפשוטים יותר, ניתנים להרחבה ויעילים יותר.

אמזון הפנתה את תשומת לבה לשימוש למידת מכונה לסיווג צמתים וקצוות על סמך התכונות שלהם. התהליך יכול לשמש גם כדי לחזות את הקשרים הסבירים ביותר. כמה גרסאות של זה טכנולוגיית למידת מכונה/גרפים אפשרות לכלול מפות של העולם הפיזי, כגון חקר המסלולים הטובים ביותר להגעה ממקום אחד למשנהו. גרסאות מסוימות מתמקדות במשימות מופשטות יותר - למשל, סינתזת ידע - ומשתמשות במודלים גרפים המבוססים על טקסט, או רשתות מושגיות.

מסדי הנתונים הגרפים הנוכחיים התפתחו עד לנקודה שבה הם מסוגלים לפתור כמה מהאתגרים היותר מסובכים של תעשיית הטלקומוניקציה. מאבק בהונאה הוא אתגר אחד שהפך לעדיפות גבוהה, כאשר בינה מלאכותית ולמידת מכונה הופכות לבחירה הראשונה להקדים את האיומים. מסדי נתונים של גרפים נמצאים בשימוש כדי לתמוך בטכניקות האנליטיות המשמשות את AI ולמידת מכונה במאבק בהונאה.

ספוט_ימג

המודיעין האחרון

ספוט_ימג