לוגו זפירנט

מדוע יישום למידת מכונה בביולוגיה קשה - אבל שווה את זה

תאריך:

ג'ימי לין הוא CSO של פרנום, המפתחת בדיקות מבוססות דם לגילוי מוקדם של סרטן, החל בסרטן המעי הגס. הוא חלוץ בפיתוח גישות חישוביות להפקת תובנות מנתונים גנומיים בקנה מידה גדול, לאחר שהוביל את הניתוחים החישוביים של מחקרי הרצף הראשונים בכל הגנום בסוגי סרטן מרובים. 

לין שוחחה עם Future על האתגרים של ביצוע במשימה של החברה לשילוב גישות למידת מכונה ונתונים ביולוגיים. הוא מסביר אילו שלושה סוגי אנשים אתה צריך לשכור כדי לבנות חברת techbio מאוזנת, המלכודות שאתה צריך להימנע, איך לדעת מתי הנישואים של שני תחומים עובדים או לא עובדים, והניואנסים של התאמת מחקרים ביולוגיים ולמידת מכונה אחד לשני.


עתיד: כמו דיסציפלינות רבות, יש הרבה התרגשות סביב הפוטנציאל ליישם למידת מכונה לביו. אבל ההתקדמות נראתה קשה יותר. האם יש משהו שונה בנתונים ביומולקולריים בהשוואה לסוגי הנתונים המשמשים בדרך כלל עם למידת מכונה?

JIMMY LIN: נתוני למידת מכונה מסורתית הם רחבים ורדודים מאוד. סוג הבעיות שלמידת מכונה פותרת לעתים קרובות הן מה שבני אדם יכולים לפתור בננו-שנייה, כמו זיהוי תמונה. כדי ללמד מחשב לזהות תמונה של חתול, יהיו לך מיליארדים על מיליארדי תמונות להתאמן עליהן, אבל כל תמונה מוגבלת יחסית בתוכן הנתונים שלה. נתונים ביולוגיים הם בדרך כלל הפוך. אין לנו מיליארדי אנשים. יש לנו מזל לקבל אלפים. אבל עבור כל אדם, יש לנו מיליארדי ומיליארדים של נקודות נתונים. יש לנו מספר קטן יותר של נתונים עמוקים מאוד.

יחד עם זאת, שאלות ביולוגיות הן לעתים רחוקות יותר הבעיות שבני אדם יכולים לפתור. אנחנו עושים דברים שאפילו מומחים בעולם בתחום הזה לא מסוגלים לעשות. אז, אופי הבעיות שונה מאוד, ולכן זה מחייב חשיבה חדשה על איך אנחנו ניגשים לזה.

האם יש לבנות את הגישות מאפס לנתונים ביו-מולקולריים, או שאפשר להתאים שיטות קיימות?

ישנן דרכים בהן תוכל לקחת את המידע העמוק הזה ולהציג אותו כך שתוכל לנצל את הכלים הקיימים, בין אם זה למידה סטטיסטית או שיטות למידה עמוקה. זה לא העתק-הדבק ישיר, אבל יש הרבה דרכים שבהן אתה יכול להעביר רבות משיטות למידת המכונה וליישם אותן על בעיות ביולוגיות גם אם זו לא מפה ישירה של אחד לאחד.

לחפור עוד בסוגיית הנתונים, עם נתונים ביולוגיים יש הרבה שונות - יש רעש ביולוגי, יש רעש ניסיוני. מהי הדרך הטובה ביותר לגשת להפקת נתונים ביו-רפואיים המוכנים ללימוד מכונה? 

זו שאלה מצוינת. מההתחלה, Freenome לקחה בחשבון כיצד לייצר את הנתונים הטובים ביותר המתאימים ללמידת מכונה. לאורך כל התהליך מתכנון המחקר, לאיסוף הדגימות, להפעלת המבחנים ועד לניתוח נתונים, צריך להיות זהירות בכל שלב כדי להיות מסוגלים לבצע אופטימיזציה ללמידת מכונה, במיוחד כשיש לך כל כך הרבה יותר תכונות מדגימות. זו הבעיה הקלאסית של big-p little-n.

בראש ובראשונה, תכננו את המחקר שלנו כדי למזער את הבלבול. הרבה חברות הסתמכו על מערכי נתונים היסטוריים ועשו עבודה רבה כדי לנסות למזער את השפעות הקוהורט ולהסיר מבלבלים. אבל האם זו באמת הדרך הטובה ביותר לעשות זאת? ובכן, לא, הדרך הטובה ביותר לעשות זאת היא מחקר פרוספקטיבי שבו אתה שולט על המבלבלים מראש. זו הסיבה, שאפילו במאמצי הגילוי שלנו, החלטנו לעשות ניסוי פרוספקטיבי רב-אתרים גדול שאוסף נתונים בסטנדרט הזהב מראש, כמו ב משפט AI-EMERGE.

למרבה המזל יש לנו משקיעים שהאמינו בנו מספיק כדי לאפשר לנו להפיק את הנתונים האלה. זה היה למעשה סיכון גדול לקחת כי המחקרים האלה מאוד יקרים. 

ואז ברגע שאתה מקבל את הנתונים, מה אתה עושה איתם?

ובכן, אתה צריך לאמן את כל האתרים באופן עקבי, ולשלוט על מבלבלים מכל האתרים השונים כדי שהמטופלים ייראו כמה שיותר דומים. ואז ברגע שאתה מפעיל את הדגימות, אתה צריך לחשוב איך למזער השפעות אצווה, כמו למשל על ידי שילוב הדגימות הנכון במכונות שונות בפרופורציות הנכונות.

זה מאוד קשה כשאתה עושה מולטיומיקה כי המכונות המנתחות מחלקה אחת של ביומולקולות עשויות לקחת מאות דגימות בהפעלה אחת, בעוד שהמכונות המנתחות מחלקה אחרת של ביומולקולות עשויות לקחת רק כמה. נוסף על כך, אתה רוצה להסיר טעויות אנוש. אז, הצגנו אוטומציה די מראש, בשלב של יצירת נתוני אימון בלבד.

כמו כן, כאשר יש לך מיליארדי נקודות מידע לאדם, זה הופך להיות מאוד מאוד קל להתאים יתר על המידה. אז אנחנו מוודאים שהאימונים שלנו ניתנים להכללה על האוכלוסיות שבסופו של דבר אנחנו רוצים ליישם אותה, עם התיקונים הסטטיסטיים הנכונים וערכות רבות עוקבות של אימונים ומבחנים.

שילוב של למידת מכונה עם נתונים ביו-מולקולריים הוא משהו שהרבה חברות ביוטכנולוגיה מנסות לעשות, אבל לעתים קרובות יש הרבה מעורפל לגבי איך הם יעשו זאת. מה אתה רואה כמאפיין חיוני לשילובם ביעילות?

At פרנום אנחנו משלבים למידת מכונה ומולטיומיקה. כדי לעשות זאת, אתה צריך לעשות את שניהם היטב. המפתח כאן הוא שאתה צריך להיות בעל מומחיות חזקה בשניהם, ואז להיות מסוגל לדבר בשפה של שניהם. אתה צריך להיות דו לשוני. 

יש המון חברות שמתמחות באחת ואז מפזרים שכבה מהשנייה. לדוגמה, יש חברות טכנולוגיה שמחליטות שהן רוצות לקפוץ לביו, אבל כל מה שהן עושות זה לשכור קומץ מדעני מעבדה רטובים. מצד שני, יש חברות ביולוגיה ששוכרות כמה מדעני למידת מכונה, ואז הם יכריזו שהם חברת AI/ML עכשיו. 

מה שאתה באמת צריך זה חוזק ספסל עמוק בשניהם. אתה צריך הבנה ביולוגית עמוקה של המערכת, של המבחנים השונים, של התכונות של מרחב הידע. אבל אתה גם צריך להיות בעל הבנה עמוקה של למידת מכונה, מדעי הנתונים, שיטות חישוב ולמידה סטטיסטית, ולהיות בעלות הפלטפורמות ליישם זאת. 

זה באמת מאתגר מכיוון ששני האזורים האלה הם לרוב מאוד מכוסים בסילו. כאשר אתה חושב על האנשים שאתה מגייס לחברה, איך אתה יוצר גשרים בין שני התחומים השונים הללו?

אני חושב שיש שלושה סוגים של אנשים שאתה רוצה לשכור כדי לגשר בין טכנולוגיה לביו. השניים הראשונים הם הסטנדרטיים שלך, מומחי התחום בלמידת מכונה או ביולוגיה. אבל הם גם צריכים להיות פתוחים ומוכנים ללמוד על התחום האחר, או אפילו טוב יותר, יש להם חשיפה וניסיון בעבודה בתחומים נוספים אלה.

עבור מומחי למידת מכונה, אנו בוחרים אנשים שלא רק נמצאים שם כדי לפתח את האלגוריתם העדכני ביותר, אלא שרוצים לקחת את האלגוריתמים העדכניים ביותר וליישם אותם בשאלות ביולוגיות. 

ביולוגיה היא מלוכלך. לא רק שאין לנו את כל השיטות למדוד את האנליטים השונים, אלא שאנו מגלים ביומולקולות ותכונות חדשות ללא הרף. יש גם הרבה גורמים מבלבלים ורעש שצריך לקחת בחשבון. בעיות אלו בדרך כלל מורכבות יותר מבעיות למידת מכונה סטנדרטיות, שבהן מרחב הבעיה ומרחב הידע מוגדרים היטב. מומחי ML המעוניינים ליישם את מלאכתם בביולוגיה צריכים להיות בעלי ענווה כדי ללמוד על המורכבות הקיימת בביולוגיה ולהיות מוכנים לעבוד עם תנאים פחות מאופטימליים והבדלים בזמינות הנתונים.

הצד השני הוא שכירת ביולוגים שחושבים על הבעיות שלהם במונחים של יצירת נתונים כמותיים בקנה מידה גדול יותר, מחקרים מתכננים לייעל את יחסי האות לרעש, ומודעים לאהרות של מבלבלים והכללה. זה יותר מסתם היכולת לדבר ולחשוב בשפת הקוד. רבים מהביולוגים שלנו כבר מקודדים ויש להם רקע סטטיסטי טוב, והם מוכנים ורוצים לצמוח לתחומים אלה. למעשה, ב-Freenome, יש לנו למעשה תוכניות הכשרה לביולוגים שרוצים ללמוד יותר על קידוד כדי שיוכלו לפתח את ההיגיון הסטטיסטי שלהם.

מה שחשוב עוד יותר הוא שעיצוב הלימודים, והשאלות שאנו מסוגלים לשאול, נראים אחרת כשהם מתוכננים בהקשר של ביג דאטה ו-ML.

מה הסוג השלישי?

הסוג השלישי של אדם להעסיק הוא הקשה ביותר למצוא. אלו הם המגשרים - אנשים שעבדו בצורה שוטפת בשני התחומים הללו. יש מעט מאוד מקומות ומעבדות בעולם שנמצאים ממש בצומת הזה. להשיג את האנשים שיכולים לתרגם ולגשר בין שני התחומים זה מאוד מאוד חשוב. אבל אתה לא רוצה לבנות חברה של מגשרים בלבד, כי לעתים קרובות האנשים האלה אינם המומחים בתחום זה או אחר, בשל מה שהם עושים. לרוב הם כלליים יותר בהבנתם. עם זאת, הם מספקים את העבודה הקריטית של חיבור שני התחומים יחד.

לכן, חשוב להחזיק את כל שלוש קבוצות האנשים. אם יש לך רק אחד מהמומחים בתחום, אתה תהיה חזק רק בתחום אחד. או, אם אין לך את בוני הגשרים, אז יש לך ממגורות של אנשים שלא יוכלו לדבר אחד עם השני. באופן אופטימלי, צוותים צריכים לכלול כל אחד משלושת סוגי האנשים הללו כדי לאפשר הבנה עמוקה הן של ML והן בביולוגיה, כמו גם לספק סינרגיה יעילה של שני התחומים הללו.

האם אתה רואה הבדלים באופן שבו מומחים בטכנולוגיה או מחשוב תוקפים בעיות לעומת האופן שבו ביולוגים ניגשים לבעיות? 

כֵּן. בקיצוניות אחת, בהחלט יש לנו אנשים שמגיעים מרקע סטטיסטי וכמותי והם מדברים בקוד ובמשוואות. אנחנו צריכים לעזור להם לקחת את המשוואות האלה ולהסביר אותן בצורה ברורה כדי שקהל הרחב יוכל להבין. 

לביולוגים יש דמיון רב כי הם עובדים עם דברים בלתי נראים. הם משתמשים בהרבה איורים במצגות כדי לעזור לדמיין מה קורה מבחינה מולקולרית, ויש להם אינטואיציה נהדרת לגבי מנגנונים ומורכבות. הרבה מהחשיבה הזו איכותית יותר. זה מספק דרך אחרת של חשיבה ותקשורת.

אז איך אנשים מתקשרים הולך להיות מאוד מאוד שונה. המפתח הוא - אנחנו אומרים בצחוק - אנחנו צריכים לתקשר בצורה שאפילו סבתא שלך יכולה להבין. 

זה דורש שליטה אמיתית בידע שלך כדי להיות מסוגל לפשט אותו כך שאפילו טירון יוכל להבין. אני חושב שזה למעשה אימון נהדר עבור מישהו ללמוד לתקשר מושגים מאוד קשים מחוץ לקיצורי הדרך, הז'רגון והשפה הטכנית הרגילים.

מה נתן השראה לנקודת המבט הספציפית שלך לגבי איך להתחתן עם למידת מכונה וביולוגיה?

אז הבעיה היא לא חדשה, אלא האיטרציה האחרונה של בעיה עתיקת יומין. כאשר השדות של ביולוגיה חישובית וביואינפורמטיקה נוצרו לראשונה, אותה בעיה הייתה קיימת. מדעני מחשב, סטטיסטיקאים, מדעני נתונים, או אפילו פיזיקאים הצטרפו לתחום הביולוגיה והביאו את החשיבה הכמותית שלהם לתחום. במקביל, ביולוגים היו צריכים להתחיל לדגמן מעבר לאפיון גנים כמווסתים מעלה ומווסתים למטה, ולהתחיל לגשת לנתונים בצורה כמותית יותר. הדיגיטציה של נתונים ביולוגיים רק גדלה באופן אקספוננציאלי בקנה מידה. הבעיה חריפה יותר ומרחיבה יותר בהיקפה, אבל האתגרים היסודיים נשארים זהים.

מה אתה רואה בתור מדדי הצלחה או דגלים אדומים שאומרים לך אם הנישואים עובדים או לא?

אם מסתכלים על חברות שמנסות לשלב תחומים, אפשר מהר מאוד לראות כמה הן משקיעות בצד זה או אחר. אז, אם זו חברה שבה 90% מהאנשים הם מדעני מעבדה, ואז הם פשוט שכרו מדען למידת מכונה אחד או שניים והם קוראים לעצמם חברת ML, אז זה כנראה יותר מחשבה שלאחר מכן.

האם יש שיעור אחד שלמדת בכל התהליך הזה של נישואי ביולוגיה ולמידת מכונה?

אני חושב שענווה אינטלקטואלית, במיוחד מגיעה מהצד הטכנולוגי. עם משהו כמו פתרון לחיפוש, למשל, כל המידע כבר נמצא בצורת טקסט שתוכל לגשת אליו בקלות, ואתה יודע מה אתה מחפש. אז זה הופך לבעיה פתירה, נכון? הבעיה בביולוגיה היא שאנחנו אפילו לא יודעים איזה מערכי נתונים אנחנו מחפשים, האם יש לנו בכלל את הפנס המתאים להאיר באזורים הנכונים. 

לכן, לפעמים כשמומחי טכנולוגיה קופצים לביו הם נופלים למלכודת של פשטנות יתר. נניח, כדוגמה, עבור רצף הדור הבא הם עשויים לומר, "וואו. אנחנו יכולים לרצף DNA. למה שלא נבצע רצף של המון המון DNA? זה הופך לבעיית נתונים, ואז אנחנו פותרים ביולוגיה". 

אבל הבעיה היא ש-DNA הוא אחד מעשרות אנליטים שונים בגוף. יש RNA, חלבון,שינויים לאחר תרגום, תאים שונים כגון שלפוחיות תאיות, והבדלים בזמן, מרחב, סוג התא, בין היתר. עלינו להבין את האפשרויות כמו גם את המגבלות של כל שיטת נתונים שאנו משתמשים בה.

למרות שקשה להאמין, ביולוגיה היא עדיין תחום בחיתוליו. אנחנו רק רצף גנום אנושי לפני קצת יותר משני עשורים. רוב הזמן, אנחנו לא יכולים לגשת לאותות ביולוגיים בודדים, אז אנחנו עדיין לוקחים מדידות שהן קונגלומרט או ממוצע על פני הרבה אותות. אנחנו רק מתחילים למדוד תא אחד בכל פעם. יש עדיין הרבה מה לעשות וזו הסיבה שזה זמן מרגש להיכנס לביולוגיה. 

אבל עם הינקות הזו מגיע פוטנציאל גדול לפתור בעיות שיהיו להן השפעות עצומות על בריאות האדם ורווחתו. זו תקופה די מדהימה כי אנחנו פותחים גבולות חדשים של הביולוגיה.

אילו סוגי גבולות? האם יש תחום בביולוגיה או ברפואה שבו אתה הכי מתרגש לראות את השימוש בחישוב?

כן - הכל! אבל תן לי לחשוב. בסרטן, אני מאמין שבתוך הדור שלנו הטיפולים החדשים ומאמצי הגילוי המוקדם שיוצאים יהפכו את הסרטן למחלה כרונית שכבר לא כל כך מפחידה, כמו שעשינו עבור HIV. וכנראה נוכל להשתמש בשיטות דומות מאוד כדי להסתכל על גילוי ומניעת מחלות באופן כללי יותר. הדבר המרכזי שאני מתרגש ממנו הוא שנוכל להתחיל לזהות אם המחלה כבר קיימת לפני הסימפטומים. 

מחוץ לאבחון סרטן, מה שבאמת מגניב הוא המעבר לבנייה עם ביולוגיה במקום רק קריאה וכתיבה. אני נרגש מתחומי הביולוגיה הסינתטית שבהם אנו משתמשים בביולוגיה כטכנולוגיה, בין אם זה CRISPR או פפטידים סינתטיים או נוקלאוטידים סינתטיים. מינוף הביולוגיה ככלי יוצר אפשרויות נרחבות לשנות לחלוטין את התעשיות המסורתיות לייצור משאבים, מחקלאות לאנרגיה. זה באמת זמן מדהים להיות ביולוג!

פורסם ב-5 באוקטובר 2022

טכנולוגיה, חדשנות ועתיד, כפי שסיפרו הבונים אותו.

תודה על ההרשמה.

בדוק בתיבת הדואר הנכנס שלך לקבלת הערת קבלת פנים.

ספוט_ימג

המודיעין האחרון

ספוט_ימג

דבר איתנו

שלום שם! איך אני יכול לעזור לך?