Article: A transfer learning approach via Procrustes analysis and mean shift for cancer drug sensitivity prediction

Journal: Journal of Bioinformatics and Computational Biology

Authors: Turki Turki, Zhi Wei, and Jason T. L. Wang

Affiliation: Department of Computer Science, King Abdulaziz University, Saudi Arabia

                    Department of Computer Science, New Jersey Institute of Technology Newark, USA

Year: 2018

Citations: 19

Link: worldscientific.com/doi/abs/10.1142/S0219720018400140

 

چکیده:

الگوریتم‌های یادگیری انتقالی (Transfer Learning) قصد دارد عملکرد پیش‌بینی در یک کار هدف (به عنوان مثال پیش‌بینی حساسیت سیس‌پلاتین در بیماران سرطان پستان سه‌گانه-منفی)را از طریق انتقال دانش از داده‌های کمکی یک کار مربوطه (به عنوان مثال پیش‌بینی حساسیت دوسه‌تاکسل در بیماران سرطان پستان)، در جایی که توزیع و حتی فضای ویژگی داده‌های مربوط به وظایف می‌تواند متفاوت باشد، بهبود بخشد. در برنامه‌های دنیای واقعی‌، بعضی اوقات ما یک مجموعه داده آموزش محدود در یک کار هدف داریم در حالی که داده‌های کمکی مربوط به یک کار مرتبط هم را داریم. برای به دست آوردن عملکرد پیش‌بینی بهتر در کار هدف، یادگیری نظارت شده نیاز به یک مجموعه داده آموزش به اندازه کافی بزرگ در کار هدف دارد تا بتواند در پیش‌بینی نمونه‌های آزمایشی آینده کار هدف، عملکرد خوبی داشته باشد.

در این مقاله، یک روش یادگیری انتقالی TL برای پیش‌بینی حساسیت دارویی سرطان پیشنهاد می‌شود، که این رویکرد سه روش را ترکیب می‌کند. ابتدا، یک نماینده از زیرمجموعه‌ای از مثال‌ها را از داده‌های کمکی یک کار مربوطه به یک نماینده نزدیک به مجموعه داده آموزش هدف یک کار هدف تغییر می‌کند. دوم، نمایش تغییر‌یافته نمونه‌های منتخب داده‌های کمکی را با مجموعه داده آموزش هدف تراز می‌شود تا نمونه‌هایی با یک نمایش تراز شده با مجموعه داده آموزش هدف بدست آورده شود. سوم، الگوریتم‌های یادگیری ماشین را با استفاده از مجموعه داده آموزش هدف و مثال‌های تراز شده آموزش داده می‌شود. عملکرد این رویکرد در برابر رویکردهای پایه با استفاده از مساحت زیر منحنی (AUC) مشخصه عملکرد سیستم (ROC) در مجموعه داده‌های آزمایش بالینی واقعی مربوط به مولتیپل میلوما، سرطان ریه سلول غیر-کوچک، سرطان پستان سه‌گانه-منفی و سرطان پستان ارزیابی می‌شود. نتایج تجربی نشان می‌دهد که این روش از نظر عملکرد و اهمیت آماری بهتر از رویکردهای پایه است.

 

هدف: پیش‌بینی حساسیت یا مقاومت سرطان به دارو ( یا پیش‌بینی نتیجه بالینی)

ورودی:

مجموعه داده آموزش هدف (داده‌های بیان رده سلولی برای به مولتیپل میلوما)

داده‌های کمکی (داده‌های بیان رده سلولی برای سرطان پستان)

خروجی:

 پاسخ‌دهنده یا پاسخ ندهنده به یک داروی سرطان داده شده

روش‌های قبلی:

  • CANScript (Tumor Ecosystems + Machine Learning Algorithms)
  • Riddick (Gene Expression Signatures of Cancer Cell Lines + Random Forests)
  • Costello (Genomic, Proteomic, and Epigenomic Profiling Data of Cancer Cell Lines)
  • Geeleher (Microarray Data for the Training of Cancer Cell Lines)

 

مشکل روش‌های قبلی: پیش فرض اشتباه (مجموعه داده‌های آموزش و تست در فضای ویژگی و توزیع یکسان قرار دارند) به دلیل داشتن مجموعه داده‌های آموزش محدود

 

روش:

(1) Changing the Representation of a Subset of Examples from Auxiliary Data of a Related Task to a New Representation That is Closer to a Target Training Set of a Target Task Using a Modified Version of a Mean Shift Algorithm

(2) Aligning the Subset of Examples from the Auxiliary Data with the Target Training Set by Employing Procrustes Analysis (PA)

(3) Combining the Target Training Set with the Subset of Examples from Auxiliary Data

الگوریتم‌های یادگیری ماشین به کار رفته در این روش:

  • Support Vector Regression (SVR)
  • Linear Ridge Regression (RR)
  • Logistic Ridge Regression (LR)
  • Support Vector Machines (SVM)

منبع:

worldscientific.com/doi/abs/10.1142/S0219720018400140