یک رویکرد یادگیری انتقالی از طریق تحلیل پروکروستس و تغییر میانگین برای پیش بینی حساسیت داروی سرطان
Article: A transfer learning approach via Procrustes analysis and mean shift for cancer drug sensitivity prediction
Journal: Journal of Bioinformatics and Computational Biology
Authors: Turki Turki, Zhi Wei, and Jason T. L. Wang
Affiliation: Department of Computer Science, King Abdulaziz University, Saudi Arabia
Department of Computer Science, New Jersey Institute of Technology Newark, USA
Year: 2018
Citations: 19
Link: worldscientific.com/doi/abs/10.1142/S0219720018400140
چکیده:
الگوریتمهای یادگیری انتقالی (Transfer Learning) قصد دارد عملکرد پیشبینی در یک کار هدف (به عنوان مثال پیشبینی حساسیت سیسپلاتین در بیماران سرطان پستان سهگانه-منفی)را از طریق انتقال دانش از دادههای کمکی یک کار مربوطه (به عنوان مثال پیشبینی حساسیت دوسهتاکسل در بیماران سرطان پستان)، در جایی که توزیع و حتی فضای ویژگی دادههای مربوط به وظایف میتواند متفاوت باشد، بهبود بخشد. در برنامههای دنیای واقعی، بعضی اوقات ما یک مجموعه داده آموزش محدود در یک کار هدف داریم در حالی که دادههای کمکی مربوط به یک کار مرتبط هم را داریم. برای به دست آوردن عملکرد پیشبینی بهتر در کار هدف، یادگیری نظارت شده نیاز به یک مجموعه داده آموزش به اندازه کافی بزرگ در کار هدف دارد تا بتواند در پیشبینی نمونههای آزمایشی آینده کار هدف، عملکرد خوبی داشته باشد.
در این مقاله، یک روش یادگیری انتقالی TL برای پیشبینی حساسیت دارویی سرطان پیشنهاد میشود، که این رویکرد سه روش را ترکیب میکند. ابتدا، یک نماینده از زیرمجموعهای از مثالها را از دادههای کمکی یک کار مربوطه به یک نماینده نزدیک به مجموعه داده آموزش هدف یک کار هدف تغییر میکند. دوم، نمایش تغییریافته نمونههای منتخب دادههای کمکی را با مجموعه داده آموزش هدف تراز میشود تا نمونههایی با یک نمایش تراز شده با مجموعه داده آموزش هدف بدست آورده شود. سوم، الگوریتمهای یادگیری ماشین را با استفاده از مجموعه داده آموزش هدف و مثالهای تراز شده آموزش داده میشود. عملکرد این رویکرد در برابر رویکردهای پایه با استفاده از مساحت زیر منحنی (AUC) مشخصه عملکرد سیستم (ROC) در مجموعه دادههای آزمایش بالینی واقعی مربوط به مولتیپل میلوما، سرطان ریه سلول غیر-کوچک، سرطان پستان سهگانه-منفی و سرطان پستان ارزیابی میشود. نتایج تجربی نشان میدهد که این روش از نظر عملکرد و اهمیت آماری بهتر از رویکردهای پایه است.
هدف: پیشبینی حساسیت یا مقاومت سرطان به دارو ( یا پیشبینی نتیجه بالینی)
ورودی:
مجموعه داده آموزش هدف (دادههای بیان رده سلولی برای به مولتیپل میلوما)
دادههای کمکی (دادههای بیان رده سلولی برای سرطان پستان)
خروجی:
پاسخدهنده یا پاسخ ندهنده به یک داروی سرطان داده شده
روشهای قبلی:
- CANScript (Tumor Ecosystems + Machine Learning Algorithms)
- Riddick (Gene Expression Signatures of Cancer Cell Lines + Random Forests)
- Costello (Genomic, Proteomic, and Epigenomic Profiling Data of Cancer Cell Lines)
- Geeleher (Microarray Data for the Training of Cancer Cell Lines)
مشکل روشهای قبلی: پیش فرض اشتباه (مجموعه دادههای آموزش و تست در فضای ویژگی و توزیع یکسان قرار دارند) به دلیل داشتن مجموعه دادههای آموزش محدود
روش:
(1) Changing the Representation of a Subset of Examples from Auxiliary Data of a Related Task to a New Representation That is Closer to a Target Training Set of a Target Task Using a Modified Version of a Mean Shift Algorithm
(2) Aligning the Subset of Examples from the Auxiliary Data with the Target Training Set by Employing Procrustes Analysis (PA)
(3) Combining the Target Training Set with the Subset of Examples from Auxiliary Data
الگوریتمهای یادگیری ماشین به کار رفته در این روش:
- Support Vector Regression (SVR)
- Linear Ridge Regression (RR)
- Logistic Ridge Regression (LR)
- Support Vector Machines (SVM)
منبع: