BioBERT: یک مدل نمایشی زبان زیست پزشکی از قبل آموزش دیده برای استخراج متن زیست پزشکی
Article: BioBERT: a pre-trained biomedical language representation model for biomedical text mining
Journal: Bioinformatics
Authors: Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, et al.
Affiliation: Department of Computer Science and Engineering, Korea University, Korea
Year: 2020
Citations: 1169
Link: academic.oup.com/bioinformatics/article/36/4/1234/5566506
چکیده:
استخراج متن زیست پزشکی با رشد سریع تعداد اسناد زیست پزشکی به طور فزاینده ای اهمیت پیدا میکند. با پیشرفت در پردازش زبان طبیعی (NLP) ، استخراج اطلاعات ارزشمند از منابع پزشکی در بین محققان محبوبیت پیدا کرده است، و یادگیری عمیق باعث توسعه مدلهای موثر متن کاوی زیست پزشکی شده است.
با این حال ، استفاده مستقیم از پیشرفتهای موجود در NLP در استخراج متن زیست پزشکی اغلب به دلیل تغییر توزیع کلمه از مجموعه متنهای حوزه کلی به مجموعه متنهای زیست پزشکی، نتایج نامطلوبی به همراه دارد. در این مقاله، بررسی میشود که چگونه میتوان مدل زبان پیش آموزش دیده BERT را برای مجموعه متنهای زیست پزشکی سازگار کرد.
در اینجا روش BioBERT (نمایشگرهای رمزگذار دو طرفه از ترانسفورماتور برای استخراج متن زیست پزشکی) معرفی میشود، که یک مدل نمایش زبان حوزه مشخص است و از قبل بر روی مجموعه متنهای زیست پزشکی در مقیاس بزرگ آموزش دیده است. BioBERT با معماری تقریباً یکسان در بین وظایف، هنگامی که از قبل بر روی مجموعه متنهای زیست پزشکی آموزش دیده، تا حد زیادی از BERT و مدل های پیشرفته قبلی در انواع وظایف استخراج متن زیست پزشکی بهتر عمل میکند. در حالی که BERT عملکردی قابل مقایسه با مدلهای پیشرفته قبلی به دست آورده، BioBERT به طور کلی از آنها در سه وظیفه استخراج متن زیست پزشکی نمایشی زیر بهتر عمل میکند: تشخیص موجودیت (Named-Entity Recognition) زیست پزشکی (0.62٪ بهبود امتیاز F1)، استخراج رابطه (Relation Extraction) زیست پزشکی (2.80٪) بهبود امتیاز F1) و پاسخ به سوالات (Question Answering) زیست پزشکی (12.24٪ بهبود MRR). نتایج تجزیه و تحلیل آنها نشان میدهد که BERT از قبل آموزش دیده بر روی مجموعه متنهای زیست پزشکی کمک میکند تا متون پیچیده زیست پزشکی را درک کنیم.
هدف: استخراج اطلاعات از مقالههای زیست پزشکی با استفاده از ابزارهای متن کاوی
روشهای قبلی:
Sub-tasks of Information Extraction (IE):
- Named Entity Recognition (NER)
- Long Short-Term Memory (LSTM)
- Conditional Random Field (CRF)
- Relation Extraction (RE)
- Question Answering (QA)
Word Representation Models
- Word2Vec (context independent)
- ELMo (pre-trained on only general domain corpora)
- BERT (pre-trained on only general domain corpora)
مشکل روشهای قبلی: تنها بر روی مجموعه متنهایی با حوزه کلی (نه فقط زیست پزشکی) از قبل آموزش دیدهاند.
روش:
- Initialize BioBERT with Weights from BERT, Which Was Pre-Trained on General Domain Corpora (English Wikipedia And Bookscorpus)
- Pre-Trained on Biomedical Domain Corpora (PubMed Abstracts and PMC Full-Text Articles)
- Fine-Tuned and Evaluated on Three Popular Biomedical Text Mining Tasks (NER, RE and QA)
To Show The Effectiveness of The Approach in Biomedical Text Mining

نکته:
BERT (Bidirectional Encoder Representation from Transformers) دو طرفه - متن را از هر دو جهت میخواند. برخلاف مدلهای جهتدار، که ورودی متن را به ترتیب (چپ به راست یا راست به چپ) میخوانند، رمزگذار Transformer کل توالی کلمات را یک باره میخواند.
کاربرد:
موثر در بسیاری از وظایف استخراج متن زیست پزشکی از قبیل تشخیص موجودیت (NER) برای شرح بیماری (clinical notes)، استخراج رابطه (RE) بر روی ژن-فنوتایپ انسانی، و بازههای زمانی وقایع بالینی (clinical temporal)
منبع:
academic.oup.com/bioinformatics/article/36/4/1234/5566506