Article: BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Journal: Bioinformatics

Authors: Jinhyuk Lee, Wonjin Yoon, Sungdong Kim, et al.

Affiliation: Department of Computer Science and Engineering, Korea University, Korea

Year: 2020

Citations: 1169

Link: academic.oup.com/bioinformatics/article/36/4/1234/5566506

چکیده:

استخراج متن زیست پزشکی با رشد سریع تعداد اسناد زیست پزشکی به طور فزاینده ای اهمیت پیدا می‌کند. با پیشرفت در پردازش زبان طبیعی (NLP) ، استخراج اطلاعات ارزشمند از منابع پزشکی در بین محققان محبوبیت پیدا کرده است، و یادگیری عمیق باعث توسعه مدل‌های موثر متن کاوی زیست پزشکی شده است.

با این حال ، استفاده مستقیم از پیشرفت‌های موجود در NLP در استخراج متن زیست پزشکی اغلب به دلیل تغییر توزیع کلمه از مجموعه متن‌های حوزه کلی به مجموعه متن‌های زیست پزشکی، نتایج نامطلوبی به همراه دارد. در این مقاله، بررسی می‌شود که چگونه می‌توان مدل زبان پیش آموزش دیده BERT را برای مجموعه متن‌های زیست پزشکی سازگار کرد.

در اینجا روش BioBERT (نمایشگرهای رمزگذار دو طرفه از ترانسفورماتور برای استخراج متن زیست پزشکی) معرفی می‌شود، که یک مدل نمایش زبان حوزه مشخص است و از قبل بر روی مجموعه متن‌های زیست پزشکی در مقیاس بزرگ آموزش دیده است. BioBERT با معماری تقریباً یکسان در بین وظایف، هنگامی که از قبل بر روی مجموعه متن‌های زیست پزشکی آموزش دیده، تا حد زیادی از BERT و مدل های پیشرفته قبلی در انواع وظایف استخراج متن زیست پزشکی بهتر عمل میکند. در حالی که BERT عملکردی قابل مقایسه با مدل‌های پیشرفته قبلی به دست آورده، BioBERT به طور کلی از آنها در سه وظیفه استخراج متن زیست پزشکی نمایشی زیر بهتر عمل می‌کند: تشخیص موجودیت (Named-Entity Recognition) زیست پزشکی (0.62٪ بهبود امتیاز F1)، استخراج رابطه (Relation Extraction) زیست پزشکی (2.80٪) بهبود امتیاز F1) و پاسخ به سوالات (Question Answering) زیست پزشکی (12.24٪ بهبود MRR). نتایج تجزیه و تحلیل آن‌ها نشان می‌دهد که BERT از قبل آموزش دیده بر روی مجموعه متن‌های زیست پزشکی کمک می‌کند تا متون پیچیده زیست پزشکی را درک کنیم.

 

هدف: استخراج اطلاعات از مقاله‌های زیست پزشکی با استفاده از ابزارهای متن کاوی

روش‌های قبلی:

Sub-tasks of Information Extraction (IE):

  • Named Entity Recognition (NER)
  • Long Short-Term Memory (LSTM)
  • Conditional Random Field (CRF)
  • Relation Extraction (RE)
  • Question Answering (QA)

Word Representation Models

  • Word2Vec (context independent)
  • ELMo (pre-trained on only general domain corpora)
  • BERT (pre-trained on only general domain corpora)

مشکل روش‌های قبلی: تنها بر روی مجموعه متن‌هایی با حوزه کلی (نه فقط زیست پزشکی)  از قبل آموزش دیده‌اند.

روش:

  1. Initialize BioBERT with Weights from BERT, Which Was Pre-Trained on General Domain Corpora (English Wikipedia And Bookscorpus)
  2. Pre-Trained on Biomedical Domain Corpora (PubMed Abstracts and PMC Full-Text Articles)
  3. Fine-Tuned and Evaluated on Three Popular Biomedical Text Mining Tasks (NER, RE and QA)

To Show The Effectiveness of  The Approach in Biomedical Text Mining

 

Overview of the pre-training and fine-tuning of BioBERT
Overview of the pre-training and fine-tuning of BioBERT

نکته:

BERT (Bidirectional Encoder Representation from Transformers) دو طرفه - متن را از هر دو جهت می‌خواند. برخلاف مدل‌های جهت‌دار، که ورودی متن را به ترتیب (چپ به راست یا راست به چپ) می‌خوانند، رمزگذار Transformer کل توالی کلمات را یک باره می‌خواند.

 

کاربرد:

موثر در بسیاری از وظایف استخراج متن زیست پزشکی از قبیل تشخیص موجودیت (NER) برای شرح بیماری (clinical notes)، استخراج رابطه (RE) بر روی ژن-فنوتایپ انسانی، و بازه‌های زمانی وقایع بالینی (clinical temporal)

 

منبع:

academic.oup.com/bioinformatics/article/36/4/1234/5566506