Research topic: Graph-based biomedical text summarization
Paper: MultiGBS
موضوع رساله دکترا:
خلاصهسازی مبتنی بر گراف متون زیست پزشکی
امروزه به دلیل گسترش اینترنت و پیشرفت فناوری اطلاعات و بهکارگیری وسیع آنها در حوزه زیست پزشکی، با حجم وسیعی از دادههای متنی در این حوزه روبهرو هستیم. کاربران و پژوهشگران برای دستیابی و یافتن اطلاعات مفید و مناسب با حجم انبوه اطلاعات روبهرو بوده و نیاز به جستجو در پایگاههای بزرگی از دادههای مرتبط و غیر مرتبط را دارند که علاوه بر صرف زمان، منجر به از دست دادن اطلاعات مفید نیز میشود. سیستمهای خلاصهساز بهعنوان یک راهحل برای تولید چکیدهای از اطلاعات استفاده میشوند. هدف از خلاصهسازی متن، تولید خودکار زیرمجموعهای کوتاه از متن اصلی است که حاوی عمده اطلاعات و موضوعات مهم واصلی بوده و درعینحال فاقد افزونگی باشد.
روشهای گوناگونی برای خلاصهسازی متون در دامنههای عمومی و پزشکی مطرح شده است. روشهای خلاصهسازی عمومی عملکرد مطلوبی در دامنهی پزشکی ندارند. زیرا متون پزشکی شامل مفاهیم خاص و پیچیده، مترادفها، کلمات کوتاه شده و اختصارها است. در روشهای گذشته از مفاهیمی چون یادگیری ماشین، مدلسازی گراف، بهینهسازی و روشهای آماری در خلاصهسازی سیستمهای پزشکی استفاده شده است. نتایج حاصل از بهکارگیری روشهای مختلف نشان داده است که استفاده از دانش زمینهای و بهرهگیری از مفاهیم تخصصی هر حوزه به تولید خلاصههایی با دقت بیشتر کمک میکند. استفاده از گرافهای ساده و نگاه تکبعدی به روابط موجود در متن از جمله نقاط ضعف روشهای پیشین مبتنی بر گراف است. اولین گام بهمنظور بهبود روشهای قبلی، ساخت گراف غنیتری باشد که تا حد امکان، روابط و ویژگیهای مختلف و تأثیرگذار متن را پوشش دهد.
هدف از این پژوهش ارائهی روشی برای خلاصهسازی متون پزشکی با استفاده از روشی مبتنی بر گراف چندلایه است. در مرحلهی نخست، با استفاده از مفاهیم معنایی و گرافهای چندلایه، از متون دادهشده گراف جامعی ایجادشده است. برای این کار از پایگاه داده UMLS در کنار ابزارهایی مانند MetaMap و OGER برای استخراج مفاهیم و SemRep برای شناسایی روابط استفاده شده است. درنهایت خروجی این مرحله یک گراف سه لایه؛ شامل لایههای 1) شباهت مبتنی بر کلمات، 2) شباهت مبتنی بر مفاهیم معنایی و 3) شباهت مبتنی بر هم رخدادی واژگان است.
روشهای مختلفی برای خوشهبندی و امتیازدهی جملات بر اساس گرافهای چندلایه بررسی شدند. در این مرحله، روشهایی انتخاب شدند که با حفظ روابط و اطلاعات استخراج شده از متن، خروجی غنیتری را تولید کنند. در این مرحله از دو رویکرد مختلف خوشهبندی و رتبهبندی استفاده شده است. در رویکرد خوشهبندی، با بهرهگیری از روشهای خوشهبندی گرافهای چندلایه، خوشههای مختلفی از جملات ساختهشده است. در ادامهِ با استفاده از هیوریستیکهای مختلف، جملات خروجی از خوشههای متفاوت استخراج شده است. در تعریف هیوریستیکها تلاش شده است تا ویژگیهای آماری بهعنوان یک پارامتر در انتخاب جملات تأثیرگذار باشد. در رویکرد رتبهبندی جملات، گراف چندلایه ساخته شده بدون نیاز به خوشهبندی و بر اساس روشهای متکی به PageRank رتبهبندی شده و دو نسخهی مختلف بر مبنای این رویکرد ارائه شده است. در نسخهی اول، جملاتی که در بالای لیست خروجی الگوریتم رتبهبندی هستند بهعنوان متن خلاصه انتخاب میشوند. در نسخهی دوم، طول جملات بر اساس تعداد مفاهیم محاسبه شده و بهعنوان یک پارامتر تأثیرگذار برای انتخاب جملات به روش پیشنهادی اضافه میشود.
برای ارزیابی روش پیشنهادی از رویکردها و ابزارهای رایج در این حوزه بهره گرفته شده است. از معروفترین روشها، معیارهای استاندارد ROUGE و BertScore میباشند که در آنها متن خلاصه تولید شده با چکیدهی مقاله بهعنوان خلاصهی طلایی مقایسه و امتیازدهی میشود. نتایج ارزیابی با روشها و استفاده از هیوریستیکهای مختلف و میزان بهبود گزارششده است.
کلمات کليدی: خلاصهسازی متن، گرافهای ناهمگن، خوشهبندی گرافهای ناهمگن، رتبهبندی گرافهای ناهمگن