هوش مصنوعی (AI) در چند سال گذشته تحولات بزرگی در حوزه پزشکی ایجاد کرده است. این تکنولوژی دقت در تشخیص تصاویر پزشکی را افزایش داده، به توسعه درمانهای شخصی از طریق تحلیل دادههای ژنومی کمک کرده و با بررسی دادههای بیولوژیکی، سرعت کشف داروها را بیشتر کرده است. اما با وجود این پیشرفتهای چشمگیر، بیشتر برنامههای کاربردی هوش مصنوعی امروزی محدود به استفاده از یک نوع داده مانند سیتی اسکن یا اطلاعات ژنتیکی برای انجام وظایف خاصی هستند. این روش تکمحوری کاملاً با شیوه کار پزشکان متفاوت است، زیرا پزشکان دادهها را از منابع مختلف ترکیب میکنند تا شرایط بیمار را تشخیص دهند، نتایج را پیشبینی کنند و برنامههای درمانی جامع ایجاد کنند.
برای اینکه هوش مصنوعی بتواند به طور واقعی از پزشکان، محققان و بیماران در کارهایی مانند تولید گزارشهای رادیولوژی، تحلیل تصاویر پزشکی و پیشبینی بیماریها از دادههای ژنومی حمایت کند، باید بتواند با استفاده از دادههای چندگانه و پیچیده مانند متن، تصاویر، ویدئوها و پروندههای سلامت الکترونیک (EHRs) وظایف متنوع پزشکی را انجام دهد. اما ساخت این سیستمهای هوش مصنوعی چندوجهی در پزشکی چالشبرانگیز است زیرا هوش مصنوعی هنوز ظرفیت محدودی برای مدیریت انواع دادههای متنوع دارد و همچنین مجموعه دادههای زیستپزشکی جامع کافی در دسترس نیست.
نیاز به هوش مصنوعی پزشکی چندوجهی
مراقبتهای بهداشتی شبکهای پیچیده از منابع دادههای به هم پیوسته است که از تصاویر پزشکی تا اطلاعات ژنتیکی را شامل میشود و متخصصان مراقبتهای بهداشتی از آن برای درک و درمان بیماران استفاده میکنند. اما سیستمهای هوش مصنوعی سنتی اغلب روی وظایف خاصی با انواع دادههای منفرد تمرکز میکنند که توانایی آنها را برای ارائه نمای کلی از وضعیت بیمار محدود میسازد. این سیستمهای هوش مصنوعی تکوجهی به مقادیر زیادی از دادههای برچسبگذاری شده نیاز دارند که تهیه آنها میتواند پرهزینه باشد و در عین حال دامنه محدودی از قابلیتها را ارائه میدهند و در یکپارچهسازی بینشها از منابع مختلف با چالشهایی روبرو هستند.
هوش مصنوعی چندوجهی میتواند با ارائه دیدگاهی جامع که اطلاعات منابع مختلف را ترکیب میکند و درک دقیقتر و کاملتری از سلامت بیمار ارائه میدهد، بر چالشهای سیستمهای هوش مصنوعی پزشکی موجود غلبه کند. این رویکرد یکپارچه با شناسایی الگوها و همبستگیهایی که ممکن است در تجزیه و تحلیل هر روش بهطور مستقل نادیده گرفته شوند، دقت تشخیص را افزایش میدهد. علاوه بر این، هوش مصنوعی چندوجهی، یکپارچهسازی دادهها را بهبود میبخشد و به متخصصان مراقبتهای بهداشتی امکان دسترسی به دیدگاه واحدی از اطلاعات بیمار را میدهد که همکاری و تصمیمگیری آگاهانه را تقویت میکند. سازگاری و انعطافپذیری این نوع هوش مصنوعی، آن را برای یادگیری از انواع دادهها، سازگاری با چالشهای جدید و تکامل همراه با پیشرفتهای پزشکی، مجهز میسازد.
معرفی Med-Gemini
پیشرفتهای اخیر در مدلهای هوش مصنوعی چندوجهی، یک انقلاب در توسعه سیستمهای پیچیده هوش مصنوعی پزشکی به وجود آورده است. رهبران این جنبش شامل گوگل و دیپمایند هستند که با مدل پیشرفته خود به نام مد-ژمینی (Med-Gemini)، از عملکرد استثنایی خود در ۱۴ شاخص صنعتی اطلاع دادهاند و از رقبایی همچون GPT-4 OpenAI جلوگیری کردهاند. مد-ژمینی بر پایه خانواده مدلهای چندوجهی بزرگ گمینی (LMM) از گوگل دیپمایند ساخته شده است که برای درک و تولید محتوا در قالبهای مختلف از جمله متن، صدا، تصویر و ویدیو طراحی شده است.
برخلاف مدلهای چندوجهی سنتی، گمینی دارای معماری منحصربهفرد Mixture-of-Experts (MoE) با مدلهای ترانسفورماتور تخصصی است که در مدیریت بخشهای داده یا وظایف خاص مهارت دارند. در زمینه پزشکی، این به این معناست که گمینی میتواند به صورت پویا با مناسبترین متخصص بر اساس نوع دادههای دریافتی، چه تصویر رادیولوژی، توالی ژنتیکی، سابقه بیمار یا یادداشتهای بالینی باشد. این تنظیم منعکس کننده رویکرد چند رشتهای است که پزشکان از آن استفاده میکنند و توانایی مدل را برای یادگیری و پردازش کارآمد اطلاعات افزایش میدهد.
تنظیمات هوش مصنوعی پزشکی چندوجهی
برای ایجاد مد-ژمینی (Med-Gemini)، محققان، مدل ژمینی (Gemini) را با استفاده از مجموعه دادههای پزشکی ناشناس تنظیم کردند. این کار به مد-ژمینی این امکان را میدهد تا قابلیتهای اصلی ژمینی، از جمله مکالمه زبانی، استدلال با دادههای چندوجهی و مدیریت زمینههای طولانیتر را برای وظایف پزشکی به ارث ببرد. محققان سه نسخه سفارشی از رمزگذار بینایی ژمینی را برای انواع مختلف دادهها، از جمله مدالیتههای دو بعدی، روشهای سه بعدی و ژنومیکس، آموزش دادند. این فرآیند شبیه به تربیت متخصصان در زمینههای مختلف پزشکی است. این آموزش منجر به توسعه سه نوع خاص از مد-ژمینی شده است: مد-ژمینی-2D، مد-ژمینی-3D و مد-ژمینی-پلیژنیک.
Med-Gemini-2D
Med-Gemini-2D یک مدل است که برای مدیریت تصاویر پزشکی معمولی مانند اشعه ایکس قفسه سینه، برش های سی تی، چسب های آسیب شناسی و تصاویر دوربین آموزش دیده است. این مدل در فعالیتهایی مانند طبقهبندی، پاسخ به سؤالات بصری و تولید متن برتری دارد. به عنوان مثال، با توجه به یک عکس از اشعه ایکس قفسه سینه و سؤالی مانند "آیا این عکس نشانگر نشانههای رشد سرطانی است؟"، Med-Gemini-2D میتواند پاسخ دقیقی ارائه دهد. پژوهشگران روند آزمایشی نشان دادند که نسخه بهبود یافته Med-Gemini-2D به نسبت 1 تا 12 درصد بهبود در تولید گزارش با استفاده از هوش مصنوعی برای اشعه ایکس قفسه سینه داشته و گزارشهایی تولید کرده است که "معادل یا بهتر" از گزارشهای رادیولوژیستها بوده است.
With-Gemini-3D
با پیشرفت قابلیتهای Med-Gemini-2D، یک مدل جدید به نام Med-Gemini-3D برای تفسیر دادههای پزشکی سه بعدی مانند اسکن CT و MRI آموزش دیده است. این اسکنها تصویر جامعی از ساختارهای تشریحی بدن را نشان میدهند که نیاز به درک عمیقتر و تکنیکهای تحلیلی پیشرفتهتر دارند. قابلیت تحلیل اسکنهای سه بعدی با استفاده از دستورالعملهای متنی، بهبود قابل توجهی در تشخیص تصاویر پزشکی ایجاد میکند. ارزیابیها نشان دادهاند که بیش از نیمی از گزارشهای تولید شده توسط Med-Gemini-3D به توصیههای مراقبتی مشابه با رادیولوژیستها منجر شده است.
Med-Gemini-Polygenic
Med-Gemini-Polygenic یک نوع خاص از Med-Gemini است که به پیشبینی بیماریها و عوارض سلامتی براساس دادههای ژنومی میپردازد. در عین حال که سایر نسخههای Med-Gemini بر روی تصاویر پزشکی تمرکز دارند، Med-Gemini-Polygenic برای تحلیل دادههای ژنومی طراحی شده است. پژوهشگران ادعا میکنند که این مدل اولین مدل خودش را میباشد که با استفاده از دستورالعملهای متنی به تجزیه و تحلیل دادههای ژنومی میپردازد. آزمایشها نشان میدهند که این مدل در پیشبینی هشت عارضه سلامتی، از جمله افسردگی، سکته مغزی و گلوکوم، نسبت به مدلهای پلی ژنیک خطی قبلی بهبود چشمگیری داشته است. به طور قابلتوجهی، این مدل نیز توانایی پیشبینی احتمال بروز عوارض صفر را داراست و بدون نیاز به آموزش صریح، نتایج بهتری در زمینه سلامتی ارائه میدهد. این پیشرفت در تشخیص بیماریهایی مانند بیماری عروق کرونر، COPD و دیابت نوع 2 بسیار مهم است.
ایجاد اعتماد و تضمین شفافیت
علاوه بر پیشرفتهای چشمگیری که در مدیریت دادههای پزشکی چندوجهی داشته است، Med-Gemini قابلیتهای تعاملی دارد که میتواند چالشهای اصلی مربوط به پذیرش هوش مصنوعی در حوزه پزشکی، مانند ماهیت مبهم هوش مصنوعی و نگرانیهای مرتبط با جایگزینی شغل را برطرف کند. به طور متفاوت از سیستمهای هوش مصنوعی معمولی که به صورت مستقل عمل میکنند و به عنوان جایگزینی برای انسان استفاده میشوند، Med-Gemini به عنوان یک ابزار همکار برای متخصصان مراقبتهای بهداشتی عمل میکند. با افزایش توانایی تجزیه و تحلیل خود، Med-Gemini ترس از جابجایی شغلی را کاهش میدهد. قابلیت آن در ارائه توضیحات دقیق از تجزیه و تحلیلها و توصیههای خود باعث افزایش شفافیت میشود و به پزشکان اجازه میدهد تصمیمات هوش مصنوعی را درک و تأیید کنند. این شفافیت باعث ایجاد اعتماد در میان متخصصان مراقبتهای بهداشتی میشود. علاوه بر این، Med-Gemini از نظارت انسانی پشتیبانی میکند و تضمین میکند که بینشهای ایجاد شده توسط هوش مصنوعی توسط متخصصان بررسی و تایید میشوند، و محیطی مشترک را تقویت میکند که در آن هوش مصنوعی و متخصصان پزشکی با هم برای بهبود مراقبت از بیمار کار میکنند.
برنامه مسیری برای دنیای واقعی
اگرچه Med-Gemini پیشرفتهای قابل توجهی را نشان داده است، اما هنوز در مرحله تحقیقاتی قرار دارد و قبل از استفاده در عملیات واقعی، نیاز به اعتبارسنجی پزشکی کامل دارد. برای اطمینان از قابلیت اعتمادپذیری، ایمنی و کارایی این مدل در تنظیمات بالینی مختلف، آزمایشهای بالینی دقیق و گسترده لازم است. محققان باید عملکرد Med-Gemini را در شرایط پزشکی و جمعیتشناسی متنوع تأیید کنند تا از استحکام و قابلیت تعمیم آن مطمئن شوند. همچنین، تأییدیههای نظارتی از سازمانهای بهداشتی لازم است تا اطمینان حاصل شود که این مدل با استانداردهای پزشکی و دستورالعملهای اخلاقی سازگار است. تلاش مشترک بین توسعهدهندگان هوش مصنوعی، متخصصان پزشکی و نهادهای نظارتی برای بهبود Med-Gemini، رفع هرگونه محدودیت و ایجاد اعتماد در استفاده بالینی آن بسیار اهمیت دارد.