در فیلمها، دانشمندان به عنوان افراد مسن و با لباسهای سفید در آزمایشگاههایی که مملو از مایعات فلورسنت حبابدار هستند، نشان داده میشوند. اما واقعیت امروزی کاملاً متفاوت است. دانشمندان اکنون به جای نشستن در آزمایشگاههای پر از مایعات فلورسنت، با هودیهای خود در مقابل مانیتورها نشسته و دادههای بزرگی را تجزیه و تحلیل میکنند. آزمایشگاههای امروزی نیز به جای ردیفهایی از دانشمندان، اغلب از رباتهای استریل تشکیل شدهاند که کارهای دستی با مواد را انجام میدهند، و دفترچههای آزمایشگاهی هم اکنون به صورت الکترونیکی و در مراکز داده عظیمی قرار دارند که حجم زیادی از اطلاعات را نگه میدارند. در حال حاضر، دادههای علمی از ابر به دست میآید و الگوریتمها مانند مشعلهای Bunsen زمانی به اکتشافات علمی کمک میکنند.
پیشرفتهای در فناوری و به ویژه ابزارهای دقیق، دانشمندان را قادر به جمعآوری و پردازش دادهها به مقیاس بیسابقهای میسازند. به عبارت دیگر، دانشمندان اکنون با مجموعه دادههای عظیمی سر و کار دارند که برای استخراج بینشهای معنادار نیاز به تکنیکهای تحلیل پیچیده و ابزارهای محاسباتی پیشرفته دارند. این واقعیت همچنین چالشهای مهمی را ایجاد میکند. چگونه میتوان دادههای بزرگ را ذخیره، مدیریت و به اشتراک گذاشت و همچنین اطمینان حاصل کرد که دادهها با کیفیت و قابل اعتماد هستند؟
تاثیر کلان داده بر علم
این رشد در حجم دادهها روش کار دانشمندان را تغییر داده و امکان ایجاد اکتشافات جدید در زمینههای مختلف، به ویژه در تحقیقات ژنوم و پروتئین را فراهم آورده است. این تغییرات باعث ظهور یک نوع جدید از دانشمندان شده است که به عنوان بیوانفورماتیکیها و دانشمندان داده شناخته میشوند و با توسعه و استفاده از الگوریتمها با دادههای بزرگ کار میکنند. در واقع، مشاغلی مانند "دانشمند داده" در چند سال اخیر در صدر لیست مشاغل مطلوب در سایتهای شغلی قرار داشته است. با این حال، در حالی که تقاضا برای متخصصان ماهر در کار با دادههای بزرگ در اوج خود است، مشکل کمبود تخصص مشهود است.
افزون بر این، در علوم پزشکی و دیگر زمینهها، حجم و تنوع دادههای جمعآوریشده برای پاسخ به سوالات تحقیقاتی در حال افزایش است. به عبارت دیگر، دادههای فلوسیتومتری از نوعی کاملاً متفاوت نسبت به دادههای توالی DNA هستند و این دو دسته داده به طور کاملاً متفاوت مورد استفاده قرار میگیرند. ابزارها و الگوریتمهایی که برای یک نوع داده مناسب هستند، برای نوع دیگر کارایی ندارند. انعطاف پذیری در ذخیرهسازی دادهها و مدلسازی آنها برای استفاده مجدد از اهمیت بسیاری برخوردار است. این ویژگی به ویژه در علم پیشبینی مهم است، زیرا در آن نیاز به یکپارچهسازی دادهها و انواع دادههایی داریم که به فرضیات اصلی هیچ یک از مطالعات اصلی مرتبط نیستند. این مساله به ویژه در دوره توسعه داروهایی با ارزشهای مالی بسیار بالا مانند صدها میلیون دلار یا بیشتر که برای پیشبینی نشانگرهای جدید برای عوارض جانبی نادر در زیرمجموعههای کمی از بیماران مورد نیاز است، اهمیت دارد.
روی آوردن به یادگیری ماشین و هوش مصنوعی
فناوری میتواند مانند یک چراغ قوی عمل کند و الگوها و دیدگاههای مخفی در دادههای بسیار را برملا کند. این به ما این امکان را میدهد که چیزهایی را که قبلاً تاریک بودند ببینیم و درک کنیم. به همین دلیل، با وجود بحرانهای اخیر مانند ایجاد genAI مانند ChatGPT که به شدت در چشماندازها دخالت کرده و ترس از مخاطرات ممکن را برانگیخته است، در زمینه کشف دارو فرصتهای زیادی برای استفاده از هوش مصنوعی (AI) و یادگیری ماشینی (ML) وجود دارد که میتواند تأثیر مثبت و معنیداری داشته باشد.
به عنوان مثال، در طول شیوع کووید-۱۹، فرصتی به دست آمد که با تیم سازنده بازی EVE Online همکاری کنم و Project Discovery – Flow Cytometry را ایجاد کنم، یک بازی کوچک رایگان که به هزاران بازیکن اجازه داد شهروند دانشمند شوند. با استفاده از دادههای نمونههای سلولی بیماران مبتلا به کووید-۱۹ و بیماریهای دیگر، بازیکنان آموزش دیدند که چگونه الگوهای مختلف سلولی را با استفاده از فناوری فلوسیتومتری تشخیص دهند. این بازی با انگیزهها و رتبهبندیها برای جذابیت و چالش برانگیز شدن طراحی شده بود، اما بسیاری از بازیکنان احساس خوشحالی و رضایت از شرکت در تحقیقات علمی ابراز کردند، به ویژه از نظر تجربیات خود.
تا به امروز، بازیکنان میلیونها پازل را حل کردهاند که معادل صدها سال تلاش انسانی است. تمام دادههای این پروژه به صورت رایگان برای علم باز در دسترس قرار خواهد گرفت. شرکتهایی مانند Dotmatics میتوانند از این دادهها برای توسعه روشهای ML برای تحلیل دادههای فلوسیتومتری استفاده کنند که منجر به پیشرفتهای پزشکی سریعتر، ارزانتر و مهمتر میشود.
امروزه، هر دو ML و AI در سراسر جهان در بسیاری از آزمایشگاهها و دانشگاهها برای تسریع اکتشافات مورد استفاده قرار میگیرند. مرکز تحقیقات سرطان انستیتوی ملی سرطان (NCI) الگوریتمهای یادگیری عمیق را برای بهبود تشخیص سرطان در افرادی که علائم دارند توسعه داده است. به عنوان مثال، یک مدل میتواند به عنوان "یک متخصص مجازی" عمل کند، MRIها را در انواع سرطانهایی که به سختی قابل تشخیص هستند، مرور کند، رادیولوژیستهای کمتجربه را راهنمایی کند و میزان خطا را به حداقل برساند. به طور مشابه، هوش مصنوعی در دانشگاه تورنتو برای پیشبینی خطر آلزایمر، توسط دانشگاه راتگرز برای پیشبینی بیماریهای قلبی عروقی و توسط صدها استارتآپ با استفاده از فناوری پیشرفته برای طراحی داروهای ارزانتر و ایمنتر با عوارض جانبی کمتر استفاده میشود.
پیچیدگیهای دادههای بزرگ و نیاز به عادلانهکردن آنها، میتواند مشکل برای محققان در تولید مجموعه دادههای بزرگ مورد نیاز هوش مصنوعی باشد. تلاشهایی مانند اصول FAIR برای مدیریت و سرپرستی دادههای علمی، دستورالعملهایی را ارائه میدهند تا قابلیت دسترسی، قابلیت همکاری، و استفاده مجدد از داراییهای دیجیتال را بهبود بخشند. این اصول به شدت مورد پذیرفته میشوند و حتی اجباری میشوند توسط سازمانهای اعطا اعمال شوند.
در حالی که روشهای سنتی علم همچنان اهمیت دارند و از ظرف و شیمی همچنان استفاده میشود، دانشمندان فردا قادر به کاوش در دنیای اطراف ما و تحقیق در مناطقی که از نظر اقتصادی غیرقابل دسترسی بودهاند و همچنین تحقیقات پیشرفته در زمینههای مختلف خواهند بود. با این حال، برای بهرهبرداری حقیقی از قدرت هوش مصنوعی، باید به بهبود زیرساختها برای یکپارچهسازی، تجزیه و تحلیل، و استفاده مجدد از دادههایی که به مرزهای جدید اکتشافات علمی تبدیل شدهاند، سرمایهگذاری کنیم.