وقتی به رفع موانع ارتباطی فکر میکنیم، معمولاً بر روی برنامههای ترجمه زبان یا دستیارهای صوتی تمرکز میکنیم. اما برای میلیونها نفری که از زبان اشاره استفاده میکنند، این ابزارها نمیتوانند بهطور کامل نیازها را برطرف کنند. زبان اشاره فقط به حرکات دست محدود نمیشود؛ بلکه یک شکل غنی و پیچیده از ارتباط است که شامل حالات چهره و زبان بدن نیز میشود و هر یک از این عناصر معنای خاصی دارد.
چالشهای زبان اشاره
چالش اصلی این است که زبانهای اشاره در سراسر جهان بهطور اساسی در نحوه انتقال معنی متفاوت هستند. به عنوان مثال، زبان اشاره آمریکایی (ASL) دارای گرامر و ساختار خاص خود است که با زبان انگلیسی گفتاری مطابقت ندارد. این پیچیدگی به این معناست که ایجاد فناوری برای تشخیص و ترجمه زبان اشاره در زمان واقعی نیاز به درک کامل از سیستم زبان در حال حرکت دارد.
رویکرد جدید در تشخیص زبان اشاره
در این راستا، تیمی در کالج مهندسی و علوم کامپیوتر دانشگاه آتلانتیک فلوریدا (FAU) تصمیم گرفتند رویکرد جدیدی را امتحان کنند. به جای تلاش برای پوشش دادن تمام پیچیدگیهای زبان اشاره، آنها بر روی یک گام اساسی تمرکز کردند: تشخیص حرکات الفبای ASL با دقتی بیسابقه از طریق هوش مصنوعی.
این فرآیند را میتوان به آموزش خواندن دستخط به یک کامپیوتر تشبیه کرد، اما بهصورت سهبعدی و در حال حرکت. این تیم موفق به ساخت مجموعهدادهای شامل ۲۹۸۲۰ تصویر ثابت از حرکات دست ASL شد. اما آنها فقط عکس جمعآوری نکردند؛ بلکه هر تصویر را با ۲۱ نقطه کلیدی روی دست علامتگذاری کردند و نقشه دقیقی از نحوه حرکت دستها و تشکیل علائم مختلف را ایجاد کردند.
دکتر بادر الشریف، که این تحقیق را به عنوان دکتری رهبری کرد، توضیح میدهد: "این روش در تحقیقات قبلی بهطور کامل مورد بررسی قرار نگرفته است و به همین دلیل، یک جهت جدید و امیدوارکننده برای پیشرفتهای آینده است."
این تلاشها میتواند بهطور قابل توجهی به بهبود ارتباطات برای افرادی که از زبان اشاره استفاده میکنند، کمک کند و راه را برای فناوریهای نوآورانهتر هموار کند.
بررسی تکنولوژی های موجود
بیایید نگاهی به فناوریهایی بیندازیم که این سیستم تشخیص زبان اشاره را به کار میاندازند.
MediaPipe و YOLOv8
جادوی این سیستم از ترکیب دو ابزار قدرتمند به نامهای MediaPipe و YOLOv8 به وجود میآید. MediaPipe را میتوان به عنوان یک ناظر حرفهای دست تصور کرد؛ مثل یک مترجم ماهر زبان اشاره که میتواند هر حرکت ظریف انگشت و موقعیت دست را با دقت ردیابی کند. تیم تحقیقاتی بهخاطر توانایی استثنایی MediaPipe در ارائه ردیابی دقیق حرکات دست، که شامل شناسایی ۲۱ نقطه مشخص در هر دست است، از آن استفاده کرده است.
اما ردیابی حرکات دست به تنهایی کافی نیست؛ ما باید معنی این حرکات را هم بفهمیم. اینجاست که YOLOv8 وارد عمل میشود. YOLOv8 یک متخصص تشخیص الگو است که تمام نقاط ردیابی شده را میگیرد و مشخص میکند که کدام حرف یا حرکت را نشان میدهند. این تحقیق نشان میدهد که وقتی YOLOv8 یک تصویر را پردازش میکند، آن را به یک شبکهای به ابعاد S × S تقسیم میکند و هر بخش از این شبکه مسئول شناسایی اشیا (در این مورد، حرکات دست) در نواحی خاص خود است.
این ترکیب از MediaPipe و YOLOv8 به سیستم کمک میکند تا نه تنها حرکات را ردیابی کند، بلکه معنی آنها را نیز تشخیص دهد و در نتیجه تجربهای دقیق و کارآمد برای تشخیص زبان اشاره فراهم کند.
چگونه سیستم واقعاً کار میکند
این فرآیند پیچیدهتر از آن چیزی است که در نگاه اول به نظر میرسد. بیایید ببینیم که در پسصحنه چه اتفاقی میافتد:
مرحله تشخیص دست
زمانی که شما علامتی را میسازید، MediaPipe ابتدا دست شما را شناسایی میکند و ۲۱ نقطه کلیدی را روی آن ترسیم میکند. این نقاط تصادفی نیستند؛ بلکه به مفاصل و نشانههای خاص روی دست شما مربوط میشوند، از نوک انگشتان تا کف دست.
تحلیل فضایی
سپس YOLOv8 این اطلاعات را دریافت کرده و در زمان واقعی تجزیه و تحلیل میکند. برای هر بخش از تصویر، این سیستم پیشبینی میکند:
- احتمال وجود یک حرکت دست
- مختصات دقیق مکان ژست
- امتیاز اطمینان پیشبینی
طبقهبندی
این سیستم از روشی به نام «پیشبینی جعبه محدود» استفاده میکند. به این صورت که تصور کنید یک مستطیل کامل دور حرکت دست شما کشیده شده است. YOLOv8 پنج مقدار مهم را برای هر جعبه محاسبه میکند:
- مختصات x و y برای مرکز جعبه
- عرض جعبه
- ارتفاع جعبه
- امتیاز اطمینان
این مقادیر به سیستم کمک میکنند تا حرکات دست را با دقت شناسایی و طبقهبندی کند. این فرآیند در نهایت باعث میشود تا سیستم بتواند زبان اشاره را بهتر تشخیص دهد و معنی آن را بفهمد.
چرا این ترکیب خیلی خوب کار میکند
تیم تحقیقاتی متوجه شدند که با ترکیب این فناوریها، چیزی فراتر از مجموع اجزای آنها ایجاد شده است. ردیابی دقیق MediaPipe به همراه تشخیص پیشرفته شیء YOLOv8، نتایج بسیار دقیقی را به دست آورده است؛ به طوری که ما به دقت ۹۸٪ و امتیاز F1 برابر ۹۹٪ اشاره میکنیم.
چیزی که این موضوع را به ویژه قابل توجه میکند، توانایی سیستم در مدیریت پیچیدگی زبان اشاره است. برخی از علائم ممکن است برای کسانی که آموزش ندیدهاند، بسیار شبیه به یکدیگر به نظر برسند، اما این سیستم میتواند تفاوتهای ظریف آنها را تشخیص دهد.
نتایج تحقیقات
هنگامی که محققان فناوری جدیدی را توسعه میدهند، همیشه این سؤال مطرح میشود: "این سیستم واقعاً چقدر خوب کار میکند؟" برای این سیستم تشخیص زبان اشاره، نتایج بسیار چشمگیر است.
تیم دانشگاه FAU سیستم خود را تحت آزمایشهای دقیقی قرار داد و یافتههای آنها به شرح زیر است:
- سیستم در ۹۸ درصد مواقع علائم را به درستی شناسایی میکند.
- ۹۸ درصد از تمام علائم ساخته شده را به دقت تشخیص میدهد.
- نمره کل عملکرد سیستم به ۹۹٪ میرسد.
دکتر الشریف میگوید: «نتایج تحقیقات ما توانایی مدل ما را در تشخیص دقیق و طبقهبندی حرکات زبان اشاره آمریکایی با خطاهای بسیار کم نشان میدهد.» این سیستم در شرایط روزمره مانند نورهای مختلف، موقعیتهای گوناگون دست و حتی با امضای افراد مختلف به خوبی کار میکند.
این پیشرفت مرزهای آنچه در تشخیص زبان اشاره ممکن است را تغییر میدهد. سیستمهای قبلی با دقت مشکل داشتند، اما با ترکیب ردیابی دست MediaPipe و قابلیتهای شناسایی YOLOv8، تیم تحقیقاتی موفق به ایجاد چیزی خاص شد.
محمد الیاس، یکی از نویسندگان این مطالعه، میگوید: «موفقیت این مدل عمدتاً به دلیل ادغام دقیق یادگیری انتقال، ایجاد مجموعه دادههای دقیق و تنظیم دقیق آن است. این توجه به جزئیات در عملکرد قابل توجه سیستم نتیجه داده است.»
تاثیر آن بر ارتباطات
موفقیت این سیستم فرصتهای هیجانانگیزی را برای دسترسی بیشتر و فراگیرتر کردن ارتباطات فراهم میکند. تیم فقط به تشخیص حروف اکتفا نکرده است. چالش بزرگ بعدی، آموزش سیستم برای درک طیف وسیعتری از اشکال و حرکات دست است. به لحظاتی فکر کنید که علائم تقریباً یکسان به نظر میرسند، مانند حروف "M" و "N" در زبان اشاره. محققان در تلاش هستند تا به سیستم کمک کنند تا این تفاوتهای ظریف را بهتر تشخیص دهد. دکتر الشریف میگوید: "یافتههای این مطالعه نه تنها بر استحکام سیستم تأکید میکند، بلکه پتانسیل آن برای کاربردهای عملی و بلادرنگ را نیز نشان میدهد."
تمرکز توسعه بر روی موارد زیر است:
- عملکرد روان سیستم در دستگاههای معمولی
- سرعت کافی برای مکالمات دنیای واقعی
- اطمینان از کارکرد قابل اعتماد در هر محیطی
دین استلا باتالاما از کالج مهندسی و علوم کامپیوتر FAU دیدگاه بزرگتری را به اشتراک میگذارد: «با بهبود تشخیص زبان اشاره آمریکایی، این کار به ایجاد ابزارهایی کمک میکند که میتوانند ارتباطات را برای جامعه ناشنوایان و کمشنوایان تقویت کنند.»
تصور کنید که وارد مطب دکتر میشوید یا در کلاسی شرکت میکنید و این فناوری فوراً شکافهای ارتباطی را پر میکند. هدف واقعی اینجا این است که تعاملات روزمره برای همه افراد درگیر، نرمتر و طبیعیتر شود. این فناوری در واقع به افراد کمک میکند تا با یکدیگر ارتباط برقرار کنند. چه در آموزش، چه در مراقبتهای بهداشتی و چه در مکالمات روزمره، این سیستم گامی به سوی جهانی است که موانع ارتباطی در آن کمتر میشود.