تشخیص دقیق زبان اشاره توسط هوش مصنوعی

  • 1403/10/4
  • زندگي روزانه
  • 202
  • 0
  • 0
image

وقتی به رفع موانع ارتباطی فکر می‌کنیم، معمولاً بر روی برنامه‌های ترجمه زبان یا دستیارهای صوتی تمرکز می‌کنیم. اما برای میلیون‌ها نفری که از زبان اشاره استفاده می‌کنند، این ابزارها نمی‌توانند به‌طور کامل نیازها را برطرف کنند. زبان اشاره فقط به حرکات دست محدود نمی‌شود؛ بلکه یک شکل غنی و پیچیده از ارتباط است که شامل حالات چهره و زبان بدن نیز می‌شود و هر یک از این عناصر معنای خاصی دارد.

چالش‌های زبان اشاره

چالش اصلی این است که زبان‌های اشاره در سراسر جهان به‌طور اساسی در نحوه انتقال معنی متفاوت هستند. به عنوان مثال، زبان اشاره آمریکایی (ASL) دارای گرامر و ساختار خاص خود است که با زبان انگلیسی گفتاری مطابقت ندارد. این پیچیدگی به این معناست که ایجاد فناوری برای تشخیص و ترجمه زبان اشاره در زمان واقعی نیاز به درک کامل از سیستم زبان در حال حرکت دارد.

رویکرد جدید در تشخیص زبان اشاره

در این راستا، تیمی در کالج مهندسی و علوم کامپیوتر دانشگاه آتلانتیک فلوریدا (FAU) تصمیم گرفتند رویکرد جدیدی را امتحان کنند. به جای تلاش برای پوشش دادن تمام پیچیدگی‌های زبان اشاره، آن‌ها بر روی یک گام اساسی تمرکز کردند: تشخیص حرکات الفبای ASL با دقتی بی‌سابقه از طریق هوش مصنوعی.

این فرآیند را می‌توان به آموزش خواندن دست‌خط به یک کامپیوتر تشبیه کرد، اما به‌صورت سه‌بعدی و در حال حرکت. این تیم موفق به ساخت مجموعه‌داده‌ای شامل ۲۹۸۲۰ تصویر ثابت از حرکات دست ASL شد. اما آن‌ها فقط عکس جمع‌آوری نکردند؛ بلکه هر تصویر را با ۲۱ نقطه کلیدی روی دست علامت‌گذاری کردند و نقشه دقیقی از نحوه حرکت دست‌ها و تشکیل علائم مختلف را ایجاد کردند.

دکتر بادر الشریف، که این تحقیق را به عنوان دکتری رهبری کرد، توضیح می‌دهد: "این روش در تحقیقات قبلی به‌طور کامل مورد بررسی قرار نگرفته است و به همین دلیل، یک جهت جدید و امیدوارکننده برای پیشرفت‌های آینده است."

این تلاش‌ها می‌تواند به‌طور قابل توجهی به بهبود ارتباطات برای افرادی که از زبان اشاره استفاده می‌کنند، کمک کند و راه را برای فناوری‌های نوآورانه‌تر هموار کند.

بررسی تکنولوژی های موجود

بیایید نگاهی به فناوری‌هایی بیندازیم که این سیستم تشخیص زبان اشاره را به کار می‌اندازند.

MediaPipe و YOLOv8

جادوی این سیستم از ترکیب دو ابزار قدرتمند به نام‌های MediaPipe و YOLOv8 به وجود می‌آید. MediaPipe را می‌توان به عنوان یک ناظر حرفه‌ای دست تصور کرد؛ مثل یک مترجم ماهر زبان اشاره که می‌تواند هر حرکت ظریف انگشت و موقعیت دست را با دقت ردیابی کند. تیم تحقیقاتی به‌خاطر توانایی استثنایی MediaPipe در ارائه ردیابی دقیق حرکات دست، که شامل شناسایی ۲۱ نقطه مشخص در هر دست است، از آن استفاده کرده است.

اما ردیابی حرکات دست به تنهایی کافی نیست؛ ما باید معنی این حرکات را هم بفهمیم. اینجاست که YOLOv8 وارد عمل می‌شود. YOLOv8 یک متخصص تشخیص الگو است که تمام نقاط ردیابی شده را می‌گیرد و مشخص می‌کند که کدام حرف یا حرکت را نشان می‌دهند. این تحقیق نشان می‌دهد که وقتی YOLOv8 یک تصویر را پردازش می‌کند، آن را به یک شبکه‌ای به ابعاد S × S تقسیم می‌کند و هر بخش از این شبکه مسئول شناسایی اشیا (در این مورد، حرکات دست) در نواحی خاص خود است.

این ترکیب از MediaPipe و YOLOv8 به سیستم کمک می‌کند تا نه تنها حرکات را ردیابی کند، بلکه معنی آن‌ها را نیز تشخیص دهد و در نتیجه تجربه‌ای دقیق و کارآمد برای تشخیص زبان اشاره فراهم کند.

چگونه سیستم واقعاً کار می‌کند

این فرآیند پیچیده‌تر از آن چیزی است که در نگاه اول به نظر می‌رسد. بیایید ببینیم که در پس‌صحنه چه اتفاقی می‌افتد:

مرحله تشخیص دست

زمانی که شما علامتی را می‌سازید، MediaPipe ابتدا دست شما را شناسایی می‌کند و ۲۱ نقطه کلیدی را روی آن ترسیم می‌کند. این نقاط تصادفی نیستند؛ بلکه به مفاصل و نشانه‌های خاص روی دست شما مربوط می‌شوند، از نوک انگشتان تا کف دست.

تحلیل فضایی

سپس YOLOv8 این اطلاعات را دریافت کرده و در زمان واقعی تجزیه و تحلیل می‌کند. برای هر بخش از تصویر، این سیستم پیش‌بینی می‌کند:

  • احتمال وجود یک حرکت دست
  • مختصات دقیق مکان ژست
  • امتیاز اطمینان پیش‌بینی

طبقه‌بندی

این سیستم از روشی به نام «پیش‌بینی جعبه محدود» استفاده می‌کند. به این صورت که تصور کنید یک مستطیل کامل دور حرکت دست شما کشیده شده است. YOLOv8 پنج مقدار مهم را برای هر جعبه محاسبه می‌کند:

  1. مختصات x و y برای مرکز جعبه
  2. عرض جعبه
  3. ارتفاع جعبه
  4. امتیاز اطمینان

این مقادیر به سیستم کمک می‌کنند تا حرکات دست را با دقت شناسایی و طبقه‌بندی کند. این فرآیند در نهایت باعث می‌شود تا سیستم بتواند زبان اشاره را بهتر تشخیص دهد و معنی آن را بفهمد.

چرا این ترکیب خیلی خوب کار می‌کند

تیم تحقیقاتی متوجه شدند که با ترکیب این فناوری‌ها، چیزی فراتر از مجموع اجزای آن‌ها ایجاد شده است. ردیابی دقیق MediaPipe به همراه تشخیص پیشرفته شیء YOLOv8، نتایج بسیار دقیقی را به دست آورده است؛ به طوری که ما به دقت ۹۸٪ و امتیاز F1 برابر ۹۹٪ اشاره می‌کنیم.

چیزی که این موضوع را به ویژه قابل توجه می‌کند، توانایی سیستم در مدیریت پیچیدگی زبان اشاره است. برخی از علائم ممکن است برای کسانی که آموزش ندیده‌اند، بسیار شبیه به یکدیگر به نظر برسند، اما این سیستم می‌تواند تفاوت‌های ظریف آن‌ها را تشخیص دهد.

نتایج تحقیقات

هنگامی که محققان فناوری جدیدی را توسعه می‌دهند، همیشه این سؤال مطرح می‌شود: "این سیستم واقعاً چقدر خوب کار می‌کند؟" برای این سیستم تشخیص زبان اشاره، نتایج بسیار چشمگیر است.

تیم دانشگاه FAU سیستم خود را تحت آزمایش‌های دقیقی قرار داد و یافته‌های آن‌ها به شرح زیر است:

  • سیستم در ۹۸ درصد مواقع علائم را به درستی شناسایی می‌کند.
  • ۹۸ درصد از تمام علائم ساخته شده را به دقت تشخیص می‌دهد.
  • نمره کل عملکرد سیستم به ۹۹٪ می‌رسد.

دکتر الشریف می‌گوید: «نتایج تحقیقات ما توانایی مدل ما را در تشخیص دقیق و طبقه‌بندی حرکات زبان اشاره آمریکایی با خطاهای بسیار کم نشان می‌دهد.» این سیستم در شرایط روزمره مانند نورهای مختلف، موقعیت‌های گوناگون دست و حتی با امضای افراد مختلف به خوبی کار می‌کند.

این پیشرفت مرزهای آنچه در تشخیص زبان اشاره ممکن است را تغییر می‌دهد. سیستم‌های قبلی با دقت مشکل داشتند، اما با ترکیب ردیابی دست MediaPipe و قابلیت‌های شناسایی YOLOv8، تیم تحقیقاتی موفق به ایجاد چیزی خاص شد.

محمد الیاس، یکی از نویسندگان این مطالعه، می‌گوید: «موفقیت این مدل عمدتاً به دلیل ادغام دقیق یادگیری انتقال، ایجاد مجموعه داده‌های دقیق و تنظیم دقیق آن است. این توجه به جزئیات در عملکرد قابل توجه سیستم نتیجه داده است.»

تاثیر آن بر ارتباطات

موفقیت این سیستم فرصت‌های هیجان‌انگیزی را برای دسترسی بیشتر و فراگیرتر کردن ارتباطات فراهم می‌کند. تیم فقط به تشخیص حروف اکتفا نکرده است. چالش بزرگ بعدی، آموزش سیستم برای درک طیف وسیع‌تری از اشکال و حرکات دست است. به لحظاتی فکر کنید که علائم تقریباً یکسان به نظر می‌رسند، مانند حروف "M" و "N" در زبان اشاره. محققان در تلاش هستند تا به سیستم کمک کنند تا این تفاوت‌های ظریف را بهتر تشخیص دهد. دکتر الشریف می‌گوید: "یافته‌های این مطالعه نه تنها بر استحکام سیستم تأکید می‌کند، بلکه پتانسیل آن برای کاربردهای عملی و بلادرنگ را نیز نشان می‌دهد."

تمرکز توسعه بر روی موارد زیر است:

  • عملکرد روان سیستم در دستگاه‌های معمولی
  • سرعت کافی برای مکالمات دنیای واقعی
  • اطمینان از کارکرد قابل اعتماد در هر محیطی

دین استلا باتالاما از کالج مهندسی و علوم کامپیوتر FAU دیدگاه بزرگ‌تری را به اشتراک می‌گذارد: «با بهبود تشخیص زبان اشاره آمریکایی، این کار به ایجاد ابزارهایی کمک می‌کند که می‌توانند ارتباطات را برای جامعه ناشنوایان و کم‌شنوایان تقویت کنند.»

تصور کنید که وارد مطب دکتر می‌شوید یا در کلاسی شرکت می‌کنید و این فناوری فوراً شکاف‌های ارتباطی را پر می‌کند. هدف واقعی اینجا این است که تعاملات روزمره برای همه افراد درگیر، نرم‌تر و طبیعی‌تر شود. این فناوری در واقع به افراد کمک می‌کند تا با یکدیگر ارتباط برقرار کنند. چه در آموزش، چه در مراقبت‌های بهداشتی و چه در مکالمات روزمره، این سیستم گامی به سوی جهانی است که موانع ارتباطی در آن کمتر می‌شود.

تگ ها