Splatter Image ، ساخت سریع نمای سه بعدی اشیا با تک دید

1402/10/26
طراحي و ديزاين
19420
0
0

بازسازی شی سه بعدی تک نمایی با استفاده از شبکه‌های کانولوشن نشان دهنده قابلیت‌های قابل توجهی است. مدل‌های بازسازی سه بعدی تک نما، توانایی تولید مدل سه بعدی هر شی را با استفاده از یک تصویر به عنوان مرجع ارائه می‌دهند. این حوزه از تحقیقات یکی از مسائل گرم در زمینه بینایی ماشین محسوب می‌شود.

به عنوان مثال، فرض کنید می‌خواهیم یک موتورسیکلت در تصویر بالا را مورد بررسی قرار دهیم. برای تولید ساختار سه بعدی آن، نیازمند یک خط لوله پیچیده هستیم که ابتدا نشانه‌های تصاویر سطح پایین را با اطلاعات معنایی سطح بالا و دانش در مورد آرایش ساختاری قطعات ترکیب کند.

به دلیل پیچیدگی فرآیند، بازسازی سه بعدی تک‌نمایی چالش‌های زیادی در زمینه بینایی ماشین ایجاد کرده است. به منظور بهبود کارایی این بازسازی سه بعدی تک نما، توسعه‌دهندگان به روش Splatter Image متمرکز شده‌اند. این روش به منظور دستیابی به سرعت فوق‌العاده در بازسازی سه بعدی تک‌نما و ساختار سه بعدی واقعی اشیا طراحی شده است. چارچوب Splatter Image از روش Gaussian Splatting در هسته خود استفاده می‌کند تا نمایش‌های سه بعدی را تجزیه و تحلیل کند و از سرعت و کیفیت برتری که ارائه می‌دهد بهره‌مند شود.

اخیراً، روش گاوسی اسپلیت توسط چندین مدل بازسازی چند نمایی برای رندر بلادرنگ، مقیاس‌بندی پیشرفته و آموزش سریع پیاده‌سازی شده است. با توجه به آنچه گفته شد، Splatter Image اولین چارچوب است که از روش گاوسی اسپلیتینگ برای بازسازی سریع تک‌نما استفاده می‌کند.

در این مقاله، به بررسی این موضوع خواهیم پرداخت و توضیح خواهیم داد که چگونه چارچوب Splatter Image از روش Gaussian Splatting برای دستیابی به بازسازی سه بعدی تک‌نما با سرعت فوق‌العاده استفاده می‌کند. پس بیایید شروع کنیم.

Splatter Image: تلاشی برای بازسازی سه بعدی تک‌نمای فوق‌العاده سریع

همانطور که قبلاً ذکر شد، Splatter Image یک رویکرد فوق‌العاده سریع برای بازسازی اشیاء سه بعدی از یک تصویر تک‌نما بر اساس روش گاوسی Splatting است. Splatter Image اولین چارچوب بینایی کامپیوتری است که از Gaussian Splatting برای تولید اشیاء سه بعدی تک‌نما استفاده می‌کند. البته، این رویکرد به صورت معمول در چارچوب‌های بازسازی سه‌بعدی چند نمایی به‌کار می‌رود. اما، آنچه چارچوب Splatter Image را از روش‌های قبلی متمایز می‌کند، استفاده از یک رویکرد مبتنی بر یادگیری و تنها نیاز به ارزیابی پیش‌خور شبکه عصبی برای بازسازی در آزمایش است.

Splatter Image اساساً بر روی کیفیت و سرعت Gaussian Splatting حساب می‌کند تا بازسازی‌های سه بعدی ایجاد کند. این چارچوب طراحی ساده‌ای دارد. از یک شبکه عصبی تصویر به تصویر دو بعدی برای پیش‌بینی گاوسی سه بعدی در هر پیکسل تصویر ورودی استفاده می‌کند و تصویر ورودی را به یک گاوسی سه بعدی در هر پیکسل نگاشت می‌کند. گاوسی‌ها به‌دست‌آمده شکل یک تصویر دارند که به نام Splatter Image شناخته می‌شود، و این گاوسی‌ها نیز نمایش ۳۶۰ درجه اطراف تصویر را ارائه می‌دهند. این فرآیند در تصویر زیر نشان داده شده است.

اگرچه فرآیند ساده و سرراست به نظر می‌آید، اما هنگام استفاده از گاوسی اسپلیت برای تولید گاوسی‌های سه بعدی جهت نمایش سه بعدی تک‌نما، اولین مانع اصلی طراحی یک شبکه عصبی است که تصویر یک شی را به عنوان ورودی بپذیرد و یک مخلوط گاوسی متناظر تولید کند که تمام طرف‌های تصویر را به عنوان خروجی نشان دهد. برای مقابله با این مسئله، Splatter Image از این واقعیت بهره می‌برد که حتی اگر مخلوط گاوسی تولید شده مجموعه‌ای یا مجموعه‌ای نامرتب از آیتم‌ها باشد، همچنان می‌تواند در یک ساختار داده مرتب شده ذخیره شود. بر این اساس، این فریم‌ورک از یک تصویر دو بعدی به عنوان محفظه‌ای برای گاوسی‌های سه بعدی استفاده می‌کند که در نتیجه، هر پیکسل در ظرف حاوی پارامترهای یک گاوسی، از جمله ویژگی‌های آن مانند شکل، کدورت و رنگ است.

با ذخیره مجموعه‌های گاوسی سه بعدی در یک تصویر، چارچوب Splatter Image می‌تواند موانع بازسازی که هنگام یادگیری یک تصویر با شبکه عصبی تصویر مواجه می‌شود، کاهش دهد. با استفاده از این رویکرد، فرآیند بازسازی را می‌توان تنها با استفاده از عملگرهای دو بعدی کارآمد به جای تکیه بر اپراتورهای سه بعدی اجرا کرد. علاوه بر این، در چارچوب Splatter Image، نمایش سه بعدی ترکیبی از گاوسی‌های سه بعدی است که به آن اجازه می‌دهد از مزایای سرعت رندر و کارایی حافظه ارائه شده توسط Gaussian Splatting استفاده کند که کارایی را در آموزش و همچنین در استنتاج افزایش می‌دهد.

در ادامه، فریم‌ورک Splatter Image نه تنها نمایش‌های سه بعدی تک نما را تولید می‌کند، بلکه کارایی قابل توجهی را نیز نشان می‌دهد، زیرا می‌توان آن را حتی بر روی یک GPU منفرد در معیارهای اشیاء سه بعدی استاندارد آموزش داد. علاوه بر این، چارچوب Splatter Image را می‌توان برای گرفتن چندین عکس به عنوان ورودی گسترش داد. می‌تواند با ثبت ترکیب‌های گاوسی منفرد در یک مرجع مشترک و سپس با گرفتن ترکیبی از مخلوط‌های گاوسی پیش‌بینی‌شده از دیدگاه‌های فردی به این هدف دست یابد. این چارچوب همچنین لایه‌های متقاطع سبک وزنی را در معماری خود تزریق می‌کند که به نماهای مختلف اجازه می‌دهد در طول پیش‌بینی با یکدیگر ارتباط برقرار کنند.

از نقطه نظر تجربی، شایان ذکر است که فریم ورک Splatter Image می‌تواند بازسازی 360 درجه شی را ایجاد کند، حتی اگر فقط یک طرف شی را ببیند. سپس این فریم ورک، گاوسی‌های مختلف را در یک همسایگی دوبعدی به بخش‌های مختلف شی سه‌بعدی اختصاص داد تا اطلاعات 360 درجه تولید شده در تصویر دو بعدی را کدگذاری کند. علاوه بر این، چارچوب کدورت چندین گاوسی را روی صفر تنظیم می‌کند که آنها را غیرفعال می‌کند، بنابراین اجازه می‌دهد در طول پردازش پس از پردازش حذف شوند.

به طور خلاصه، چارچوب Splatter Image:

- یک رویکرد جدید برای ایجاد بازسازی‌های سه‌بعدی تک‌بعدی با استفاده از روش گاوسی اسپلیتینگ است.
- روش بازسازی اشیاء سه بعدی چند نما را گسترش می‌دهد.
- با سرعت و کیفیت فوق‌العاده به عملکرد بازسازی شی 3 بعدی در معیارهای استاندارد دست می‌یابد.

Splatter Image: روش‌شناسی و معماری

همانطور که قبلاً ذکر شد، پاشیدن گاوسی روش اولیه‌ای است که توسط فریم ورک Splatter Image برای تولید بازسازی‌های شی سه بعدی تک نما اجرا شده است. به زبان ساده، Gaussian Splatting یک روش شطرنجی سازی برای بازسازی تصاویر سه بعدی و بلادرنگ و رندر کردن تصاویر دارای چندین دیدگاه است. فضای سه بعدی در تصویر به عنوان گاوسیان نامیده می‌شود و تکنیک‌های آموزش ماشینی برای یادگیری پارامترهای هر گاوسی پیاده‌سازی شده است. Gaussian Splatting نیازی به آموزش در حین رندر ندارد که زمان رندر سریعتر را تسهیل می‌کند. تصویر زیر به طور خلاصه معماری سه بعدی گاوسی اسپلیتینگ را نشان می‌دهد.

روش 3D Gaussian Splatting ابتدا از مجموعه تصاویر ورودی برای تولید یک ابر نقطه استفاده می‌کند. سپس Gaussian Splatting از تصاویر ورودی برای تخمین پارامترهای خارجی دوربین مانند شیب و موقعیت با تطبیق پیکسل‌های بین تصاویر استفاده می‌کند و سپس از این پارامترها برای محاسبه ابر نقطه استفاده می‌شود. با استفاده از روش‌های مختلف یادگیری ماشین، پاشیدن گاوسی چهار پارامتر را برای هر گاوسی بهینه‌سازی می‌کند: موقعیت (محل قرارگیری آن)، کوواریانس (میزان کشش یا مقیاس آن در ماتریس 3×3)، رنگ (رنگ‌بندی RGB چیست) و آلفا (اندازه گیری شفافیت). فرآیند بهینه‌سازی تصویر را برای هر موقعیت دوربین ارائه می‌دهد و از آن برای تعیین پارامترهای نزدیک به تصویر اصلی استفاده می‌کند. در نتیجه، خروجی گاوسی اسپلیت سه بعدی، تصویری است با نام Splatter Image که در موقعیت دوربینی که از آن گرفته شده است، بیشترین شباهت به تصویر اصلی دارد.

علاوه بر این، تابع opacity و تابع رنگ در Gaussian Splatting میدان تابشی با جهت مشاهده نقطه سه بعدی می‌دهد. سپس چارچوب، میدان درخشندگی را با یکپارچه‌سازی رنگ‌های مشاهده‌شده در امتداد پرتویی که از پیکسل عبور می‌کند، بر روی یک تصویر نمایش می‌دهد. پاشیدن گاوسی این توابع را به عنوان ترکیبی از گاوس‌های رنگی نشان می‌دهد که در آن میانگین یا مرکز گاوسی همراه با کوواریانس گاوسی در تعیین شکل و اندازه آن کمک می‌کند. هر گاوسی همچنین دارای یک ویژگی opacity و یک ویژگی رنگ وابسته به دید (view) است که با هم میدان درخشندگی را مشخص می‌کنند.

تصویر اسپلتر

مؤلفه رندر مجموعه گاوسی‌های سه بعدی را به یک تصویر نگاشت می‌کند. برای انجام بازسازی سه بعدی تک نما، فریم ورک سپس به دنبال یک تابع معکوس برای گاوسی‌های سه بعدی است که ترکیبی از گاوسی‌های سه بعدی را از یک تصویر بازسازی می‌کند. نکته کلیدی در اینجا پیشنهاد یک طراحی موثر و در عین حال ساده برای تابع معکوس است. به طور خاص، برای یک تصویر ورودی، چارچوب یک گاوسی را برای هر پیکسل جداگانه با استفاده از معماری شبکه عصبی تصویر به تصویر برای خروجی یک تصویر، Splatter Image، پیش‌بینی می‌کند. شبکه همچنین شکل، کدورت و رنگ را پیش‌بینی می‌کند.

اکنون، ممکن است حدس زده شود که چگونه چارچوب Splatter Image می‌تواند بازنمایی سه بعدی یک شی را بازسازی کند، حتی اگر فقط به آن دسترسی داشته باشد. یکی از دیدگاه‌های آن این است که در زمان واقعی، چارچوب Splatter Image یاد می‌گیرد که از برخی از گاوسی‌های موجود برای بازسازی نمای استفاده کند و از گاوسی‌های باقی‌مانده برای بازسازی خودکار بخش‌های دیده نشده تصویر استفاده می‌کند. برای به حداکثر رساندن کارایی، فریم ورک می‌تواند به طور خودکار هر گاوسی را با پیش‌بینی صفر بودن کدورت خاموش کند. اگر کدورت صفر باشد، گاوسی‌ها خاموش می‌شوند و چارچوب این نقاط را ارائه نمی‌کند و در عوض در پس‌پردازش حذف می‌شوند.

از دست دادن سطح تصویر

مزیت اصلی بهره برداری از سرعت و کارایی ارائه شده توسط روش Splatter Gaussian این است که چارچوب را برای ارائه تمام تصاویر در هر تکرار، حتی برای دسته هایی با اندازه دسته نسبتا بزرگتر، تسهیل می کند. علاوه بر این، این نشان می‌دهد که نه تنها چارچوب قادر به استفاده از تلفات تجزیه‌پذیر است، بلکه می‌تواند از تلفات سطح تصویر نیز استفاده کند که به تلفات در هر پیکسل تجزیه نمی‌شوند.

عادی سازی مقیاس

در مجموعه‌های داده با تصاویر واقعی، ابهام در تخمین اندازه یک شی با توجه به یک نمای منفرد چالش برانگیز است. این چالش به دلیل متغیر بودن شرایط نورپردازی، زوایا و فواصل اجسام از دوربین وجود دارد. از طرفی، در مجموعه‌های داده مصنوعی، این مشکل به دلیل استاندارد بودن شرایط دیداری و فواصل ثابت میان اجسام و دوربین کمتر وجود دارد.

برای حل این چالش در چارچوب Splatter Image از چندین روش پیش‌پردازش استفاده می‌شود تا مقیاس تقریباً یکسانی برای همه اشیا فراهم شود. این پیش‌پردازش‌ها می‌توانند شامل تنظیم مقیاس، تبدیل‌های هندسی، یا استفاده از اطلاعات دوربین و اطلاعات هندسی دیگر باشند. این روش‌ها به کاهش اثر ابهام در تخمین اندازه اشیا کمک کرده و دقت بازسازی را افزایش داده و به چارچوب امکان تخمین اندازه اشیا از تصاویر واقعی را می‌دهد.

مشاهده رنگ وابسته

برای نمایش رنگ‌های وابسته به نمایش، چارچوب Splatter Image از هارمونیک‌های کروی به عنوان یک روش تعمیم رنگ‌ها استفاده می‌کند که به وسیله آن می‌تواند رنگ‌هایی را که فراتر از مدل رنگی لامبرتی می‌روند، بازنمایی کند. برای هر گاوسی خاص، مدل ضرایبی تعریف می‌شود که توسط شبکه عصبی و هارمونیک‌های کروی پیش‌بینی می‌شوند.

در این روش، تغییر دیدگاه یک جهت دید در منبع دوربین را به جهت مشاهده متناظر آن در قاب مرجع تبدیل می‌کند. سپس، مدل ضرایب مربوطه را برای یافتن تابع رنگ تبدیل شده پیدا می‌کند. این امکان فراهم می‌شود زیرا در هنگام چرخش، هارمونیک‌های کروی به همراه هر ترتیب دیگر بسته می‌شوند و این ویژگی به مدل این امکان را می‌دهد که رنگ‌ها را به صورت وابسته به جهت دید، با دقت بالا مدل کند.

معماری شبکه های عصبی

است. بنابراین، با استفاده از یک مدل که برای هر نمای ورودی اعمال می‌شود، چارچوب Splatter Image بازسازی‌های فردی را تولید می‌کند و سپس از رویکرد دیدگاه برای ترکیب این بازسازی‌ها استفاده می‌کند.

برای تسهیل هماهنگی و تبادل اطلاعات کارآمد بین نماها در شبکه، چارچوب Splatter Image دو تغییر در شبکه ایجاد می‌کند. ابتدا، چارچوب، مدل را با حالت دوربین مربوطه خود شرایط می‌دهد و بردارها را با رمزگذاری هر ورودی با استفاده از جاسازی موقعیت سینوسی (SIN) که منجر به چندین بعد می‌شود، عبور می‌دهد. در اینجا SIN به معنای جاسازی موقعیت سینوسی است. دوم، چارچوب لایه‌های توجه متقابل را برای تسهیل ارتباط بین ویژگی‌های نماهای مختلف اضافه می‌کند.