بازسازی شی سه بعدی تک نمایی با استفاده از شبکههای کانولوشن نشان دهنده قابلیتهای قابل توجهی است. مدلهای بازسازی سه بعدی تک نما، توانایی تولید مدل سه بعدی هر شی را با استفاده از یک تصویر به عنوان مرجع ارائه میدهند. این حوزه از تحقیقات یکی از مسائل گرم در زمینه بینایی ماشین محسوب میشود.
به عنوان مثال، فرض کنید میخواهیم یک موتورسیکلت در تصویر بالا را مورد بررسی قرار دهیم. برای تولید ساختار سه بعدی آن، نیازمند یک خط لوله پیچیده هستیم که ابتدا نشانههای تصاویر سطح پایین را با اطلاعات معنایی سطح بالا و دانش در مورد آرایش ساختاری قطعات ترکیب کند.
به دلیل پیچیدگی فرآیند، بازسازی سه بعدی تکنمایی چالشهای زیادی در زمینه بینایی ماشین ایجاد کرده است. به منظور بهبود کارایی این بازسازی سه بعدی تک نما، توسعهدهندگان به روش Splatter Image متمرکز شدهاند. این روش به منظور دستیابی به سرعت فوقالعاده در بازسازی سه بعدی تکنما و ساختار سه بعدی واقعی اشیا طراحی شده است. چارچوب Splatter Image از روش Gaussian Splatting در هسته خود استفاده میکند تا نمایشهای سه بعدی را تجزیه و تحلیل کند و از سرعت و کیفیت برتری که ارائه میدهد بهرهمند شود.
اخیراً، روش گاوسی اسپلیت توسط چندین مدل بازسازی چند نمایی برای رندر بلادرنگ، مقیاسبندی پیشرفته و آموزش سریع پیادهسازی شده است. با توجه به آنچه گفته شد، Splatter Image اولین چارچوب است که از روش گاوسی اسپلیتینگ برای بازسازی سریع تکنما استفاده میکند.
در این مقاله، به بررسی این موضوع خواهیم پرداخت و توضیح خواهیم داد که چگونه چارچوب Splatter Image از روش Gaussian Splatting برای دستیابی به بازسازی سه بعدی تکنما با سرعت فوقالعاده استفاده میکند. پس بیایید شروع کنیم.
Splatter Image: تلاشی برای بازسازی سه بعدی تکنمای فوقالعاده سریع
همانطور که قبلاً ذکر شد، Splatter Image یک رویکرد فوقالعاده سریع برای بازسازی اشیاء سه بعدی از یک تصویر تکنما بر اساس روش گاوسی Splatting است. Splatter Image اولین چارچوب بینایی کامپیوتری است که از Gaussian Splatting برای تولید اشیاء سه بعدی تکنما استفاده میکند. البته، این رویکرد به صورت معمول در چارچوبهای بازسازی سهبعدی چند نمایی بهکار میرود. اما، آنچه چارچوب Splatter Image را از روشهای قبلی متمایز میکند، استفاده از یک رویکرد مبتنی بر یادگیری و تنها نیاز به ارزیابی پیشخور شبکه عصبی برای بازسازی در آزمایش است.
Splatter Image اساساً بر روی کیفیت و سرعت Gaussian Splatting حساب میکند تا بازسازیهای سه بعدی ایجاد کند. این چارچوب طراحی سادهای دارد. از یک شبکه عصبی تصویر به تصویر دو بعدی برای پیشبینی گاوسی سه بعدی در هر پیکسل تصویر ورودی استفاده میکند و تصویر ورودی را به یک گاوسی سه بعدی در هر پیکسل نگاشت میکند. گاوسیها بهدستآمده شکل یک تصویر دارند که به نام Splatter Image شناخته میشود، و این گاوسیها نیز نمایش ۳۶۰ درجه اطراف تصویر را ارائه میدهند. این فرآیند در تصویر زیر نشان داده شده است.
اگرچه فرآیند ساده و سرراست به نظر میآید، اما هنگام استفاده از گاوسی اسپلیت برای تولید گاوسیهای سه بعدی جهت نمایش سه بعدی تکنما، اولین مانع اصلی طراحی یک شبکه عصبی است که تصویر یک شی را به عنوان ورودی بپذیرد و یک مخلوط گاوسی متناظر تولید کند که تمام طرفهای تصویر را به عنوان خروجی نشان دهد. برای مقابله با این مسئله، Splatter Image از این واقعیت بهره میبرد که حتی اگر مخلوط گاوسی تولید شده مجموعهای یا مجموعهای نامرتب از آیتمها باشد، همچنان میتواند در یک ساختار داده مرتب شده ذخیره شود. بر این اساس، این فریمورک از یک تصویر دو بعدی به عنوان محفظهای برای گاوسیهای سه بعدی استفاده میکند که در نتیجه، هر پیکسل در ظرف حاوی پارامترهای یک گاوسی، از جمله ویژگیهای آن مانند شکل، کدورت و رنگ است.
با ذخیره مجموعههای گاوسی سه بعدی در یک تصویر، چارچوب Splatter Image میتواند موانع بازسازی که هنگام یادگیری یک تصویر با شبکه عصبی تصویر مواجه میشود، کاهش دهد. با استفاده از این رویکرد، فرآیند بازسازی را میتوان تنها با استفاده از عملگرهای دو بعدی کارآمد به جای تکیه بر اپراتورهای سه بعدی اجرا کرد. علاوه بر این، در چارچوب Splatter Image، نمایش سه بعدی ترکیبی از گاوسیهای سه بعدی است که به آن اجازه میدهد از مزایای سرعت رندر و کارایی حافظه ارائه شده توسط Gaussian Splatting استفاده کند که کارایی را در آموزش و همچنین در استنتاج افزایش میدهد.
در ادامه، فریمورک Splatter Image نه تنها نمایشهای سه بعدی تک نما را تولید میکند، بلکه کارایی قابل توجهی را نیز نشان میدهد، زیرا میتوان آن را حتی بر روی یک GPU منفرد در معیارهای اشیاء سه بعدی استاندارد آموزش داد. علاوه بر این، چارچوب Splatter Image را میتوان برای گرفتن چندین عکس به عنوان ورودی گسترش داد. میتواند با ثبت ترکیبهای گاوسی منفرد در یک مرجع مشترک و سپس با گرفتن ترکیبی از مخلوطهای گاوسی پیشبینیشده از دیدگاههای فردی به این هدف دست یابد. این چارچوب همچنین لایههای متقاطع سبک وزنی را در معماری خود تزریق میکند که به نماهای مختلف اجازه میدهد در طول پیشبینی با یکدیگر ارتباط برقرار کنند.
از نقطه نظر تجربی، شایان ذکر است که فریم ورک Splatter Image میتواند بازسازی 360 درجه شی را ایجاد کند، حتی اگر فقط یک طرف شی را ببیند. سپس این فریم ورک، گاوسیهای مختلف را در یک همسایگی دوبعدی به بخشهای مختلف شی سهبعدی اختصاص داد تا اطلاعات 360 درجه تولید شده در تصویر دو بعدی را کدگذاری کند. علاوه بر این، چارچوب کدورت چندین گاوسی را روی صفر تنظیم میکند که آنها را غیرفعال میکند، بنابراین اجازه میدهد در طول پردازش پس از پردازش حذف شوند.
به طور خلاصه، چارچوب Splatter Image:
- یک رویکرد جدید برای ایجاد بازسازیهای سهبعدی تکبعدی با استفاده از روش گاوسی اسپلیتینگ است.
- روش بازسازی اشیاء سه بعدی چند نما را گسترش میدهد.
- با سرعت و کیفیت فوقالعاده به عملکرد بازسازی شی 3 بعدی در معیارهای استاندارد دست مییابد.
Splatter Image: روششناسی و معماری
همانطور که قبلاً ذکر شد، پاشیدن گاوسی روش اولیهای است که توسط فریم ورک Splatter Image برای تولید بازسازیهای شی سه بعدی تک نما اجرا شده است. به زبان ساده، Gaussian Splatting یک روش شطرنجی سازی برای بازسازی تصاویر سه بعدی و بلادرنگ و رندر کردن تصاویر دارای چندین دیدگاه است. فضای سه بعدی در تصویر به عنوان گاوسیان نامیده میشود و تکنیکهای آموزش ماشینی برای یادگیری پارامترهای هر گاوسی پیادهسازی شده است. Gaussian Splatting نیازی به آموزش در حین رندر ندارد که زمان رندر سریعتر را تسهیل میکند. تصویر زیر به طور خلاصه معماری سه بعدی گاوسی اسپلیتینگ را نشان میدهد.
روش 3D Gaussian Splatting ابتدا از مجموعه تصاویر ورودی برای تولید یک ابر نقطه استفاده میکند. سپس Gaussian Splatting از تصاویر ورودی برای تخمین پارامترهای خارجی دوربین مانند شیب و موقعیت با تطبیق پیکسلهای بین تصاویر استفاده میکند و سپس از این پارامترها برای محاسبه ابر نقطه استفاده میشود. با استفاده از روشهای مختلف یادگیری ماشین، پاشیدن گاوسی چهار پارامتر را برای هر گاوسی بهینهسازی میکند: موقعیت (محل قرارگیری آن)، کوواریانس (میزان کشش یا مقیاس آن در ماتریس 3×3)، رنگ (رنگبندی RGB چیست) و آلفا (اندازه گیری شفافیت). فرآیند بهینهسازی تصویر را برای هر موقعیت دوربین ارائه میدهد و از آن برای تعیین پارامترهای نزدیک به تصویر اصلی استفاده میکند. در نتیجه، خروجی گاوسی اسپلیت سه بعدی، تصویری است با نام Splatter Image که در موقعیت دوربینی که از آن گرفته شده است، بیشترین شباهت به تصویر اصلی دارد.
علاوه بر این، تابع opacity و تابع رنگ در Gaussian Splatting میدان تابشی با جهت مشاهده نقطه سه بعدی میدهد. سپس چارچوب، میدان درخشندگی را با یکپارچهسازی رنگهای مشاهدهشده در امتداد پرتویی که از پیکسل عبور میکند، بر روی یک تصویر نمایش میدهد. پاشیدن گاوسی این توابع را به عنوان ترکیبی از گاوسهای رنگی نشان میدهد که در آن میانگین یا مرکز گاوسی همراه با کوواریانس گاوسی در تعیین شکل و اندازه آن کمک میکند. هر گاوسی همچنین دارای یک ویژگی opacity و یک ویژگی رنگ وابسته به دید (view) است که با هم میدان درخشندگی را مشخص میکنند.
تصویر اسپلتر
مؤلفه رندر مجموعه گاوسیهای سه بعدی را به یک تصویر نگاشت میکند. برای انجام بازسازی سه بعدی تک نما، فریم ورک سپس به دنبال یک تابع معکوس برای گاوسیهای سه بعدی است که ترکیبی از گاوسیهای سه بعدی را از یک تصویر بازسازی میکند. نکته کلیدی در اینجا پیشنهاد یک طراحی موثر و در عین حال ساده برای تابع معکوس است. به طور خاص، برای یک تصویر ورودی، چارچوب یک گاوسی را برای هر پیکسل جداگانه با استفاده از معماری شبکه عصبی تصویر به تصویر برای خروجی یک تصویر، Splatter Image، پیشبینی میکند. شبکه همچنین شکل، کدورت و رنگ را پیشبینی میکند.
اکنون، ممکن است حدس زده شود که چگونه چارچوب Splatter Image میتواند بازنمایی سه بعدی یک شی را بازسازی کند، حتی اگر فقط به آن دسترسی داشته باشد. یکی از دیدگاههای آن این است که در زمان واقعی، چارچوب Splatter Image یاد میگیرد که از برخی از گاوسیهای موجود برای بازسازی نمای استفاده کند و از گاوسیهای باقیمانده برای بازسازی خودکار بخشهای دیده نشده تصویر استفاده میکند. برای به حداکثر رساندن کارایی، فریم ورک میتواند به طور خودکار هر گاوسی را با پیشبینی صفر بودن کدورت خاموش کند. اگر کدورت صفر باشد، گاوسیها خاموش میشوند و چارچوب این نقاط را ارائه نمیکند و در عوض در پسپردازش حذف میشوند.
از دست دادن سطح تصویر
مزیت اصلی بهره برداری از سرعت و کارایی ارائه شده توسط روش Splatter Gaussian این است که چارچوب را برای ارائه تمام تصاویر در هر تکرار، حتی برای دسته هایی با اندازه دسته نسبتا بزرگتر، تسهیل می کند. علاوه بر این، این نشان میدهد که نه تنها چارچوب قادر به استفاده از تلفات تجزیهپذیر است، بلکه میتواند از تلفات سطح تصویر نیز استفاده کند که به تلفات در هر پیکسل تجزیه نمیشوند.
عادی سازی مقیاس
در مجموعههای داده با تصاویر واقعی، ابهام در تخمین اندازه یک شی با توجه به یک نمای منفرد چالش برانگیز است. این چالش به دلیل متغیر بودن شرایط نورپردازی، زوایا و فواصل اجسام از دوربین وجود دارد. از طرفی، در مجموعههای داده مصنوعی، این مشکل به دلیل استاندارد بودن شرایط دیداری و فواصل ثابت میان اجسام و دوربین کمتر وجود دارد.
برای حل این چالش در چارچوب Splatter Image از چندین روش پیشپردازش استفاده میشود تا مقیاس تقریباً یکسانی برای همه اشیا فراهم شود. این پیشپردازشها میتوانند شامل تنظیم مقیاس، تبدیلهای هندسی، یا استفاده از اطلاعات دوربین و اطلاعات هندسی دیگر باشند. این روشها به کاهش اثر ابهام در تخمین اندازه اشیا کمک کرده و دقت بازسازی را افزایش داده و به چارچوب امکان تخمین اندازه اشیا از تصاویر واقعی را میدهد.
مشاهده رنگ وابسته
برای نمایش رنگهای وابسته به نمایش، چارچوب Splatter Image از هارمونیکهای کروی به عنوان یک روش تعمیم رنگها استفاده میکند که به وسیله آن میتواند رنگهایی را که فراتر از مدل رنگی لامبرتی میروند، بازنمایی کند. برای هر گاوسی خاص، مدل ضرایبی تعریف میشود که توسط شبکه عصبی و هارمونیکهای کروی پیشبینی میشوند.
در این روش، تغییر دیدگاه یک جهت دید در منبع دوربین را به جهت مشاهده متناظر آن در قاب مرجع تبدیل میکند. سپس، مدل ضرایب مربوطه را برای یافتن تابع رنگ تبدیل شده پیدا میکند. این امکان فراهم میشود زیرا در هنگام چرخش، هارمونیکهای کروی به همراه هر ترتیب دیگر بسته میشوند و این ویژگی به مدل این امکان را میدهد که رنگها را به صورت وابسته به جهت دید، با دقت بالا مدل کند.
معماری شبکه های عصبی
است. بنابراین، با استفاده از یک مدل که برای هر نمای ورودی اعمال میشود، چارچوب Splatter Image بازسازیهای فردی را تولید میکند و سپس از رویکرد دیدگاه برای ترکیب این بازسازیها استفاده میکند.
برای تسهیل هماهنگی و تبادل اطلاعات کارآمد بین نماها در شبکه، چارچوب Splatter Image دو تغییر در شبکه ایجاد میکند. ابتدا، چارچوب، مدل را با حالت دوربین مربوطه خود شرایط میدهد و بردارها را با رمزگذاری هر ورودی با استفاده از جاسازی موقعیت سینوسی (SIN) که منجر به چندین بعد میشود، عبور میدهد. در اینجا SIN به معنای جاسازی موقعیت سینوسی است. دوم، چارچوب لایههای توجه متقابل را برای تسهیل ارتباط بین ویژگیهای نماهای مختلف اضافه میکند.