محققان روشی برای تبدیل صدای مونو به صدای 2.5 بعدی پیدا کردند
محققان دانشگاه تگزاس و تیم تحقیقات هوش مصنوعی فیسبوک توانستند با استفاده از روش یادگیری ماشینی صدای تک کاناله (مونو) را به صدای دو کاناله تبدیل کنند. در این روش از یک ویدیو برای تعیین اشیا و چیدمان صحنه استفاده میشود تا «صدای بصری ۲.۵ بعدی» به وجود بیاید. این تکنولوژی بستری فراهم کرده تا با تبدیل صدای مونو به صدای دو کاناله امکان استفاده از این نوع اصوات در هدستهای واقعیت مجازی میسر شود.
انسانها به لطف داشتن دو گوش و فاصلهای که میان آنها قرار دارد میتوانند فاصله و موقعیت اشیا صدادار را در محیطهای ۳ بعدی درک کنند. عوامل مختلفی، مثل بلندی صدا و این که امواج صوتی ابتدا به کدام گوش میرسد، به شنونده کمک میکند تا جهت و فاصله منبع صدا را تشخیص دهد.
این اتفاق که اصطلاحا تجربه صدای ۳ بعدی نام دارد با ضبط صدا توسط سیستمهای دوکانالهای قابل بازسازی است که دو میکروفون را در فاصلهای تقریبا به اندازه فاصله گوشهای انسان قرار داده باشند. وقتی با هدفون به فایل خروجی از این پروسه گوش داده شود، صدایی واقعگرایانه و جذاب به وجود میآید که امکان تشخیص اشیا در فضای ۳ بعدی را فراهم میکند.
با این حال اکثر صداها تک کاناله هستند، یعنی با یک میکروفون و از یک موقعیت ضبط شدهاند. صداهای مونو جلوههایی را که به انسان اجازه میدهد فاصله و موقعیت اشیا را تشخیص دهد ضبط نمیکند، در نتیجه محصول نهایی واقعگرایی و جذابیت کمتری دارد.
تاکنون تبدیل صدای مونو به صدای دو کاناله کمابیش غیرممکن بوده است، اما دو محقق به نامهای روهان گائو و کریستن گرامن روشی برای انجام این کار پیدا کردهاند. در این روش با استفاده از یادگیری ماشینی چیزی تولید میشود که این دو نفر به آن صدای ۲.۵ بعدی میگویند. در این روش ویدیوی متناسب با صدا به سیستم داده میشود تا سرنخهای بصری پیدا و از آنها برای تنظیم سطوح و شبیهسازی موقعیت اشیا تولیدکننده صدا در فضاهای ۳ بعدی استفاده شود.
البته این روش محدودیتهایی دارد که بهخصوص باعث میشود نتوانید اشیایی را که در ویدیو حضور ظاهری ندارند پردازش کنید.