خانهاخبار
محققان روشی برای تبدیل صدای مونو به صدای 2.5 بعدی پیدا کردند

محققان روشی برای تبدیل صدای مونو به صدای 2.5 بعدی پیدا کردند

محققان به تازگی موفق شدند با استفاده از سیستم یادگیری ماشینی صدای مونو را به صدای دو کاناله یا 2.5 بعدی تبدیل کنند. این دستاورد آن‌ها را قادر می‌سازد تا از صداهای مونو در هدست‌های واقعیت مجازی استفاده نمایند.
۱۱ دی ۱۳۹۷

تبلیغات

home_header

محققان دانشگاه تگزاس و تیم تحقیقات هوش مصنوعی فیسبوک توانستند با استفاده از روش یادگیری ماشینی صدای تک کاناله (مونو) را به صدای دو کاناله تبدیل کنند. در این روش از یک ویدیو برای تعیین اشیا و چیدمان صحنه استفاده می‌شود تا «صدای بصری ۲.۵ بعدی» به وجود بیاید. این تکنولوژی بستری فراهم کرده تا با تبدیل صدای مونو به صدای دو کاناله امکان استفاده از این نوع اصوات در هدست‌های واقعیت مجازی میسر شود.

انسان‌ها به لطف داشتن دو گوش و فاصله‌ای که میان آن‌ها قرار دارد می‌توانند فاصله و موقعیت اشیا صدادار را در محیط‌های ۳ بعدی درک کنند. عوامل مختلفی، مثل بلندی صدا و این که امواج صوتی ابتدا به کدام گوش می‌رسد، به شنونده کمک می‌کند تا جهت و فاصله منبع صدا را تشخیص دهد.

این اتفاق که اصطلاحا تجربه صدای ۳ بعدی نام دارد با ضبط صدا توسط سیستم‌های دوکاناله‌ای قابل بازسازی است که دو میکروفون را در فاصله‌ای تقریبا به اندازه فاصله گوش‌های انسان قرار داده باشند. وقتی با هدفون به فایل خروجی از این پروسه گوش داده شود، صدایی واقع‌گرایانه و جذاب به وجود می‌آید که امکان تشخیص اشیا در فضای ۳ بعدی را فراهم می‌کند.

با این حال اکثر صداها تک کاناله هستند، یعنی با یک میکروفون و از یک موقعیت ضبط شده‌اند. صداهای مونو جلوه‌هایی را که به انسان اجازه می‌دهد فاصله و موقعیت اشیا را تشخیص دهد ضبط نمی‌کند، در نتیجه محصول نهایی واقع‌گرایی و جذابیت کمتری دارد.

تاکنون تبدیل صدای مونو به صدای دو کاناله کمابیش غیرممکن بوده است، اما دو محقق به نام‌های روهان گائو و کریستن گرامن روشی برای انجام این کار پیدا کرده‌اند. در این روش با استفاده از یادگیری ماشینی چیزی تولید می‌شود که این دو نفر به آن صدای ۲.۵ بعدی می‌گویند. در این روش ویدیوی متناسب با صدا به سیستم داده می‌شود تا سرنخ‌های بصری پیدا و از آن‌ها برای تنظیم سطوح و شبیه‌سازی موقعیت اشیا تولیدکننده صدا در فضاهای ۳ بعدی استفاده شود.

البته این روش محدودیت‌هایی دارد که به‌خصوص باعث می‌شود نتوانید اشیایی را که در ویدیو حضور ظاهری ندارند پردازش کنید.

image