اطلاعات صوتی می توانند مسیریابی را ساده تر کنند

اطلاعات صوتی می توانند مسیریابی را ساده تر کنند

دانشمندان با اضافه‌کردن اطلاعات صوتی به اطلاعات تصویری توانستند موفقیت هوش مصنوعی را در مسیرهای پیچ‌وخم سه‌بعدی افزایش دهند.

یادگیری فقط با استفاده از اطلاعات بصری برای هوش مصنوعی آسان نیست. برای مثال، رسیدن به هدف تنها با اطلاعات بصری برای هوش مصنوعی بسیار دشوار است. در محیط شبیه‌سازی‌شده، هدف معمولا در دید عامل در مسیر مستقیم وجود ندارد. سناریویی را در نظر بگیرید که اتاق‌های متعددی وجود دارد و سوژه در یکی از همین اتاق‌ها است. بنابراین، با اضافه‌کردن اطلاعات صوتی می‌توان به اطلاعات ارزشمندی دست یافت که بتواند به حل چنین مشکلاتی کمک کند.

پژوهشگران هوش مصنوعی از مدلی انعطاف‌پذیر برای انواع داده‌ها (پیکسل‌های صوتی و تصویری) به‌نام Q-network عمیق استفاده کردند. استفاده از این مدل در بازی‌های آتاری موفقیت آمیز بود. آن‌ها عامل را در محیط تحقیقاتی دیجیتال ساخته‌شده‌ی VizDoom در بازی تیراندازی اول شخص Doom با دو ویژگی مختلف زیر و بمی صدا و نمونه‌های خام اولیه صوتی آموزش دادند.

تیم تحقیقاتی توضیح داد اطلاعات محیط (فاصله از هدف) به‌صورت نمونه‌ی زیر و بمی صدا کدگذاری شد. سپس، این نمونه به عامل هوش مصنوعی همراه‌ با تصویر ارائه شد. ازآنجاکه فاصله تا هدف به‌صورت کم‌و‌زیادشدن صدا کدگذاری شده بود، این ویژگی به‌راحتی می‌توانست اطلاعات مفیدی به عامل انتقال دهد. هرچه صدا بلندتر می‌شد، به این معنا بود که عامل به هدف نزدیک‌تر شده است. این ویژگی‌ها به‌عنوان بررسی منطقی برای دراختیارگذاشتن اطلاعات مفید ارائه‌شده درباره‌ی فاصله از هدف برای عامل تعیین شدند.

در آزمایشی، سناریو VizDoom سفارشی روی کامپیوتر اجرا ‌‌شد. دانشمندان به عامل هوش مصنوعی تکلیفی برای حرکت در مسیر پیچ‌وخم سه‌بعدی شکل دادند. این حرکت به‌صورت چرخیدن به راست‌وچپ یا جلووعقب یا رفتن به اتاق‌های مختلف بود. در ابتدا، عامل اقدامات کاملا تصادفی انجام می‌داد؛ اما به‌مرورزمان و با دریافت پاداش هنگام رسیدن به هدف (روشی در روان‌شناسی با نام یادگیری تقویت‌کننده) عملکرد عامل بهبود پیدا کرد.

دو نوع متفاوت از آزمایش‌ها بررسی شدند. در مدل اول، عامل به‌صورت تصادفی در یک اتاق قرار می‌گرفت و در مدل دوم، عامل‌ها در یکی از پنج اتاق ظاهر می‌شدند. در مدل اول، اطلاعات تصویری همراه‌ با زیر و بمی صدا و داده‌های خام اولیه صوتی کدگذاری شدند. زمانی‌که اطلاعات همراه‌ با ویژگی‌های صوتی کدگذاری شده بودند، به‌طورمتوسط عامل‌ها پاداش بهتری در هر آزمون به‌دست آوردند تا اینکه فقط اطلاعات تصویری به‌تنهایی ارائه می‌شدند. در مدل بعدی، اطلاعات صوتی‌ و تصویری باهم باعث شدند تا عامل موفق شود در بیشتر موارد به هدف برسد.

طبق آزمایش‌ها، دانشمندان به این نتیجه رسیدند زمانی‌که تنها از داده‌های تصویری استفاده می‌کنند، میزان موفقیت در عملکرد عامل هوش مصنوعی ۴۳ درصد است. این در حالی است که وقتی به اطلاعات تصویری اطلاعات صوتی اولیه و زیر و بمی صدا اضافه می‌شود، میزان موفقیت عامل به‌طورمیانگین به‌ترتیب تا ۸۷ و ۸۶ درصد افزایش می‌یاید. به‌طورمتوسط تعداد مراحل موردنیاز برای رسیدن به هدف هنگام استفاده صرف از اطلاعات تصویری ۱,۴۲۰ مرحله است. این تعداد، زمانی‌ که اطلاعات خام اولیه‌ی صوتی و زیر و بمی صدا اضافه شدند، به‌ترتیب ۷۵۱ و ۶۱۴ مرحله است.

این تیم تحقیقاتی به‌غیر از فعالیت در حوزه بازی‌های ویدئویی، مشغول آزمایش‌ها متفاوت در محیط‌های آزمایشی مختلف است.

منبع: زومیت

 

بدون نظر

پاسخی بنویسید