اطلاعات صوتی می توانند مسیریابی را ساده تر کنند
دانشمندان با اضافهکردن اطلاعات صوتی به اطلاعات تصویری توانستند موفقیت هوش مصنوعی را در مسیرهای پیچوخم سهبعدی افزایش دهند.
یادگیری فقط با استفاده از اطلاعات بصری برای هوش مصنوعی آسان نیست. برای مثال، رسیدن به هدف تنها با اطلاعات بصری برای هوش مصنوعی بسیار دشوار است. در محیط شبیهسازیشده، هدف معمولا در دید عامل در مسیر مستقیم وجود ندارد. سناریویی را در نظر بگیرید که اتاقهای متعددی وجود دارد و سوژه در یکی از همین اتاقها است. بنابراین، با اضافهکردن اطلاعات صوتی میتوان به اطلاعات ارزشمندی دست یافت که بتواند به حل چنین مشکلاتی کمک کند.
پژوهشگران هوش مصنوعی از مدلی انعطافپذیر برای انواع دادهها (پیکسلهای صوتی و تصویری) بهنام Q-network عمیق استفاده کردند. استفاده از این مدل در بازیهای آتاری موفقیت آمیز بود. آنها عامل را در محیط تحقیقاتی دیجیتال ساختهشدهی VizDoom در بازی تیراندازی اول شخص Doom با دو ویژگی مختلف زیر و بمی صدا و نمونههای خام اولیه صوتی آموزش دادند.
تیم تحقیقاتی توضیح داد اطلاعات محیط (فاصله از هدف) بهصورت نمونهی زیر و بمی صدا کدگذاری شد. سپس، این نمونه به عامل هوش مصنوعی همراه با تصویر ارائه شد. ازآنجاکه فاصله تا هدف بهصورت کموزیادشدن صدا کدگذاری شده بود، این ویژگی بهراحتی میتوانست اطلاعات مفیدی به عامل انتقال دهد. هرچه صدا بلندتر میشد، به این معنا بود که عامل به هدف نزدیکتر شده است. این ویژگیها بهعنوان بررسی منطقی برای دراختیارگذاشتن اطلاعات مفید ارائهشده دربارهی فاصله از هدف برای عامل تعیین شدند.
در آزمایشی، سناریو VizDoom سفارشی روی کامپیوتر اجرا شد. دانشمندان به عامل هوش مصنوعی تکلیفی برای حرکت در مسیر پیچوخم سهبعدی شکل دادند. این حرکت بهصورت چرخیدن به راستوچپ یا جلووعقب یا رفتن به اتاقهای مختلف بود. در ابتدا، عامل اقدامات کاملا تصادفی انجام میداد؛ اما بهمرورزمان و با دریافت پاداش هنگام رسیدن به هدف (روشی در روانشناسی با نام یادگیری تقویتکننده) عملکرد عامل بهبود پیدا کرد.
دو نوع متفاوت از آزمایشها بررسی شدند. در مدل اول، عامل بهصورت تصادفی در یک اتاق قرار میگرفت و در مدل دوم، عاملها در یکی از پنج اتاق ظاهر میشدند. در مدل اول، اطلاعات تصویری همراه با زیر و بمی صدا و دادههای خام اولیه صوتی کدگذاری شدند. زمانیکه اطلاعات همراه با ویژگیهای صوتی کدگذاری شده بودند، بهطورمتوسط عاملها پاداش بهتری در هر آزمون بهدست آوردند تا اینکه فقط اطلاعات تصویری بهتنهایی ارائه میشدند. در مدل بعدی، اطلاعات صوتی و تصویری باهم باعث شدند تا عامل موفق شود در بیشتر موارد به هدف برسد.
طبق آزمایشها، دانشمندان به این نتیجه رسیدند زمانیکه تنها از دادههای تصویری استفاده میکنند، میزان موفقیت در عملکرد عامل هوش مصنوعی ۴۳ درصد است. این در حالی است که وقتی به اطلاعات تصویری اطلاعات صوتی اولیه و زیر و بمی صدا اضافه میشود، میزان موفقیت عامل بهطورمیانگین بهترتیب تا ۸۷ و ۸۶ درصد افزایش مییاید. بهطورمتوسط تعداد مراحل موردنیاز برای رسیدن به هدف هنگام استفاده صرف از اطلاعات تصویری ۱,۴۲۰ مرحله است. این تعداد، زمانی که اطلاعات خام اولیهی صوتی و زیر و بمی صدا اضافه شدند، بهترتیب ۷۵۱ و ۶۱۴ مرحله است.
این تیم تحقیقاتی بهغیر از فعالیت در حوزه بازیهای ویدئویی، مشغول آزمایشها متفاوت در محیطهای آزمایشی مختلف است.
منبع: زومیت
نظرات کاربران