پردازش صدا با استفاده از تکنیک های شبکه های عصبی مصنوعی

توضیحات مختصر محصول

چکيده:

پردازش صدا یکی از مباحث روز و هیجان انگیزه بوده که کاربرد های بسیار دارد. یکی از راه های پردازش صدا، استفاده از مدل های آماری است. مدل سازی عروض، نقشی حیاتی در توسعه ی سیستم ترکیب متن به گفتار (TTS) با کیفیت بالا را بازی می کند. عروض به مدت زمان، زیر و بمی صدا و الگوهای شدت گفتار مربوط به دنباله ای از هجاها، کلمات و عبارات اشاره می کند. این ویژگی ها معمولاً در بخش های طولانی تری از گفتار مشاهده می شوند.

دنباله ی مدت زمان هجا به عنوان الگوی مدت زمان تعریف شده است. یک روش شناسی هوشمند ترکیب شده توسط تبدیل بسته- موجک و شبکه ی عصبی مصنوعی برای تشخیص کیفیت صدا در این مقاله ارائه شده است. بر اساس اندازه ی تسریع نویز حامل، مقایسه ی پنج تکنیک تجزیه و تحلیل فرکانس- زمان نشان می دهد که WPT با پارتیشن فرکانس معلوم برای شبیه سازی باندهای بحرانی شنوایی انسان مناسب تر است. بنابر این، درخت ناکامل WPT به نام OPWT به طور خاص برای استخراج ویژگی مبتنی بر انرژی صدا ها طراحی شده است.

 

بیان مساله:

تنوع در الگوهای مدت زمان، موجب طبیعی بودن گفتار می شود. زیر و بمی صدا می تواند به عنوان دینامیک های فرکانس های پایه (F0) کانتور در طول زمان تعریف شود. در نظر گرفته می شود که شدت، رابطه ی بسیار نزدیکی با بلندی صدای دریافتی داشته باشد. رفتار دینامیکی الگوی شدت، به عنوان کانتور شدت یا انرژی شناخته شده است.

یک مدل عروض خوب باید مدت زمان، زیر و بمی صدا و الگوهای شدت گفتار طبیعی را ضبط کند. هدف مطالعه ی فعلی، تعیین اینکه آیا مدل های غیر خطی می توانند دانش ضمنی الگوهای عروض هجاها را ضبط کند یا خیر، می باشد. در این کار، مدل های شبکه ی عصبی برای مدل سازی عروض ارائه شدند. شبکه های عصبی برای قابلیت ضبط روابط غیر خطی پیچیده ی ارائه شده در داده های [۱, ۲] شناخته شده می باشند. شبکه های عصبی توانایی تعمیم پیش بینی مقادیر خوبی برای الگوهایی را دارند که در فاز یادگیری ارائه نشده اند.

اخیراً، یک نقشه ی خود سازماندهی افزایشی ادغام شده با شبکه عصبی سلسله مراتبی (ISOM-HNN)، توجه زیادی را در میان کار محققان در ناحیه ی شبکه های عصبی و تشخیص الگو، به خود جلب کرده است. دلایل بالقوه برای محبوبیت آن با توجه به (i) تشخیص مؤثر سیگنال های رادیویی شناخته شده در محیط های بسیار مبهم، (ii) مناسب با برنامه های زمان واقعی، و (iii) بهبود در دقت پیش بینی می باشد. هدف ISOM جاسازی توانایی ضبط افزایشی در داخل SOM می باشد.

 

كليد واژه: پردازش صدا، شبکه عصبی مصنوعی، مدل سازی عروض

 

پی سی اسکریپت تلاش نموده است تا مقاله ای جامع برای شما عزیزان گردآوری نماید.

نمایش بیشتر
دیدگاه های کاربران
دیدگاهتان را با ما درمیان بگذارید
تعداد دیدگاه : 0 امتیاز کلی : 0.0 توصیه خرید : 0 نفر
بر اساس 0 خرید
0
0
0
0
0

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین کسی باشید که دیدگاهی می نویسد “پردازش صدا با استفاده از تکنیک های شبکه های عصبی مصنوعی”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

قیمت محصول

20,000 تومان

قوانین استفاده

خرید محصول توسط کلیه کارت های شتاب امکان پذیر است و بلافاصله پس از خرید، لینک دانلود محصول در اختیار شما قرار خواهد گرفت و هر گونه فروش در سایت های دیگر قابل پیگیری خواهد بود.

  • دسترسی به فایل محصول به صورت مادام‌العمر
  • ۶ ماه پشتیبانی کاملا رایگان و تضمین شده