پردازش گفتار speech recognition

پردازش گفتار، فناوری تشخیص گفتار نرم‌افزاری است که قادر است صوت را به متن تبدیل کند. فناوری تشخیص گفتار به رایانه‌ای که توانایی دریافت صدا را دارد برای مثال به یک میکروفن مجهز است این قابلیت را می‌دهد که صحبت کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن یا به عنوان جایگزین برای ارتباط با رایانه کاربرد دارد. بازشناسی گفتار برای تبدیل گفتار به متن یا ارتباط گفتاری با رایانه‌ها به جای استفاده از کیبرد یا موس برای تایپ کردن بکار می‌رود.

برای انتقال گفتار توسط ماشین، نیاز است پردازش‌های مختلفی بر روی سیگنال گفتار انجام شود.

انواع پردازش های گفتار

  1. بازشناسی خودکار گفتار (Automatic Speech Recognition(ASR))

برای تبدیل یک مکالمه گفتاری به اطلاعات قابل فهم برای کامپیوتر نیاز است آن را به متن تبدیل کنیم که به آن بازشناسی خودکار گفتار می‌گویند.

ساختار گفتار پیوسته است مانند زمانی که جملات ناقص بین دو انسان انتقال پیدا می‌کند مثلا 30 در صد آن انتقال پیدا می‌کند ولی شنونده قادر خواهد بود کلیه پیام را بدون از دست رفتن هیچ قسمتی از آن تمام پیام را متوجه شود. متوجه شدن تمام پیام به علت وجود پیوستگی در هجاها، حروف، جملات، کلمات و بخش‌های دیگر گفتار است. انسان‌ها بدون تفکر از قابلیت پیوستگی استفاده می‌کنند.

نمونه های ساده‌ای از کاربردهای مختلف بازشناسی گفتار شامل:

  • دستورات کنترلی برای یک سیستم مانند شروع یا توقف
  • در ارسال اسمس تبدیل گفتار به نوشتار
  • ابزاری برای افراد ناتوان حرکتی
  1. تبدیل متن به گفتار (Text to Speech)

پردازش گفتار برای تبدیل نوشتار به گفتار دقیقا نقطه مقابل  بازشناسی خودکار گفتار است. در این نوع پردازش، به جای ارتباط از طرف انسان با کامپیوتر، هدف برقراری ارتباط از طرف ماشین با انسان به وسیله گفتار است. به عنوان مثال  پردازش متن به گفتار در نرم افزار‌های کتاب خوان استفاده می‌شوند.

  1. بهسازی گفتار Speech Enhacement(SE)

سیگنال گفتار توسط نویز تخریب می شوند. به طور کلی نویزهای سیگنال گفتار به دو دسته، نویزهای جمعی (Aditional Noise) و دسته دیگر نویز‌های کانولوشنی (Convolutional Noise) تقسیم می‌شود. برای بهبود کیفیت سیگنال تخریب شده توسط نویز، روش های متفاوتی ارائه شده است که با توجه به هدف مورد نظر، هر کدام کاربردهای مختلفی دارند.

بهسازی گفتار خود به عنوان یک روش پیش پردازش برای بسیاری از سیستم‌های پردازش گفتار مورد استفاده قرار می‌گیرد. عمدتا روش‌های بهسازی گفتار بر کاهش اثر نویز جمعی تمرکز دارند. نویز جمعی می‌تواند انواع مختلفی داشته باشد به طور مثال صدای ضبط شده در داخل استادیوم فوتبال، آلوده به نویز جمعی است.

  1. کدینگ گفتار (Speech Coding)

به طور کلی کدینگ گفتار دو تا کاربرد اصلی دارد اولی فشرده سازی داده‌های سیگنال صوتی دیجیتال که حاوی گفتار است یا کاهش منابع مورد استفاده و دیگری  رمز گذاری صوتی با هدف افزایش امنیت است.

کدینگ گفتار فرآیند تبدیل سیگنال گفتار به شکل فشرده‌تر است، که می‌توان پس از فشرده سازی با تعداد کمی از رقم‌های باینری منتقل شود. امکان ارسال هر بار سیگنال، با پهنای باند نامحدود وجود ندارد. بنابراین فشرده سازی داده سیگنال گفتار یا کدینگ گفتار بسیار کاربردی است. فشرده‌ سازی سیگنال گفتار در ارتباطات از راه دور، ذخیره سازی گفتار در کلاس بالا و رمز گذاری پیام استفاده می‌شود.

 از دیگر اهداف کدینگ گفتار می‌توان به رمزنگاری برای انجام مکالمات رمزگذاری شده اشاره کرد. کاربرد آن بیشتر در موارد نظامی و امنیتی است.

  1. شناسایی گوینده (speaker Identification)

این نوع از پردازش گفتار برای تشخیص هویت هر فرد کاربرد دارد. در این روش صدای هر فرد، هویت آن را مشخص می‌کند.

  1. شناسایی احساسات (Emotion Detection)

صحبت‌های هر انسان نشان دهنده حالات روحی وی می‌باشد.

احساسات به دو صورت در صحبت‌های هر فرد نشان داده می‌شود.

نوع اول نحوه استفاده از کلمات در جمله می‌تواند بیانگر احساسات فرد نیز باشد.

نوع دوم نحوه بیان کلمات هر فرد نشان دهنده احساسات وی می‌باشد. در این دسته از پردازش ها تنها نوع دوم مد نظر قرار می‌گیرند. در صورت لازم برای بدست آوردن حالات روحی هر فرد از روی نحوه بیان کلمات باید از سیستم بازشناسی گفتار استفاده کرد.

این نوع از پردازش گفتار در هوشمندسازی ربات‌های خودکار بسیار حائز اهمیت است. همچنین، می‌تواند در کاربردهای روان پزشکی مورد استفاده قرار گیرد.

  1. آنالیز گفتار (Speech Analysis)

در این نوع از پردازش، محتوای گفتار بیشتر مورد بحث است. به طور مثال در این نوع پردازش، سیستم تشخیص می‌دهد که صحبت‌های انجام شده موضوع سیاسی یا ورزشی بوده است.

  1. جداسازی منابع (Source Seperation)

همانطور که در قسمت بهسازی گفتار(Speech Enhancement(SE)) ذکر شد نویزهای سیگنال گفتار به دو دسته جمعی (Additional Noise) و کانولوشنی (Conventional Noise) تقسیم می‌شوند. نویزهای جمعی در واقع همان صدایی‌های ناخواسته که در کنار سیگنال گفتار در محیط قرار می‌گیرند گفته می‌شود. اگر منبع این نویز صدای یک فرد دیگر در همان محیط باشد که به صورت همان زمان صحبت می‌کند می‌توان از روش‌های مختلفی  که در بحث جداسازی گوینده‌ها مطرح است استفاده کرد.

برای این نوع جداسازی، دو دسته وجود دارد. اولی  هدف بازسازی و تفکیک تمامی منابع گفتار از یکدیگر است و دیگری بدون در نظر گرفتن تعداد گویندگان فقط هدف آن، استخراج صدای یکی از گویندگان است و با بقیه صدای گویندگان همانند نویز برخورد می‌شود.

  1. شناسایی زبان (Language Idenfication)

هدف از شناسایی زبان گویندگان، دسته بندی دادگان  یا گویندگان می‌باشد. از این سیستم برای سیستم بازشناسی چند زبان هم می‌توان استفاده کرد. در دستگاه‌هایی که تعداد وسیعی از کاربران با زبان‌های مختلف صحبت می‌کنند؛ برای خدمت رسانی به طیف بزرگی از افراد نیاز است که بتوانند چند زبان را پشتیبانی کنند. برای افزودن این قابلیت به دستگاه‌ها نیاز  است که  یک سیستم تشخیص زبان در آن‌ها مشهود باشد.

  • آشکار سازی فعالیت گفتاری (Voice Activity Detection(VAD))

در این نوع از پردازش هدف مشخص کردن بخش‌هایی از یک سیگنال گفتار است که حاوی گفتار می‌باشد. این سیستم در کنار سیستم بهسازی گفتار، دو سیستم بسیار مهم برای پیش پردازش گفتار هستند. تقریبا در هر سیستم بازشناسی گفتار این دو نوع کاربرد دارند.

دیدگاه خود را ثبت نمایید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *