به گزارش گروه وبگردی باشگاه خبرنگاران جوان، بدون شک گفتار ابزاری قدرتمند است، اما ممکن است همه ما توانایی استفاده از آن را نداشته باشیم. برای مثال بیمارانی که توانایی تکلم خود را از دست داده یا آنهایی که به طور مادرزادی قادر به سخنگفتن نیستند. اکنون تحقیقات جدیدی در دست انجام است تا با تولید فناوریهای مورد نیاز بتواند به افرادی که در زمینه تولید گفتار مشکل دارند کمک کند. اما چگونه؟ در چنین مواقعی، فناوری با یک الگوریتم جدید که پیامهای مربوط به عضلات شما را به صداهای قابل خواندن تبدیل میکند، میتواند به حل این مشکل کمک کند.
تبدیل ترکیبی پیچیده از سیگنال دادههای ارسال شده از مغز به اندامهای بدن، برای تبدیل حجمی از هوا به صدای معنیدار، به هیچ وجه آسان نیست. لب، زبان، گلو، فک، حنجره و دیافراگم همه باید در یک همگامسازی تقریبا کامل با هم همکاری کرده و در ذیل نظارت مغز بتوانند سادهترین عبارات را بیان کنند.
به نظر میرسد چند روش مختلف برای ایجاد گفتار مصنوعی وجود دارد. در اوایل سال جاری، تیمی به سرپرستی دانشگاه کلمبیا با موفقیت از رویکردی کاملا متفاوت برای تبدیل فعالیت مغز به گفتار استفاده کردند. آنها یک هجای کلمات را براساس درک مغز از صداهای گفتاری برداشته شده از قشر شنوایی انسان بازسازی میکنند. در این حالت حدود سهچهارم از گفتار مصنوعی که از این طریق تولید شده است، قابل درک است که نتیجه بدی نیست!
یک راه بهتر، بر اساس تحقیقاتی که تیم محققان دانشگاه کالیفرنیا در سانفرانسیسکو انجام دادند این بود که از سیگنالهای مغزی که به تجهیزات صوتی بدن فرستاده میشود رمزگشایی شد. حدس بزنید چگونه سیگنالهای مغزی رسیده به انواع مفصلهای مسؤول تولید صداها، به صوت تبدیل میشود؟ به نظر میرسد این روش یعنی ترجمه حرکات ماهیچهای واضحتر و سادهتر از تفسیر تکمرحلهای سیگنالهای مغز باشد. محققان برای آزمایش ایده خود از همکاری پنج داوطلبی که قبلا برای معالجه صرع مزمن تحت عمل جراحی مغز قرار گرفته بودند، استفاده کردند.
بیماران برای شنیدن پیامهای عصبی، الکترودهایی روی سر داشتند که دقیقا روی سطح مغز کاشته شده بود. روی زبان، دندان و لب بیماران نیز سنسورهایی برای ردیابی حرکات چسبیده بود. سپس از آزمایششوندگان خواسته شد تا صدها کلمه و جمله را از یک پایگاه داده تشخیص گفتار و همچنین تعدادی از داستانهای معروف جهان مثل زیبای خفته و داستان خرگوش و لاکپشت را بخوانند. الگوی سیگنالهای مغزی که بهطور انحصاری برای کنترل حرکت لبها، زبان و فک تولید میشوند دریافت و سپس با الگوریتم ویژهای طراحی شدند. نقشه این حرکات برگههای صدا را تولید کرد که با یک ترکیبکننده گفتار مصنوعی خوانده میشد.
برای آزمون میزان موفقیت این برگههای صدای تولید شده از ۱۷۰۰ شرکتکننده خواسته شد تا از طریق سرویس آمازون(Amazon Mechanical Turk) در این آزمون شرکت کنند.
از شرکتکنندگان خواسته شده بود تا به تعدادی جمله تولیدشده گوش دهند و سپس از روی یک فهرست بلند حدس بزنند کدام کلمهها را در صدای پخش شده شنیده بودند. نتایج متنوعی از این پژوهش به دست آمد. عموما از بین یک فهرست ۲۵ کلمهای، بیشتر شنوندگان قادر به تشخیص نیمی از فهرست بودند، همچنین یکی از آزمایششوندگان با شنوایی قوی توانست تمام کلمات را به درستی تشخیص دهد. این در حالی است که بعضی از جملات بسیار آسانتر از دیگر جملات بودند و حتی در مواردی که صدا رشتههای آوایی نامرتبتری داشت
باز هم شامل کلماتی میشد که بهآسانی قابل تشخیص بودند. برای تجاریسازی فناوریهایی از این دست هنوز به تحقیقات بیشتری نیاز است و این بدون در نظر گرفتن دشواریها و قوانین بسیار سختگیرانه درخصوص ایمپلنتهای عصبی است.
منبع: روزنامه جام جم
انتهای پیام/