به گزارش
گروه علمي باشگاه خبرنگاران به نقل از واحد ارتباطات دبیرخانه شورای عالی اطلاعرسانی، یکی از بنیادیترین نیازها برای تولید ماشین ترجمه آماری، تولید پیکرهای موازی است و این دبیرخانه با توجه به اهمیت موضوع در حوزه گسترش خط و زبان فارسی در محیط رایانهای، تهیه پیکره موازی انگلیسی-فارسی با یک میلیون جمله را در دستور کار خود قرار داد .
بنا بر اين گزارش،پیکره موازی از متونی تشکیل میشود که برای هر جمله از آن در یک زبان ترجمه معادل آن در زبان دیگر آورده میشود. مترجم ماشینی با استفاده از چنین پیکرهای، فرآیند ترجمه را فراگرفته و پس از گذراندن مرحله آموزش، میتواند برای ترجمه جملات جدید مورد استفاده قرار گیرد .
به دلیل نیاز شدیدی که به پیکرههای موازی در تولید ماشینهای ترجمه آماری وجود دارد، محققان علاوه بر تحقیقات فراوانی که در زمینه چگونگی یادگیری فرآیند ترجمه و الگوریتمهای ترجمه آماری انجام دادهاند، تلاشهای زیادی نیز در زمینه پیکرههای موازی و مسائل مربوط به آنها انجام دادهاند. با وجود همه تلاشها و تحقیقاتی که در زمینه تولید پیکرههای موازی صورت گرفته، متأسفانه تاکنون پیکره مناسبی که بتواند نیازهای محققان فارسیزبان را برآورده نماید، برای زبان فارسی تهیه نشده بود .
بر این اساس در مرحله اول پروژه به امکانسنجی و راهکارها و منابع ممکن برای تولید چنین پیکرهای پرداخته شد و سپس ابزار لازم برای الکترونیکی کردن منابع و همطرازی آنها توسعه یافت و در انتها با بهکارگیری افراد متخصص پیکرهای با یک میلیون جمله همطراز شده ایجاد شد .
گفتنی است، راهاندازی سامانه ترجمه آماری پایه با عنوان «مترجم بر خط» با همکاری دانشگاه علم و صنعت و دبیرخانه شورای عالی اطلاعرسانی از جمله کاربردهای عملی تهیه پیکره موازی انگلیسی-فارسی میزان است که اکنون به صورت آزمایشی با آدرس www.machinetranslation.ir در دسترس علاقهمندان قرار گرفته است .
نتایج ارزیابیها نشان میدهد که علیرغم ساده و پایه بودن این سامانه ترجمه، کیفیت ترجمه بر اساس شاخصهای بینالمللی (مانند شاخص بلو) در مقایسه با سامانههای مشابه ترجمه ماشینی انگلیسی به فارسی قابل قبول است .
دریافت این پیکره پس از تکمیل کاربرگ الکترونیکی در قالب تفاهمنامه از طریق آدرس www.dadegan.ir/catalog/mizan در اختیار سازمانها، نهادها، دانشگاهها، مراکز علمی و پژوهشگران قرار خواهد گرفت./ح