پیکره متنی بزرگ از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق به خصوص شبکههای بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبانهای با منابع کمتر مثل فارسی بیشتر احساس میشود.
بدین منظور گروه حرفهای از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به سرپرستی دکتر حسین صامتی به همراه محققان مرکز نوآوری شرکت دانشبنیان عصرگویشپرداز برای این مساله راهحل پیکره ناب را معرفی کردند.
محمدرضا حسینیان مدیرعامل این مرکز نوآوری اعلام کرد: این پیکره، مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
وی گفت: همچنین نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خود را بسازند.
مدیرعامل مرکز نوآوری شرکت دانشبنیان عصرگویشپرداز اعلام کرد: مرکز نوآوری این شرکت دانشبنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایدههای پژوهشی محققان را به عرصه واقعیت پرورش دهد.
حسین صامتی عضو هیات علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه نیز اظهار داشت: از این پیکره میتوان برای fine-tune کردن مدلهای زبانی – که در اصل برای زبان انگلیسی تهیه شدهاند – برای زبان فارسی نیز استفاده کرد، از جمله این مدلهای زبانی میتوان به BERT, BART, T۵ و … اشاره کرد.
در ادامه وی از همه محققان این حوزه دعوت کرد تا با بررسی این پیکره، این تیم را از نظرات بهرهمند سازند.
پیکره متنی ناب
پیکره متنی بزرگ از مهمترین نیازهای آموزش مدلهای شبکه عصبی عمیق به خصوص شبکههای بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبانهای با منابع کمتر – مثل فارسی – بیشتر احساس میشود. ما، تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف (به سرپرستی دکتر حسین صامتی) به همراه محققان مرکز نوآوری شرکت عصرگویشپرداز برای این مساله راهحل پیکره ناب را معرفی کردهایم. این پیکره مجموعه پاکسازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیار کلمه است.
ناب
در سال های اخیر، پردازش زبان طبیعی به عنوان یکی از مهمترین حوزه های یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدل های پایه در این حوزه همان مدل های زبانی هستند که به حجم زیادی از داده متنی نیاز دارند. عملیات آموزش این مدل های زبانی به صورتی است که در آن کلمه یا کلماتی از متن حذف میشود و از مدل خواسته میشود که با توجه به واژگان خود جای خالی را حدس بزند بدین ترتیب مدل زبانی جایگاه مناسب معنایی کلمات موجود در واژگان زبان را میشناسد. معمولا این آموزش به مقدار بسیار زیادی داده متنی تمیز شده نیاز دارد. این موضوع در زبان هایی که منابع متنی آزاد کمتری برای آن وجود دارد بسیار بیشتر احساس میشود. کمبود این منابع متنی باعث میشود که محققان این حوزه نتوانند مدل های زبانی روز دنیا را برای فارسی آموزش دهند.
بزرگترین پیکره متنی پیکره متنی PersianNLP بود که مجموعه ای از حدود ۷۰ گیگابایت متن خام را شامل میشد. این پیکره شامل ۸ زیر پیکره به ترتیب زیر بود:
پیکره Common-Crawl
پیکره Miras
پیکره W۲C
پیکره ویکیپدیا فارسی
پیکره لایپزیک
پیکره VOA
پیکره اشعار فارسی
پیکره موازی فارسی-انگلیسی
با وجود اینکه این داده تا حد خوبی جواب محققان حوزه پردازش زبان طبیعی را میدهد نیاز به داده بیشتر در این حوزه احساس میشد. از طرفی دیگر این پیکره عموما شامل متون رسمی است و کمتر متن غیر رسمی در آن دیده میشود.
در سال های گذشته افراد و سازمان های متعددی سعی داشته اند که برای آسان کردن فرآیند آموزش مدل امکان استفاده و آموزش مدل های موجود در حوزه یادگیری عمیق علی الخصوص پردازش زبان طبیعی را داشته اند. از موفق ترین این سازمان ها میتوان به Huggingface اشاره کرد. این سازمان کتابخانه هایی به زبان پایتون به صورت متن باز تهیه کرده است و بدین ترتیب آموزش مدل های بر پایه یادگیری انتقالی را بسیار آسان تر کرده است. از جمله این کتابخانهها میتوان به transformer و datasets اشاره کرد. این دو کتابخانه که ترتیب برای استفاده و آموزش مدل و خواندن دیتاست های استفاده میشود با یکدیگر ساختار یکپارچهای میسازد که فرآیند آموزش مدل های زبانی را بسیار آسانتر میکند. پیکره های فارسی موجود هیچکدام بر روی مخزن datasets قرار نگرفته اند و نیاز به حضور یک پیکره یکپارچه فارسی در آن فضا احساس میشد.
ما، تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه شریف به سرپرستی دکتر حسین صامتی به همراه محققین مرکز نوآوری شرکت عصرگویش پرداز پیکره متنی ناب را معرفی میکنیم. این پیکره شامل حدود ۱۳۰ گیگابایت متن تمیز شده کاملا فارسی که متشکل از ۲۵۰ میلیون پاراگراف و ۱۵ میلیار کلمه است. این پیکره متنی به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی میتوانند به راحتی از آن بهره بجویند. از مزیت های پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، بدین ترتیب میتوانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.
جزییات ناب
در این قسمت به بررسی تعدادی از جزئیات مربوط به پیکره متنی ناب میپردازیم. برای اطلاعات بیشتر راجع به جزئیات پیکره ناب به مقاله ناب مراجعه کنید. این پیکره از ۵ زیر پیکره تشکیل شده است که جزئیات آن در تصویر ۱ آمده است. در ادامه توضیحات مختصری راجع به هر کدام از پیکره ها داده میشود.
توزیع دادگان پیکره ناب
پیکره PesianNLP
همانطور که در قسمت قبل گفته شد این پیکره شامل حدود ۷۰ گیگابایت متن فارسی است.
پیکره OSCAR-fa
پیکره OSCAR یک پیکره چند زبانه است که شامل زبان های مختلفی از جمله فارسی است. نسخه اصلی این پیکره ۳۸ گیگابایت دیتای فارسی است که در پیکره ناب از نسخه به هم نخورده با حذف جملات تکراری استفاده میکنیم. این پیکره شامل متون رسمی و غیررسمی است.
پیکره AGP
پیکره شرکت عصرگویش پرداز که حدود ۲۵ گیگابایت است شامل متون رسمی و غیر رسمی است. این پیکره تا قبل از استفاده شدن در ناب به صورت خصوصی مورد استفاده شرکت عصرگویش پرداز بود که از این پس به عنوان قسمت از پیکره ناب در دسترس عموم قرار گرفته است. امیدواریم موارد این چنینی در بین شرکت های فعال در زمینه هوش مصنوعی بیشتر انجام شود و به گونه ای ادامه دهنده راهی شوند که اولین بار در این ابعاد توسط شرکت عصرگویش پرداز در ایران ایجاد شده است.
پیکره LSCP
دیتاست محاوره ای LSCP که توسط خجسه و همکاران معرفی شد شامل ۵ گیگ دیتا محاوره ای است که جزو معدود دادگان غیررسمی حجم بالای زبان فارسی بود. به کمک این دیتاست پیکره ناب شامل قسمت بزرگ تری دادگان غیررسمی به نسبت مجموعه دادگان قبلی شده است.
پیکره Telegram
حدود یک گیگ داده غیررسمی توسط تیم تهیه کننده ناب جمع آوری شده از شبکه پیامرسانی تلگرام که شامل متون محاوره ای و غیررسمی است به دادگان ناب اضافه شده است که حجم دادگان رسمی افزایش یابد.
نتیجهگیری
پیکره متنی ناب به عنوان بزرگ ترین پیکره تمیز شده فارسی آزاد شامل ۱۳۰ گیگابایت داده متنی کاملا فارسی در اختیار محققین حوزه پردازش طبیعی قرار گرفته است. امید است با همیاری یکدیگر فضای کار را برای پردازش زبان طبیعی در فارسی آسانتر کنیم. مرکز نوآوری شرکت دانش بنیان عصر گویش پرداز، واقع در دانشگاه صنعتی شریف، آماده است تا با کمک این پیکره و تامین بستر مناسب، ایدههای پژوهشی محققان را به عرصه واقعیت پرورش دهد.
برای مطالعه بیشتر به این لینک های زیر مراجعه کنید:
+ https://arxiv.org/abs/۲۲۰۸.۱۳۴۸۶
+ https://huggingface.co/datasets/SLPL/naab
+ https://huggingface.co/datasets/SLPL/naab-raw