پیکره بزرگ متنی فارسی در اختیار محققان قرار گرفت

صفحه اصلی فناوری

پیکره‌ متنی بزرگ از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبان‌های با منابع کمتر مثل فارسی بیشتر احساس می‌شود.

بدین منظور گروه حرفه‌ای از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به سرپرستی دکتر حسین صامتی به همراه محققان مرکز نوآوری شرکت دانش‌بنیان عصرگویش‌پرداز برای این مساله راه‌حل پیکره ناب را معرفی کردند.

محمدرضا حسینیان مدیرعامل این مرکز نوآوری اعلام کرد: این پیکره، مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.

وی گفت: همچنین نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده‌ پیکره خود را بسازند.

مدیرعامل مرکز نوآوری شرکت دانش‌بنیان عصرگویش‌پرداز اعلام کرد: مرکز نوآوری این شرکت دانش‌بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

حسین صامتی عضو هیات علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه نیز اظهار داشت: از این پیکره می‌توان برای fine-tune کردن مدل‌های زبانی – که در اصل برای زبان انگلیسی تهیه شده‌اند – برای زبان فارسی نیز استفاده کرد، از جمله این مدل‌های زبانی می‌توان به BERT, BART, T۵ و … اشاره کرد.

در ادامه وی از همه‌ محققان این حوزه دعوت کرد تا با بررسی این پیکره، این تیم را از نظرات بهره‌مند سازند.

پیکره متنی ناب

پیکره‌ متنی بزرگ از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است. ضرورت این مسئله به خصوص برای زبان‌های با منابع کمتر – مثل فارسی – بیشتر احساس می‌شود. ما، تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف (به سرپرستی دکتر حسین صامتی) به همراه محققان مرکز نوآوری شرکت عصرگویش‌پرداز برای این مساله راه‌حل پیکره ناب را معرفی کرده‌ایم. این پیکره مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است. این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیار کلمه است.

ناب

در سال های اخیر، پردازش زبان طبیعی به عنوان یکی از مهم‌ترین حوزه های یادگیری ماشین و یادگیری عمیق مورد توجه قرار گرفته است. مدل های پایه در این حوزه همان مدل های زبانی هستند که به حجم زیادی از داده متنی نیاز دارند. عملیات آموزش این مدل های زبانی به صورتی است که در آن کلمه یا کلماتی از متن حذف می‌شود و از مدل خواسته می‌شود که با توجه به واژگان خود جای خالی را حدس بزند بدین ترتیب مدل زبانی جایگاه مناسب معنایی کلمات موجود در واژگان زبان را می‌شناسد. معمولا این آموزش به مقدار بسیار زیادی داده متنی تمیز شده نیاز دارد. این موضوع در زبان هایی که منابع متنی آزاد کمتری برای آن وجود دارد بسیار بیشتر احساس می‌شود. کمبود این منابع متنی باعث می‌شود که محققان این حوزه نتوانند مدل های زبانی روز دنیا را برای فارسی آموزش دهند.

بزرگترین پیکره متنی پیکره متنی PersianNLP بود که مجموعه ای از حدود ۷۰ گیگابایت متن خام را شامل می‌شد. این پیکره شامل ۸ زیر پیکره به ترتیب زیر بود:

پیکره Common-Crawl

پیکره Miras

پیکره W۲C

پیکره ویکی‌پدیا فارسی

پیکره لایپزیک

پیکره VOA

پیکره اشعار فارسی

پیکره موازی فارسی-انگلیسی

با وجود اینکه این داده تا حد خوبی جواب محققان حوزه پردازش زبان طبیعی را می‌دهد نیاز به داده بیشتر در این حوزه احساس می‌شد. از طرفی دیگر این پیکره عموما شامل متون رسمی است و کمتر متن غیر رسمی در آن دیده می‌شود.

در سال های گذشته افراد و سازمان های متعددی سعی داشته اند که برای آسان کردن فرآیند آموزش مدل امکان استفاده و آموزش مدل های موجود در حوزه یادگیری عمیق علی الخصوص پردازش زبان طبیعی را داشته اند. از موفق ترین این سازمان ها می‌توان به Huggingface اشاره کرد. این سازمان کتابخانه هایی به زبان پایتون به صورت متن باز تهیه کرده است و بدین ترتیب آموزش مدل های بر پایه یادگیری انتقالی را بسیار آسان تر کرده است. از جمله این کتابخانه‌ها می‌توان به transformer و datasets اشاره کرد. این دو کتابخانه که ترتیب برای استفاده و آموزش مدل و خواندن دیتاست های استفاده می‌شود با یکدیگر ساختار یکپارچه‌ای می‌سازد که فرآیند آموزش مدل های زبانی را بسیار آسان‌تر می‌کند. پیکره های فارسی موجود هیچ‌کدام بر روی مخزن datasets قرار نگرفته اند و نیاز به حضور یک پیکره یکپارچه فارسی در آن فضا احساس می‌شد.

ما، تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه شریف به سرپرستی دکتر حسین صامتی به همراه محققین مرکز نوآوری شرکت عصرگویش پرداز پیکره متنی ناب را معرفی می‌کنیم. این پیکره شامل حدود ۱۳۰ گیگابایت متن تمیز شده کاملا فارسی که متشکل از ۲۵۰ میلیون پاراگراف و ۱۵ میلیار کلمه است. این پیکره متنی به صورت کاملا متن باز در اختیار همگان قرار داده شده است و محققان حوزه پردازش طبیعی می‌توانند به راحتی از آن بهره بجویند. از مزیت های پیکره ناب قرار گرفتن آن بر روی مخزن دیتاست Huggingface است، بدین ترتیب می‌توانید تمام یا بخشی از این پیکره را به کمک کتابخانه dataset دانلود کرده و برای آموزش مدل خود استفاده کنید.

جزییات ناب

در این قسمت به بررسی تعدادی از جزئیات مربوط به پیکره متنی ناب می‌پردازیم. برای اطلاعات بیشتر راجع به جزئیات پیکره ناب به مقاله ناب مراجعه کنید. این پیکره از ۵ زیر پیکره تشکیل شده است که جزئیات آن در تصویر ۱ آمده است. در ادامه توضیحات مختصری راجع به هر کدام از پیکره ها داده می‌شود.

توزیع دادگان پیکره ناب

پیکره PesianNLP

همانطور که در قسمت قبل گفته شد این پیکره شامل حدود ۷۰ گیگابایت متن فارسی است.

پیکره OSCAR-fa

پیکره OSCAR یک پیکره چند زبانه است که شامل زبان های مختلفی از جمله فارسی است. نسخه اصلی این پیکره ۳۸ گیگابایت دیتای فارسی است که در پیکره ناب از نسخه به هم نخورده با حذف جملات تکراری استفاده می‌کنیم. این پیکره شامل متون رسمی و غیررسمی است.

پیکره AGP

پیکره شرکت عصرگویش پرداز که حدود ۲۵ گیگابایت است شامل متون رسمی و غیر رسمی است. این پیکره تا قبل از استفاده شدن در ناب به صورت خصوصی مورد استفاده شرکت عصرگویش پرداز بود که از این پس به عنوان قسمت از پیکره ناب در دسترس عموم قرار گرفته است. امیدواریم موارد این چنینی در بین شرکت های فعال در زمینه هوش مصنوعی بیشتر انجام شود و به گونه ای ادامه دهنده راهی شوند که اولین بار در این ابعاد توسط شرکت عصرگویش پرداز در ایران ایجاد شده است.

پیکره LSCP

دیتاست محاوره ای LSCP که توسط خجسه و همکاران معرفی شد شامل ۵ گیگ دیتا محاوره ای است که جزو معدود دادگان غیررسمی حجم بالای زبان فارسی بود. به کمک این دیتاست پیکره ناب شامل قسمت بزرگ تری دادگان غیررسمی به نسبت مجموعه دادگان قبلی شده است.

پیکره Telegram

حدود یک گیگ داده غیررسمی توسط تیم تهیه کننده ناب جمع آوری شده از شبکه پیام‌رسانی تلگرام که شامل متون محاوره ای و غیررسمی است به دادگان ناب اضافه شده است که حجم دادگان رسمی افزایش یابد.

نتیجه‌گیری

پیکره متنی ناب به عنوان بزرگ ترین پیکره تمیز شده فارسی آزاد شامل ۱۳۰ گیگابایت داده متنی کاملا فارسی در اختیار محققین حوزه پردازش طبیعی قرار گرفته است. امید است با همیاری یکدیگر فضای کار را برای پردازش زبان طبیعی در فارسی آسان‌تر کنیم. مرکز نوآوری شرکت دانش بنیان عصر گویش پرداز، واقع در دانشگاه صنعتی شریف، آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

برای مطالعه بیشتر به این لینک های زیر مراجعه کنید:

+ https://arxiv.org/abs/۲۲۰۸.۱۳۴۸۶

+ https://huggingface.co/datasets/SLPL/naab

+ https://huggingface.co/datasets/SLPL/naab-raw