کتاب «پردازش متن و گفتار فارسی» روانه بازار نشر شد

خبرگزاری مهر 1401/12/03 - 16:37 مشاهده در مرجع

کتاب «پردازش متن و گفتار فارسی: مروری بر مبانی نظری و آخرین یافته‌های پژوهشی» توسط سازمان مطالعه و تدوین کتب دانشگاهی در علوم اسلامی و انسانی (سمت) منتشر شد.

به گزارش خبرگزاری مهر، کتاب «پردازش متن و گفتار فارسی: مروری بر مبانی نظری و آخرین یافته‌های پژوهشی» با تحقیق و نگارش مهرنوش شمسی‌فرد عضو هیئت علمی دانشگاه شهید بهشتی و محمود بی‌جن‌خان عضو هیئت علمی دانشگاه تهران توسط سازمان مطالعه و تدوین کتب دانشگاهی در علوم اسلامی و انسانی (سمت) منتشر شد.

در جهان کنونی، هر روزه حجم زیادی از اطلاعات در قالب محتوای زبانی و مستندات متنی یا فایل‌های صوتیِ گفتاری بر بستر وب و فضای مجازی عرضه می‌شود و به کمک ماشین‌های هوشمند، پردازش شده در اختیار کاربران قرار می‌گیرد. تولید، مدیریت و به کارگیری این محتوا مستلزم بهره‌مندی از دانش و فناوری‌های مرتبط با پردازش زبان و گفتار است.

کتاب حاضر به منظور ارائه گزارشی جامع و روزآمد از وضعیت پژوهشیِ جاری در حوزه پردازش متن و گفتار فارسی، به قلم جمعی از متخصصان این حوزه، تدوین شده است. این کتاب دارای دو قسمت پردازش متن و پردازش گفتار است و هر قسمت با بخشِ مرور منابع و زیرساخت‌های داده‌ای آغاز می‌گردد و پس از بررسی کارهای انجام‌شده در توسعه ابزارها و پردازش‌های پایه و میانی، به بخش کاربردهای سطح بالاتر ختم می‌شود. هر بخش شامل چند فصل است و هر فصل، به شکل یک مقاله مروری نوشته شده که ضمن مطالعه کارهای گذشته، به تحلیل وضعیت حال می‌پردازد و با بیان مسائل بازِ حوزه، دریچه‌ای به آینده می‌گشاید.

محتوای کتاب طیف گسترده‌ای از مطالب، از به کارگیری و تطبیق آخرین دستاوردهای جهانی این حوزه بر روی زبان و گفتار فارسی تا ابداع روش‌های خاص زبان فارسی، و ازمبانی نظری تا نتایج کاربردی را پوشش می‌دهد. این کتاب می‌تواند منبع مناسبی برای تمامیِ دانشجویان و محققانی باشد که در زمینه تولید منابع، ابزارها و برنامه‌های کاربردی در حوزه پردازش متن و گفتار فارسی، پژوهش و فعالیت می‌کنند.

این کتاب در شش فصل از جمله منابع و دادگان های متن محور و مدخل محور، ابزارها و پردازش‌های پایه و میانی متن، تحلیل لغوی، نحوی و معنایی متون، حوزه‌های کاربردی پردازش متن، منابع و ابزارهای پردازش گفتار، حوزه‌های کاربردی پردازش گفتار مطالبی را ارائه داده است.

در بخشی از این کتاب می‌خوانیم:

«این کتاب ابتدا در سه قسمت پردازش متن، پردازش گفتار و پردازش خط فارسی طراحی شد که در ویراست اول تنها دو قسمت از سه قسمت تدوین شده است. بدین ترتیب کتاب حاضر دارای دو قسمت پردازش متن و پردازش گفتار فارسی است و امید می‌رود قسمت پردازش خط و سایر موضوعاتی که به دلیل موانع موجود، در این ویراست، فصلی را به خود اختصاص نداده‌اند، در ویراست‌های بعدی، فصول جدید و مستقلی بیابند و به نسخه به روز شده فصول کنونی اضافه شوند.

در کتاب حاضر هر قسمت، با بخش زیرساخت‌های داده‌ای آغاز می‌گردد و پس از مرور کارهای انجام شده در توسعه ابزارها و پردازش‌های پایه و میانی، به بخش کاربردهای سطح بالاتر ختم می‌شود. هر بخش شامل چند فصل است، و در هر فصل، سعی بر آن بوده تا ضمن بررسی وضعیت موجود و تحلیلی از آن، افق‌های پیش رو و مسائل باز حوزه مربوط ترسیم و تبیین گردد. به بیان دیگر هر فصل که به شکل یک مقاله مروری درباره عنوان آن فصل، به قلم یکی از خبرگان و متخصصان موضوع نوشته شده، با مروری بر گذشته و تحلیلی بر حال، دریچه‌ای به آینده می‌گشاید.

بخش اول کتاب که به منابع زبانی و دادگان های متن محور و مدخل محور در پردازش متن اختصاص یافته، شامل پنج فصل است. فصل اول نگاهی کلی به منابع زبانی و پیکره‌های متنی و واژی دارد و جایی که به پیکره‌های مورد توجه در فصول دیگر می‌رسد صرفاً به آنها ارجاع می‌دهد تا حتی الامکان از تکرار مطالب پرهیز شود. در واقع فصل اول علاوه بر معرفی حوزه کار، خود پیوند دهنده فصول دیگر و درآمدی برای ورود به فصول دو تا پنج نیز هست. پنج فصل نخست به معرفی دادگان‌ها و منابع زبانی ای اختصاص داده شده‌اند که در ادامه کتاب در فصول مختلف مورد استفاده قرار می‌گیرند. معرفی و تشریح پیکرده های متنی و واژی زبان فارسی که با نشانه‌های صرفی، نحوی سازه‌ای و وابستگی، معنایی و گفتمانی غنی شده‌اند، در این فصول صورت گرفته است.

در بخش دوم، ابزارها و پردازش‌های پایه و میانی متن معرفی می‌شوند. پیش پردازش‌های پایه که عمدتاً برای هر کاربردی از متن استفاده می‌شوند، مانند واحدسازی، هنجارسازی، تحلیل ساخت واژی، بن واژه یابی و ریشه یابی، در فصل ششم مورد مطالعه قرار می‌گیرند. این فصل ضمن بیان مبانی نظری در این حوزه به بررسی و مقایسه ابزارهای پیش پردازش موجود برای زبان فارسی خواهد پرداخت.

فصول هفتم تا دوازدهم به میان ابزارها یا (پیش) پردازش‌های میانی اختصاص دارند. منظور از (پیش) پردازش‌های میانی پردازش‌هایی هستند که معمولاً نه به عنوان یک کاربرد مستقل، بلکه به عنوان یک زیر وظیفه از وظایف یک برنامه کاربردی و در مراحل ابتدایی آن مورد استفاده قرار می‌گیرند، اما به اندازه پیش پردازش‌های پایه، ابتدایی و سطح پایین نیستند و الزاماً در مراحل اولیه همه کاربردها، نیازی به آنها نیست. بازشناسی موجودیت‌های نامدار جهت شناسایی اسامی افراد، سازمان‌ها، مکان‌ها، زمان‌ها، و مانند آن در متن، بازشناسی همه مرجع‌ها به منظور تشخیص مرجع ضمایر و همچنین شناسایی کلمات مختلفی که در متن به یک موجودیت واحد اشاره دارند، شناسایی اصطلاحات چند کلمه‌ای برای شناسایی اصطلاحات چند کلمه‌ای برای شناسایی افعال و کلمات مرکب و چند واحدی و اصطلاحات و عبارات زبانی و در آخر رده بندی متون در این دسته قرار می‌گیرند. همچنین فرایندهایی مانند تعبیه کلمات و ساخت بردار جاسازی آنها در فضای برداری معنایی و استخراج مدل زبانی و همایندها نیز وظایفی هستند که در این بخش به آنها توجه می‌شود و برای بسیاری از کاربردهای ضروری اند.

در بخش سوم به تحلیل‌های لغوی، نحوی و معنایی متون پرداخته شده و فصولی در مورد خطایابی متن، تجزیه سازه‌ای و وابستگی جملات و معناشناسی رایانشی را دربرگرفته است. فصل سیزده که به خطایابی و استانداردسازی متون تخصیص یافته، به بررسی نظری و کاربردی خطایابی در زبان فارسی و معرفی و مقایسه سامانه‌های تهیه شده جهت ویرایش متون، استانداردسازی، خطایابی و اصلاح آنها می‌پردازد. فصول چهارده تا شانزده به تجزیه نحوی جملات فارسی اختصاص دارند و به ترتیب تجزیه سازه‌ای، تجزیه سطحی (چانکینگ) و تجزیه وابستگی زبان را مورد مطالعه قرار می‌دهند. بررسی مبانی نظری و الگوریتم‌های معرفی شده در سطح جهانی و نحوه انطباق آنها برای زبان فارسی از مباحث مورد بحث در این فصول هستند. در آخرین فصل از بخش سوم به تحلیل‌های معنایی پرداخته می‌شود و طیف وسیعی از مباحث مطرح در معناشناسی رایانشی از بازنمایی معنایی و رفع ابهام معنایی کلمات تا شباهت سنجی معنایی کلمات و جملات و بازنمایی معنای سازه‌های بزرگ‌تر از کلمه در دو حالت ترکیب پذیر و غیرترکیب پذیر را شامل می‌شود. مباحثی مثل دگرنویسی، شناسایی نقش‌های موضوعی، استلزامات متنی و شناسایی استعاره در این فصل مورد بحث قرار می‌گیرند.

در نهایت در بخش چهارم، شش مهارت تخصصی زبان در چارچوب شش حوزه کاربردی خلاصه سازی متن، مشابهت یابی و کشف تقلب، احساس کاوی، ترجمه ماشینی، سامانه‌های پرسش و پاسخ و سامانه‌های جستجوگر معرفی می‌شوند.

بخش پنجم و ششم به پردازش گفتار اختصاص دارد. در این قسمت نیز سیر حرکت از دادگان‌ها و منابع زبانی آغاز می‌شود و سپس ابزارهای پایه و میانی پردازش گفتار فارسی معرفی می‌شوند و در نهایت کاربردها معرفی خواهند شد. بنابراین بخش پنجم به معرفی پیکره‌ها و ابزارهای پایه پردازش گفتار فارسی اختصاص یافته است و سرانجام در بخش ششم فصول 26 تا 29 پردازش‌های میانی در حوزه گفتار (که البته در اینجا خود می‌توانند کاربرد نهایی نیز باشند) مانند تبدیل گفتار به متن، تبدیل متن به گفتار، بازیابی اطلاعات گفتاری و بازشناسی گفتاری معرفی می‌شوند و در فصل آخر به چند مهارت تخصصی گفتاری زبان فارسی در چارچوب برنامه‌های کاربردی پردازش گفتار پرداخته می‌شود.

این کتاب به قیمت 393 هزار تومان عرضه شده است.