تکنولوژی زبان چیست و چه وظایفی بهعهده دارد؟
نخستین وظیفه سیستم تکنولوژی زبان شناسایی کلمات و سپس جملات سازنده متن است. این جمله در واقع، در اکثریت قریب به اتفاق موارد، واحد زبانی مرجع برای تحلیل است.
نخستین وظیفه سیستم تکنولوژی زبان شناسایی کلمات و سپس جملات سازنده متن است. این جمله در واقع، در اکثریت قریب به اتفاق موارد، واحد زبانی مرجع برای تحلیل است.
خبرگزاری مهر، گروه فرهنگ و اندیشه: سعید جهانپولاد متخصص زبان و ادبیات تطبیقی ملل در گزارشی به بررسی تکنولوژی زبان پرداخته است. جهانپولاد، شاعر، محقق، مترجم و منتقد ادبی است. تاکنون ترجمههای مختلفی به قلم او روانه کتابفروشیها شده که از آن جمله میتوان به این عناوین اشاره کرد: «گزینه شاهکارهای هایکو معاصر جهان»، «منظومه چهار کوارتت: همراه با نقد و تفسیر» اثر تی اس الیوت، «شعر به وقت گرینویچ: مجموعه برگزیده شعر و شاعران معاصر جهان» و «فصل گلهای سفید داوودی» اثر ناتسومه سوسه کی.
گزارش مورد اشاره برای انتشار در اختیار خبرگزاری مهر قرار گرفته است.
مشروح اینگزارش در ادامه میآید:
امروزه در حوزه زبان بشری (زبان طبیعی و زبانهای معین و...) در فضای اینترنت و جهان دیجیتالی و چگونگی ارتباطات بینا انسانی و بهرهوری از این ماشین افزارهای و ابزارهای موجود و نیز با توجه به حجم فزاینده اطلاعات الکترونیکی موجود، هم در اینترنت و هم در شبکههای رسانه / مجازی و در نتیجه ناهمگونی شدید آرشیوهای اطلاعات (منابع ساختاریافته یا بدون ساختار و متغیرهای این منابع، شناسایی اطلاعات مرتبط و دسترسی به آنها موضوع پیچیده و بحران فزایندهای را ایجاد کرده است، جزئیات مستند، تعدد فرمتهای ثبت و ضبط و بارگذاری و کدگذاری، نشانه پردازی و نیز چند زبانه بودن آنها و...
بنابراین، در مواجهه با این فوران و تراکم اطلاعات و سرگردانی شناختی که در کاربران ایجاد نموده، اطلاعات و دانش مجازی در وهله نخست فرآیند حذف اطلاعات است. با تمایز قائل شدن بین گزینههای ممکن تفسیر و عمل و با آشکار کردن نوعی «نظم جدید» که در آن دامنه احتمالات تنها به بسیار کمتر از خطاها کاهش مییابد و بینظمی موجود در دادههای ذخیره شده در این اطلاعات خارجی را کاهش میدهد.
بنابراین دسترسی به اطلاعاتی که با نیازهای اطلاعاتی آن لحظه مطابقت داشته باشد بیشتر قابل استناد و اعتماد خواهد بود، فضای اینترنتی در واقع مکان نمادینی از این اختلالات و تراکم اطلاعاتی را بروز میدهد. رشد کمی اطلاعات در حوزههای متعدد آن (وبسایتها، پایگاههای اطلاعاتی، مدیاها، ژورنالها وبلاگها، ویکیها، و غیره) باعث ایجاد احساس عدم اطمینان میشود که به وضعیت شناختی هر کاربر عادی و حتی بیشتر از آن به کتابخوانهای حرفهای و کتابدارها هم سرایت میکند این حس غیر قابل اطمینان در این فضای متراکم، نیاز و مسئولیت مؤسسات تکنولوژی زبان انسان و پاسداری، حفاظت از این اطلاعات را به یک استراتژی اصولی این مؤسسات تکنولوژیکی زبانی مبدل کرده است، تلاش برای ایجاد معنا از این آشفتگی اطلاعاتی و کمک به کاربر اعم از حرفهای یا غیر حرفهای برای جهت دهی به دانش بینا رشتهایاش چالش جدی این فناوری است و نیز بازنمایی و کاربردی کردن استنادی اسناد و صحت منابع اطلاعاتی آن محسوب میشود پرسشی بدیهی که چندان تازه نیست مطرح است، چگونه میشود با توجه به حجم فزاینده ثبت اسناد و اطلاعات الکترونیکی موجود و ناهمگونی میان آنها، اسناد، اطلاعات و منابع اصلی آنها را باز شناخت و از اطمینان یابی و اعتماد به این دانش با سندیت منابع و ارجاعاتش استفاده و بهرهوری کرد و به چه روش و روشهایی نوینی میتوان تکنولوژی و فناوری زبانی آنان به طرزی قابل اعتماد بدل کرد، نخست باید بدانیم تکنولوژی زبان چیست؟
تکنولوژی زبان
تکنولوژی زبان، حوزه از فناوری هوش مصنوعی Al به ماشین افزارهای الکترونیکی و دیجیتالی توانایی خواندن، تجزیه و تحلیل و پردازش و محاسبه زبان انسان را میدهد، نمونه رایج آن عبارتند از تشخیص خودکار زبان گفتار، ترجمه و برگردان زبان، طبقه بندی، تجزیه و تحلیل ریشه شناسی کلمات و مفاهیم آن، محاسبات زنجیرها صداها و تحلیل و طبقه بندی آنها و معادل سازی، نحو و تجزیه بلاغی و صنعت گرامری و مورفولوژی زبان که توسط موتورهای پر قدرت و هوش مصنوعی به جذب، ذخیره، محاسبه، پردازش و... زبان انسانی میپردازد، تکنولوژی زبان، که معمولاً فناوری زبان انسانی (HLT) نامیده میشود، روشهایی را جهت مطالعه بینارشتهای زبان انسانی به واسطه برنامههای رایانهای یا ماشین افزارهای الکترونیکی مهیا کرده که در واقع به تجزیه و تحلیل، اصلاح، محاسبه و جنبههای کاربردی زبان، متون، اسناد و گفتار انسانی میسر میسازد، تکنولوژی زبان اغلب به دانش گسترده و بینا رشتهای در مورد زبان شناسی، علوم رایانه روان زبانشناسی، تکامل شناختی زبان باستانی و... نیاز مبرم دارد که شامل پردازش زبان طبیعی (NLP) و زبان شناسی محاسباتی (CL) از یک سو، بسیاری از جنبههای کاربردگرا از این موارد نیز هست و نیز جنبههای سطح پایینتر مانند رمزگذاری و فناوری گفتاری، شفاهی، اصطلاحی، ترجمه و... زبان انسانی را نیز در بر میگیرد و توسعه و کاربری آنها در بهرهوری از دانش زبانی دستگاههای الکترونیکی، دیجیتالی و مصنوعات و... در زندگی امروزی و آینده بشری را مورد مطالعه علمی قرار میدهد.
تکنولوژی زبان در واقع روشهایی را ارائه میدهد که بر پردازش محتوای اطلاعاتی اسناد، متون با در نظر گرفتن سطوح صرفی، نحوی و معنایی آنها تمرکز یافته و قابل پردازش، محاسبه، تجزیه، تحلیل و مقایسه، ترجمه و اصلاح و توسعه استتکنولوژی زبان در واقع روشهایی را ارائه میدهد که بر پردازش محتوای اطلاعاتی اسناد، متون با در نظر گرفتن سطوح صرفی، نحوی و معنایی آنها تمرکز یافته و قابل پردازش، محاسبه، تجزیه، تحلیل و مقایسه، ترجمه و اصلاح و توسعه است.
روش نخست
از نظر تاریخی نخستین رویکرد تکنولوژی زبان به آغاز قرن بیستم و انفجار مستندات متنی بر میگردد، این پروژه شامل طراحی و برنامهریزی زبانهای مستند است که در دهه پنجاه و شصت میلادی انجام پذیرفت، اختلال در فناوری دیجیتالی سیستمهای اسنادی مستلزم توسعه روشها و ابزارهایی بود که بتواند خودکارسازی، نمایه سازی کنترل شده را ارائه دهد، نخستین پایگاه اطلاعاتی و دادهایی کتابشناختی رایانهای تأسیس شد، پروژهای که شامل ساختن نمایشی از یک سند مکتوب با انتخاب توصیف گرهای آن که در یک زبان مستند از پیش تعیین و تعریف شده که شامل (فهرست توصیفگرها، فرهنگ اصطلاحات، فرهنگ دیکشنری و...) بود، این نمایه سازی از بهرهوری توصیف گرهای غیر رسمی و غیر مجاز ممانعت به عمل میآورد و قصد داشت نمایش همگن اسناد را تضمین نماید، در هنگام جستوجو و پرسمان از مبنای استنادی اسناد، معمولاً کار نمیکرد و متوقف میماند، اگر چه آزمایشات بسیاری بعد آن صورت گرفت و درگاههای و شبکههای برای باز تعریف و یا انتقال آن به شبکههای مرتبط تعبیه شد اما این خلأ و نقصان همچنان برای دسترسی به مبنای اطلاعات و صحت و سقم آن متخصصان را وا داشت که به ابزارها و شبکههای استنادی و منابع قابل دسترستر فکر کنند و ابداعات موفق آمیزی داشته باشند
روش دوم
به طور گسترده به واسطه چند موتور جستوجوگر در فضای وب سایتی رایج شد، نشان دادن اسناد که توسط یک موتور پویشی و خزنده که با اتکا به کلمات موجود در اسناد شبکهای از اطلاعات نمایه سازی شده رایگان را در اختیار کاربر قرار میداد که میتوانست به صورت خودکار و با استفاده از کلمات موجود اطلاعات اسناد را در نمایشگر جستوجو کند و مهمترین عنوانها انتخاب شده از طریق این موتور پویشی و توصیفگر را بر اساس تکنیکهای آماری که امکان محاسبه واجی، آوایی و موسیقیایی در سطوحی از اسناد را قابل رؤیت کند، در صفحه نمایش در اختیار کاربر قرار دهد، در این رویکرد شبکهای از کاراکترهای نمایهای (توکنها) را شناسایی میکرد و آنها را از ذخیرهگاه، آرشیو آورده و نمایش میداد، این رویکرد چنان نبود که بتواند واحدهای معنایی و مفاهیم آن را در هر گونه برخورد زبانی مستثنی کرده و تفکیک دهد، در واقع نقص موجود این بود که پدیدههای همنام، چند معنایی یا مترادف به صورت کلی مورد پردازش قرار نگرفته بود و در این سیستم تعبیه نشده بود، برای چنین نقص عمدهای که محدودیت برانگیز بود تکنولوژی زبان روشهای نوینی را بر اساس پردازش محتوایی و کاربردی شدن آنها در اطلاعات و اسناد در سطوح صرفی، نحوی، معنایی زبان در نظر گرفت.
روش سوم
که در تکنولوژی زبان و در این سیستم فراگیر به سرعت انجام پذیرفت عبارت بود از ساختاردهی، و قالب بندی منابع اطلاعاتی به ویژه در وب سایتها و منابع لینکی آنها، این روش به طور صریح روابط معنایی و محتوایی واحدهای اطلاعاتی مختلف را دسته بندی نمود و مجموعه اسناد که حاوی شبکهای از معناها و محتوای مشترک با اتکا از ابر دادهها بر اساس عمدتاً زبان XML و انواع دیگر آن به ساختار دهی و ساماندهی رسمی و دقیقتر این اطلاعات و اسناد از این روش به چالش جدی وب معنایی و جستجوگر معنایی و محتوای در تکنولوژی زبان تبدیل شد مثلاً اینکه تعریف و تفسیر خود سند، یا طرحوارههای آن اسناد که توصیفات معنایی را از اسناد با درجه بندیها محتوای شروع به طبقه بندی کرد و در واقع برای تسهیل جستوجوگر اطلاعات میتوانست به صورت یک جستجوگر مکمل در طول و عرض اسناد و اطلاعات با ابر دادهها و نمایه سازی آنها در سطح نمایشگر به کاربر زبانی کمک شایانی نماید، چنانکه یک واسطه در زبان طبیعی در زیر شاخههای معنایی و محتوای آنها میتوانست جستوجو را آغاز کند و دسترسی را تسهیل نماید، این روش بر اساس تکنولوژی آماری از زبان تهیه و تنظیم شده بود، در نهایت سیستمهای پشتیبانی و بازیابی اطلاعات آماری زبان بیشتر ماژولهای زبانی را به صورت ساختاری و یکپارچه سازماندهی کرده بودند که بتواند مکملها را در اختیار کاربر بگذارد.
روشهای کاربردی و سطوح آن
طبقه بندی، دسته بندی اسناد متنی برای استخراج دانش، نمایه سازی خودکار یا خلاصه سازی آنها عملی است که اهمیت آن مدت که مورد توجه قرار گرفته، این سیستمهای پردازش خودکار متون مجموعههایی از متون را بهعنوان ورودی میگیرند که آنها را برای به دست آوردن یک یا چند نمایش از معنا و محتوا به عنوان خروجی تبدیل میکنند. وظیفه اصلی این عملیات تبدیل کردن اسناد مبهم بالقوه به نمایشهای بدون ابهام (به جز ابهامات ساختاری اولیه) برگرداندن و ترجمه (تعریف و تسهیل) آنهاست، مسئله «درک» یک سند متنی که در بطن این ماشین افزار تعبیه شده، وظیفه پردازش خودکار زبان (NLP) است بنابراین به دو مشکل عمده اشاره دارد اولی مربوط به نمایش معنای متن و دومی در نظر گرفتن دنیای دانش مرجع و منبع اسناد و متون است، به همین ترتیب یک سیستم NLP میتواند تجزیه و تحلیل، توصیف را در سطح کلمه آغاز کند تا ماهیت و ساختار صرفی آن را تعیین کند.
نخستین وظیفه سیستم تکنولوژی زبان شناسایی کلمات و سپس جملات سازنده متن است. این جمله در واقع، در اکثریت قریب به اتفاق موارد، واحد زبانی مرجع برای تحلیل استدر سطح جمله نیز چنین تجزیه و تحلیلی را برای تعیین ترتیب کلمه (کلمات) ساختار نحوی و معنای کلی جمله را بررسی نماید، این روش میتواند پیش از آنکه در نهایت به پس زمینهها و پس نوشتها و خود متن برسد محیط و محدوده محتوا و معناها و یا حوزه مرجع و منبعی یک کلمه یا یک عبارت را با توجه به یک زمینه یا یک زمینه معنای خاصش یا یک مفهوم خاصتر محاسبه و توصیف نماید و در واقع از کوچکترین جز حرفی و صامت، مصوتی یک کلمه تا قرار گرفتن آن در رکنها و سطوح کلمات و یا جملات، یا عبارات دیگر در یک زمینههای خاص یا بر اساس یک کاربرد خاصتر آنها در متون را منعکس کند، برای انجام یک عملیات سیستم زبانی NLP، ما معمولاً (برای زبان نوشتاری) شش سطح پردازش را متمایز میکنیم:
سطح تقسیم بندی به کلمات و جملات
سطح صرفی که به نحوه تشکیل واحدهای واژگانی در واحد حرفی (واک، رکن، پایه و برش، ترکیب و..) میپردازد و هدف آن تعیین مقوله گفتمان واحد مورد نظر است.
سطح نحوی که ساختار جملات را با توجه به دستور زبان مرجع تعیین میکند.
سطح معنایی که به معنای کلمات و جملات میپردازد.
سطح گفتمانی که هدف آن شناسایی ساختار گفتمانی و استدلالی سند است.
سطح عملگرایانهای یا کنشی و کاربردی زبان است که با دنیای دانش مرجع سروکار دارد، یعنی اطلاعات برونزبانی را در نظر میگیرد که میتواند به درک متن کمک کند.
این تقسیمبندی به 6 سطح البته کاملاً تئوری است. لزوماً با حالت عملکرد واقعی همه نرم افزارهای NLP مطابقت ندارد. برخی از سطوح دوم، سوم و چهارم را در یک مرحله پردازش واحد قرار میدهد در حالی که بعضی دیگر از مراحل ذکر شده را در نظر نمیگیرند (به عنوان مثال، سطح عمل گرایانه و بینارشتهای به ندرت در نظر میگیرد، اما دانش و ماهیت عمل گرایانه را میتواند در مرجع آنها ادغام کند و لغت نامهها، فرهنگنامهها و به ویژه دانش تجاری و...) به صورت زیر مجموعهها به شبکههای مرتبطش ارجاع دهد، در نهایت، الگوریتمهای مورد استفاده برای سطوح مختلف تحلیل، همه به یک شکل پیش نمیروند (تحلیل رو به پایین یا رو به بالا، یا بدون پس گرد و غیره) این امکان البته در حال توسعه و بارآوری مجدد هست که شبکهای فعالتر و پر سرعت با دسترسی آسانتر را به نمایش بگذارد.
البته امروزه عملکرد چهار سطح نخست را که در حال حاضر با پیشرفتهترین سیستمهای اینترنتی و دیجیتالی برنامه نویسی و پردازش شده این فقدان با توسعه فناوری دیجیتالی و سیستمهای تجاری نیز در اکثر کشورهای اروپایی و آمریکا سازماندهی شده که با توسعه سیستم تکنولوژی زبانی مطابقت تام دارد، نخستین وظیفه سیستم تکنولوژی زبان شناسایی کلمات و سپس جملات سازنده متن است. این جمله در واقع، در اکثریت قریب به اتفاق موارد، واحد زبانی مرجع برای تحلیل است. از آنجایی که یک متن مجموعهای از گزارههای جدا شده از یکدیگر نیست، بلکه مجموعهای از گزارههای به هم پیوسته و ارجاع شده است، به این معنا که بیان شده و برای یکدیگر «معنا» دارند، در این سیستم به سنجش و پردازش هر کلمه، جمله، عبارات یک متن و توسعه و هم پیوندی میان آنها برای رسیدن به یک اجماع نظری و مفاهیم کلی در مجموعه و زیر مجموعه ارجاعی و منبعی آنها بهکار میرود.
البته بحث از تکنولوژی زبان بخاطر دانش بینارشتهای و فناوری رایانه، علوم دیجیتالی نیاز به دانش بسیار وسیع و پیچیده، فنی از نوع عملکرد این سیستمها و هوش مصنوعی و رباتیک دارد و عاملیت علوم فناوری ارتباطات و رایانهای و سیستمهای عامل، پشتیبانی پروژهای بسیار پیچیده، تخصصی و فنی است. اما قصد نگارنده از نوشتن این مقال در حد نیاز به توجه مؤسسات فناوری اطلاعات و دانش بینارشتهای از تکنولوژی زبان است، ضرورتی که ایجاب میکند برای بقا زبان فارسی و جلوگیری از انقراض گونهگی زبانهای در حال خفتگی در سرزمین ایران، چنانکه گفته آمد، نیاز به این سیستمانه و فناوری زبان در مؤسسات دانشگاهی و ملی، یک ضرورت اجتناب ناپذیر تلقی میشود، زبان فارسی به گفته استاد داریوش آشوری در کتاب (زبان باز) و مدرنیته دارای آن ظرفیتها و پتانسیلهای غنی در خود هست که میتواند با مقاومت و پرورش خود در برابر هجوم مدرنیته و امپریالیسم زبانی و زبان مدرنیته، به هضم و بروزرسانی خود با اتکا به این فناوری و سیستم تکنولوژیکی زبانی دست یابد.
منابع
Language Technology, its applications, and the undergraduate units on offer by the Centre for Language Technology.
The site of the Australasian Language Technology Association (ALTA). It contains a mailing list and further information about language technology in Australia and New Zealand.
A Survey of the State of the Art in Human Language Technology. You can get a feel for the broad range of issues addressed in language technology research by browsing the contents of this online survey.
کتاب زبان باز _پژوهشی در زبان و مدرنیته، نوشته داریوش آشوری، سال 1387 نشر مرکز چاپ اول