جمعه 9 آذر 1403

ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی

خبرگزاری ایسنا مشاهده در مرجع
ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با تأکید بر ضرورت استفاده از روش‌های یادگیری ماشین برای مدرن‌سازی آمارهای رسمی گفت: در روش‌های یادگیری ماشین هدف این است کارهای زمان‌بر دستی از طریق یادگیری ماشین به‌طور خودکار انجام شود.

به گزارش ایسنا، دکتر زهرا رضایی قهرودیم در سخنرانی علمی خود در دانشکدگان علوم با موضوع «مدرن‌سازی آمارهای رسمی» در تعریف آمارهای رسمی براساس تعریف سازمان همکاری اقتصادی و توسعه (OECD)، اظهار کرد: آمارهای رسمی به آمارهایی اطلاق می‌شود که توسط نظام آماری ملی کشورها تولید می‌شود. نظام آماری ملی شامل سازمان‌ها و واحدهای آماری در هر کشور است که گردآوری، پردازش و انتشار آمارهای رسمی را از طرف دولت ملی انجام می‌دهند.

وی با بیان این‌که لیست و فهرست آمارهای رسمی که توسط مرکز آمار ایران، تهیه و تصویب شده، مشخص است، افزود: براساس مدل عمومی فرآیند کسب و کار آماری، تمام فرآیندهای اصلی تولید آمار در یک سازمان آماری و ارتباط بین آن‌ها مشخص است. از این‌رو سازمان‌های آماری برای پیاده‌سازی و مدرن‌سازی فرآیندهای کاری خود لازم است از این مدل و چارچوب که در آن استانداردها و اصطلاحات به‌طور هماهنگ و یکپارچه به کار رفته است، استفاده کنند تا نظام تولید داده‌ها در سازمان‌های آماری بهینه و کارآمد باشد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که مدل عمومی فرآیند کسب و کار آماری به مرور زمان و با تحول دنیا به‌روز می‌شود، خاطرنشان کرد: در این مدل 8 فرآیند و یکسری زیرفرآیندها وجود دارد.

دکتر رضایی با اشاره به 8 فرآیند مدل عمومی فرآیند کسب و کار آماری شامل نیازسنجی داده‌ها، طراحی، ساخت، جمع‌آوری، پردازش داده‌ها، تحلیل، انتشار و ارزیابی آمارها و داده‌ها، خاطرنشان کرد: به‌علت تحولاتی که طی 20 سال اخیر در حوزه داده‌ها و انقلاب داده‌ها رخ داده است، باید این فرآیند و زیرفرآیندها با استفاده از زیرساخت و روش‌ها و تکنولوژی‌های روز طراحی شود تا بتواند با هزینه و زمان کمتر، این فرآیند بهینه شود و اطلاعات مورد نیاز کشور جمع‌آوری شود.

ضرورت بازنگری نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید

وی در تعریف مفهوم مدرن‌سازی آمارهای رسمی گفت: باید نظام‌ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید بازنگری شود و تولید محصول آماری با کیفیت، مقرون به صرفه و با زمان کمتر از طریق بهینه‌سازی و کارآیی فرآیندها اتفاق افتد.

وی خاطرنشان کرد: تحقق این امر نیازمند اصلاح زیرساخت‌ها، ظرفیت‌سازی و آموزش نیروی انسانی براساس تخصص‌های جدید، تغییرات در چارت و ساختارهای سازمانی و تهیه استانداردها و دستورالعمل‌های جدید برای روش‌ها و نیازهای جدید است.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که می‌توان با روش‌های یادگیری ماشین بسیاری از کارهای دستی را از طریق یادگیری ماشین به‌طور خودکار انجام داد، افزود: بخش‌های باقی‌مانده که امکان بررسی آن‌ها به طور خودکار وجود ندارد، می‌تواند به روش‌های دیگر و بررسی‌های دقیق کارشناسی انجام شود.

الزام حرکت به سمت استفاده از روش‌های ترکیبی در گردآوری داده‌ها

دکتر رضایی با بیان این‌که هزینه گردآوری داده‌ها زیاد است و بی‌پاسخی در کل دنیا رو به افزایش است، خاطرنشان کرد: باید به سمت استفاده از روش‌های ترکیبی (ثبتی - سنتی) برویم و از اطلاعات موجود در پایگاه داده‌های سازمان‌های آماری با استفاده از روش‌های اتصال رکوردی استفاده شود. در این صورت، فقط برای سؤال و پرسش‌هایی که اطلاعات آن در پایگاه داده‌های دستگاه‌های دیگر وجود ندارد، اطلاعات از خانوارها یا کارگاه‌ها دریافت شود.

وی با بیان این‌که یکی از فعالیت‌های مراکز آماری کدگذاری پرسش‌های متن باز نظیر شغل، تحصیلات، نوع بیماری و... است، افزود: این کدگذاری‌ها می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این فرآیند تا چند سال گذشته توسط افراد ماهر به‌صورت دستی یا نرم‌افزار انجام می‌شد، اما هم‌اکنون با روش‌های یادگیری ماشین به‌طور خودکار انجام می‌شود. پس باید تغییراتی در روش‌ها و فرآیند مدل عمومی کسب و کار آماری ایجاد شود.

استفاده از روش‌های یادگیری ماشین برای شناسایی داده‌های پرت، پر کردن اطلاعات گم شده

دکتر رضایی با اشاره به این‌که بحث شناسایی داده‌های پرت، پر کردن اطلاعات گم شده، اتصال پایگاه داده‌ها، محرمانه‌سازی اطلاعات و بسیاری از فعالیت‌های مراکز آماری می‌تواند با استفاده از روش‌های یادگیری ماشین انجام شود، گفت: کمیسیون اقتصادی سازمان ملل در اروپا (UNECE) در سال 2010 یک گروه عالی مدرن‌سازی آمارهای رسمی را تاسیس کرده است که هدف آن گروه کاری نظارت بر توسعه دستورالعمل‌ها و چارچوب‌هایی است که به مدرن‌سازی آمارهای رسمی منجر شود.

وی با تأکید بر ضررورت به اشتراک‌گذاری اطلاعات و ابزارها و تجارب کشورهای مختلف با همه مراکز آماری، خاطرنشان کرد: این گروه سایتی برای استفاده از روش‌های یادگیری ماشین در آمارهای رسمی دارد و در آن پروژه‌هایی را به اشتراک می‌گذارد و با تشکیل تیم‌های کاری، دستورالعمل و روش‌های جدید را تهیه می‌کنند.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که موضوع مدرن‌سازی آمارهای رسمی در چهل‌وپنجمین نشست کمیسیون آمار سازمان ملل مطرح شد و از آن به بعد، این موضوع در دستور کار سازمان‌های آماری قرار گرفت، خاطر نشان کرد: هر ساله، نشست کمیسیون آماری سازمان ملل با دعوت از رؤسای مراکز آماری دنیا برگزار می‌شود و موضوعات روز دنیا مطرح و دستورالعمل‌هایی که گروه‌های کاری مختلف، آن‌ها را تهیه کرده‌اند، در جلسات کمیسیون مطرح و در صورت تصویب ابلاغ می‌شود.

وی خاطرنشان کرد: پنجاه و دومین نشست کمیسیون آمار سازمان ملل در سال 2021 برگزار شد.

شروع بحث مدرن‌سازی آمارهای رسمی در سطح بین‌الملل

دکتر رضایی با بیان این‌که بحث مدرن‌سازی آمارهای رسمی در سال‌های 2014 و 2015 در سازمان ملل مطرح شد، تصریح کرد: هم‌اکنون به مدت 6 تا 7 سال است که مدرن‌سازی آمارهای رسمی در سطح بین‌الملل مطرح و به همه کشورهای جهان ابلاغ شده است.

وی با بیان این‌که یکی از بحث‌های اصلی مرتبط با مدرن‌سازی آمارهای رسمی بحث مه‌داده‌ها (Data Big) است، خاطرنشان کرد: مفهوم مه‌داده‌ها در قرن 21 مطرح شده است. در قرن 21 زیرساخت‌ها و روش‌های گردآوری و ذخیره‌سازی این نوع داده‌ها با سرعت چشمگیری رشد کرد. گوگل که در سال 1998 ایجاد شد، برای ذخیره‌سازی داده‌های تولید شده در این فضاهای مجازی با این حجم از داده‌ها و سرعت و تنوع زیاد، با مشکل روبرو بود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران افزود: این نوع جدید داده که شامل داده‌های ساختاریافته، نیمه‌ساختاریافته و غیرساختاریافته است، به ایجاد پایگاه داده‌های جدید NoSQL، زیرساخت و پلتفرم‌های جدیدی منجر شد.

دکتر رضایی با بیان این‌که تا پیش از قرن 21 اکثر داده‌ها ساختاریافته بود، خاطرنشان کرد: پس از قرن 21، داده‌ها به نیمه‌ساختاریافته و غیرساختاریافته تغییر کرد.

کاربرد Data Big در داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه

وی ادامه داد: یک تقسیم‌بندی دیگر در Data Big که در حوزه آمارهای رسمی نیز کاربرد دارد، استفاده از داده‌های جدید مانند داده‌های اداری، داده‌های حسگرها یا دوربین‌های ثبت تخلفات و ترددها، داده‌های تصاویر ماهواره‌ای برای برآورد محصولات حوزه کشاورزی، داده‌های حاصل از خرید و فروش اینترنتی، داده‌های وب سایت‌ها، داده‌های حاصل از ابزارهای ردیابی مانند تلفن همراه یا GPS است که پس از ارزیابی کیفیت و صحت داده‌ها می‌تواند به مرور زمان و رفع خطاها، به‌عنوان آمارهای رسمی با استفاده از تکنولوژی‌های روز دنیا استفاده شود.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران یادآور شد: به‌عنوان مثال، پس از راستی‌آزمایی داده‌های تلفن همراه، می‌توان از داده‌های تلفن همراه برای جابجایی و شناسایی بیماری‌ها از جمله کووید 19 و یا پیش‌بینی جمعیت مهاجر، برآورد جمعیت و... استفاده کرد.

دکتر رضایی با بیان این‌که تولید داده‌های جدید با سرعت، تنوع و حجم زیاد نیازمند آشنایی با مفاهیم و روش‌های علمی جدید است، افزود: در این صورت باید از زیرساخت، پلتفرم و پایگاه داده‌های NoSQL به جای پایگاه داده‌های رابطه‌ای که امکان ذخیره‌سازی و پردازش داده‌های ساختاریافته را دارند، استفاده کرد.

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران، کدگذاری خودکار بسیاری از فعالیت‌های مراکز آماری از جمله کدگذاری پرسش‌های باز را یکی از فعالیت‌های مراکز آماری و سازمان‌ها برشمرد و افزود: کدگذاری مشاغل، کالاها، دارو، بیماری‌ها و... می‌تواند با استفاده از روش‌های یادگیری ماشین به‌جای روش‌های دستی و سنتی انجام شود.

وی خاطرنشان کرد: در مسائل مربوط به تخصیص کدهای استاندارد بین‌المللی ISIC یا ISCO یا هر کد دیگر به پرسش‌های باز به‌صورت خودکار، با تشکیل یک دیکشنری جامع و کامل با استفاده از کدگذاری، کتابچه‌های رده‌بندی‌های بین‌المللی مانند رده‌بندی رشته فعالیت‌های اقتصادی و دست‌نوشته‌های مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته فعالیت‌های اقتصادی به‌صورت نیمه‌خودکار فراهم می‌شود.

امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار

عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان این‌که امکان انتساب آدرس‌های آماری به آدرس‌های پستی به روش خودکار با استفاده از روش‌های یادگیری آماری وجود دارد و در سرشماری‌های ثبتی مبنا کاربرد دارد، خاطرنشان کرد: با اتصال آدرس آماری به آدرس‌های پستی، امکان برقراری ارتباط بین سرشماری ثبتی مبنا با سرشماری‌های سنتی قبلی و ارائه اطلاعات سرشماری ثبتی مبنا به‌صورت سری‌های زمانی در پایین‌ترین سطوح جغرافیایی نیز فراهم می‌شود.

دکتر رضایی با اشاره به بحث آدرس آماری و کدپستی توضیح داد: در ایران بیش از 20 درصد کدهای آماری نقاط شهری در مرکز آمار منتسب به آدرس‌های پستی نیست. با استفاده از روش‌های یادگیری آماری و آموزش مدل با استفاده از 80 درصد کدهای آماری منتسب به آدرس‌های پستی، امکان انتساب کد آماری به آدرس‌های پستی منطبق نشده فراهم می‌شود.

انتهای پیام