اعداد همیشه راست میگویند، مگر وقتی که دروغ میگویند
اعداد جذاباند. چه از این بهتر که پدیدهای پیچیده را در قالب چند عدد و رقم ساده و قابلفهم برای همه توضیح بدهیم؟ مهم نیست پیشبینی انتخابات باشد، اندازهگیری تورم، تاثیرگذاری واکسیناسیون، یا سنجش هوش؛ همه را میتوان در چند رقم خلاصه کرد. اما کاش همهچیز به همین سادگی بود. وقتی بخواهیم دنیا و پیچیدگیهایش را در قالب اعداد جای دهیم، باید بخش زیادی از جزئیات را دور بریزیم، جزئیاتی که گاهی...
هانا فرای ترجمه: بابک حافظی / ترجمان علوم انسانی مرجع: Newyorker تونی بلر معمولا در مقابل جمعیت آرامش و چهره کاریزماتیکش را حفظ میکرد. اما در آوریل 2005 بهوضوح میشد دید که مواجهه با یک خانم از یکی از استودیوهای تلویزیونی لندن او را بهکلی به هم ریخته است.
بلر، در دوران هشتساله تصدی پست نخستوزیری بریتانیا، مأموریت داشت تا سطح خدمات بهداشت عمومی را ارتقا دهد. خدمات بهداشت عمومی (ان. اچ. اس) یکی از محبوبترین سازمانها در کل بریتانیا است که درعینحال بیش از همه تمسخر میشود و مغفولماندهترین سازمان نیز است، سازمانی که ویژگیهای منحصربهفرد و ناکارآمدیهای خاص خود را دارد.
در آن زمان، صدای همه درآمده بود از اینکه نمیشد، در بازه زمانی قابلقبول، از دکترها وقت گرفت؛ غالبا به بیماران گفته میشد که باید برای اولین وقت خالی چند هفته منتظر بمانند. دولت بلر، که محل اجتماع فنسالارهای کاردرست بود، تصمیم گرفت برای حل این مشکل هدفی تعیین کند: برای دکترهایی که حداکثر طی 48 ساعت از زمان درخواست بیمار را به حضور بپذیرند مشوقهای مالی در نظر گرفته خواهد شد.
این برنامه به نظر منطقی میآمد. اما آن روز حضار از مشکلی باخبر بودند که از چشم بلر و دولتش مخفی مانده بود. درحالیکه مصاحبه بهصورت زنده از تلویزیون پخش میشد، دایانا چرچ با خونسردی برای نخستوزیر توضیح داد که دکتر پسرش خواسته در یکی از روزهای هفته آینده آنها را ببیند و بااینحال درمانگاه به آنها گفته است که حداکثر میتواند 48 ساعت زودتر از زمان ملاقات درخواست آنها را ثبت کند. چون درغیراینصورت پزشکان آنجا از آن پاداش محروم میمانند. چنانچه چرچ میخواست از دکتر پسرش برای هفته آینده وقت بگیرد، مجبور بود تا روز قبلش صبر کند و سپس ساعت 8 صبح تماس بگیرد و مدتها پشت خط منتظر بماند. تا پیش از برقراری تشویقها، دکترها نمیتوانستند از یک حدی زودتر وقت بدهند؛ بعد از آن، دلشان نمیخواست از یک حدی دیرتر وقت بدهند.
مجری پرسید: «شما خبر نداشتید؟».
بلر پاسخ داد: «من خبر نداشتم».
مجری رو کرد به حضار و پرسید: «کس دیگری هم این تجربه را داشته است؟».
آشوبی به پا شد. اعتراضها بالا گرفت، بلر به تتهپته افتاد و یک ملت دیدند که چگونه رهبرشان، بهخاطر مشکل رایجی به نام جوردرنیامدن حسابوکتابها، کنترلش را از دست داد.
بلر و مشاورانش اولین کسانی نبودند که در اهدافشان حسننیت دارند اما بهواسطه همان اهداف به دردسر میافتند. هرگاه تلاش کنید دنیای واقعی را مجبور به انجام کاری کنید که با عدد و رقم قابلاندازهگیری است، با پیامدهای ناخواسته زیادی مواجه خواهید شد. دو کتاب جدید در حوزه دادهها و آمار به همین موضوع میپردازند: حسابکردن1: چگونه از اعداد برای تعیین اهمیت استفاده میکنیم (انتشارات لایورایت)، نوشته دبورا استون، که ما را از خطرات ناشی از تکیه بیشازحد به اعداد آگاه میکند، و کتاب کارآگاه دادهها (انتشارات ریورهد)، نوشته تیم هارفورد، که روشهایی را نشانمان میدهد برای اجتناب از تلههای موجود در دنیایی که بر مبنای دادهها مدیریت میشود.
هر دو کتاب زمانی منتشر شدهاند که قدرت خارقالعاده دادهها هیچگاه به این اندازه مشهود نبوده است. همهگیری کووید 19 نشان داد که، بدون داشتن آمار مناسب، جهان تا چه حد میتواند آسیبپذیر باشد. همچنین، با فرارسیدن انتخابات ریاستجمهوری، روزنامهها پر شد از نظرسنجیها و پیشبینیها درباره نتایج انتخابات که هدف همه آنها فرونشاندن عطش ما برای سردرآوردن از شرایط بود.
در این یک سالی که در شرایط عدم قطعیت گذشت، اعداد و ارقام برایمان حکم منبع آرامش را داشت. ما فریب دقت ظاهری و عینیت دادهها را میخوریم و وقتی آمار و ارقام نمیتوانند سرکشیهای واقعیت را به بند بکشند، گاه احساس میکنیم به ما خیانت شده است.
اشتباهی که تونی بلر و تیم خبره سیاستگذاریاش انجام دادند آنقدر اشتباه رایجی است که حکم ضربالمثل را پیدا کرده است: وقتی یک عدد مفید به معیاری برای اندازهگیری موفقیت تبدیل شود، مفیدبودنش را از دست خواهد داد. این موضوع به قانون گودهارت2معروف است. این قانون به ما یادآوری میکند که اندازهگیری دنیای انسانها میتواند جهت حرکت آن را تغییر دهد. دبورا استون در کتابش مینویسد که در شوروی برای کارخانهها و مزارع سهمیه تولید تعیین میشد، بهنحوی که شغل و معاش مردم در گرو تحقق این سهمیهها بود.
کارخانههای نساجی ملزم میشدند که مقدار معینی پارچه تولید کنند که این مقدار بر اساس طول مشخص میشد و درنتیجه بسیاری از دستگاههای پارچهبافی بهنحوی تنظیم میشدند که نوارهای پارچهای طولانی اما باریک تولید کنند. عملکرد پنبهچینهای ازبک بر اساس وزن محصول برداشتشده سنجیده میشد. بنابراین آنها پنبه را در آب میخیساندند تا سنگینتر شود. به همین شکل، وقتی در دهه 1860 اولین راهآهن سراسری در آمریکا ساخته میشد، حقالزحمه پیمانکارها برحسب مایل تعیین میشد.
بنابراین، بخشی از راهآهن در اطراف اوماها و نبراسکا، بهجای اینکه بهصورت خط مستقیم کشیده شود، بهشکل یک قوس بزرگ ساخته شد که باعث شد چندین مایل مسیر غیرضروری (اما سودآور) به خط آهن اضافه شود. مشکل زمانی ایجاد میشود که ما، برای چیزهایی که به آن اهمیت میدهیم، جایگزینهای عددی3 تعیین میکنیم. استون در کتابش جملهای را از قول اقتصاددان محیط زیست، جیمز گوستاو اسپت، نقل میکند: «ما تمایل داریم آنچه را اندازه میگیریم به دست آوریم، پس میباید چیزهایی را اندازه بگیریم که مطلوبمان باشد».
البته این مشکل به این سادگیها حل نمیشود. مشکلاتی که پیرامون قانون گودهارت وجود دارد گریبان طراحیهای هوش مصنوعی را هم خواهد گرفت: چطور میخواهید هدفی را برای الگوریتمتان توضیح دهید وقتی اعداد تنها زبان مشترک بین او و شما هستند؟ دانشمند علوم رایانه، رابرت فلت، یک بار الگوریتمی طراحی کرد که وظیفه فرودآوردن هواپیما بر روی ناو هواپیمابر را برعهده داشت.
هدف این بود که یک هواپیمای شبیهسازیشده را بهآرامی بنشاند، طوری که کمترین فشار ممکن به بدنه هواپیما وارد شود. متأسفانه، در حین اجرای تمرینی، مشکلی در الگوریتم شناسایی شد. اگر الگوریتم، بهجای اینکه هواپیمای شبیهسازیشده
را خیلی نرم فرود بیاورد، ناگهان بکوبد روی ترمز، نیروی واردشده به هواپیما از توان سیستم فراتر رفته و دقیقا معادل صفر در سیستم ثبت خواهد شد. فلت متوجه شد که الگوریتم او در اجرای آزمایش بالاترین نمره را در آزمون کسب میکند درحالیکه در واقعیت میتوانست هواپیماها را با خاک یکسان کند.
خطرناکترین نوع استفاده از دادهها زمانی رخ میدهد که از آنها برای کنترل چیزها استفاده کنیم نه برای فهمیدن آنها. قانون گودهارت درواقع نشاندهنده محدودیت اساسیتری در نگاه دادهمحور به جهان است. به نوشته تیم هارفورد، دادهها «میتوانند جایگزین کاملا قابلاحترامی باشند برای چیزهایی که برایمان مهماند» اما حتی بهترین جایگزینها نیز با اصل خود فاصله بسیاری دارند، فاصلهای میان آن چیزی که قادر به اندازهگیری آن هستیم و آن چیزی که واقعا برایمان مهم است.
هارفورد از روانشناس برجسته، دنیل کانمن، نقل میکند که در کتابش، تفکر سریع و آهسته، توضیح داده است که وقتی ما با سؤال دشواری مواجه میشویم عادت داریم آن را با یک سؤال ساده عوض کنیم و معمولا هم این کار را ناخودآگاه انجام میدهیم. مصداقهایی از این موضوع را میتوان در سؤالهایی مشاهده کرد که جامعه تلاش میکند با استفاده از دادهها به آنها پاسخ دهد. یکی از مثالهای بارزش مدرسه است. ممکن است دغدغه این را داشته باشیم که آیا بچههایمان آموزش مناسبی در مدرسه دریافت میکنند یا نه.
اما مشکل اینجاست که دقیقا نمیتوانیم مشخص کنیم که منظورمان از «مناسب» چیست. درعوض، به یک سؤال مرتبط و البته سادهتر متوسل میشویم: اینکه دانشآموزمان در آزمونی خاص، که تنها از بخشی از پیکره واقعیت گرفته میشود، چه عملکردی دارد؟ و بهاینترتیب گرفتار سندروم رقتانگیز «آموزش برای آزمون»4 میشویم. مثال دیگری از این موضوع استفاده از شاخص تولید ناخالص داخلی (جی دیپی) برای تعیین وضعیت اقتصادی یک کشور است. بر طبق این شاخص، اگر یک معلم مدرسه به یکی از شاگردانش تعرض کند و به همین دلیل به یک زندان فوق امنیتی منتقل شود، نسبت به حالتی که به آن دانش آموز درس یاد بدهد، مشارکت بیشتری در موفقیت اقتصادی کشورش خواهد داشت چون، بهواسطه زندانرفتن آن معلم، کلی شغل ایجاد میشود.
یکی از بحثبرانگیزترین کاربردهای الگوریتمها در سالهای اخیر پیشنهاد آزادی برای زندانیانی است که در انتظار جلسه دادگاه هستند. در دادگاههای سراسر آمریکا، وقتی کسی به جرمی متهم میشود، یک الگوریتم سوابق مجرمیت او را بررسی میکند و عددی را بهعنوان نمره ریسک آن فرد استخراج میکند تا قاضی به کمک آن عدد تصمیم بگیرد که آن فرد، تا فرارسیدن زمان دادگاه، باید پشت میلهها باشد یا خیر. الگوریتم، با استفاده از دادههای مربوط به اتهامهای قبلی فرد، تلاش میکند تا احتمال ارتکاب مجدد جرم را برای آن فرد محاسبه نماید.
اما در اینجا هم، بین چیزی که برایمان مهم است و چیزی که میتوانیم آن را اندازه بگیریم، یکی از آن تعویضهای ظریف کانمنی انجام میشود. الگوریتم نمیتواند پیشبینی کند که چه کسی قرار است دوباره مرتکب جرم شود. بلکه تنها میتواند پیشبینی کند که چه کسی دوباره دستگیر خواهد شد.
البته که نرخ دستگیرشدن برای همه افراد یکسان نیست. برای مثال سیاهپوستان و سفیدپوستان در آمریکا، هر دو، تقریبا به یک اندازه از ماریجوانا استفاده میکنند اما گروه اول تقریبا چهار برابر گروه دوم احتمال دارد بهخاطر حمل ماریجوانا دستگیر شوند. الگوریتمی که بر اساس دادههای دارای سوگیری ساخته شده باشد منجر به تداوم رفتارهای دارای سوگیری خواهد شد (برایان کریستین در کتاب اخیرش، مسئله همراستایی5 6، مسائل بغرنجی از این دست را به شکلی عالی از نظر گذرانده است).
این به این معنی نیست که قضاوت انسانی لزوما عملکرد بهتری خواهد داشت، اما بههرحال سوگیری ورودی سوگیری خروجی را به دنبال خواهد داشت و این مشکل میتواند ارزش این نوع پیشنهادهای درخشان و دادهمحور را تا حد زیادی با محدودیت همراه کند.
کافی است سؤالی را در یک پرسشنامه تغییر دهید، ولو تغییر جزئی، و ببینید که چگونه همهچیز تغییر خواهد کرد. حدود 25 سال پیش در اوگاندا، آمار نیروی کار فعال بهطور ناگهانی بیش از 10 درصد افزایش یافت و از 6.5میلیون نفر به 7.2میلیون نفر رسید. طبق توضیح هارفورد، این افزایش ناشی از تغییر در کلمات پرسشنامه نیروی کار بود. تا پیش از آن، از مردم خواسته میشد تا فعالیت یا شغل اصلیشان را اعلام کنند، اما در نسخه جدید پرسشنامه از افراد خواسته میشد تا نقشهای ثانویهای که بر عهده دارند را نیز ذکر کنند. بهاینترتیب، ناگهان صدها هزار زن اوگاندایی، که شغل اصلیشان خانهداری بود اما ساعتهای زیادی را هم به انجام کارهای دیگر میگذراندند، به آمار کلی اضافه شدند.
برای اینکه بتوانیم دنیا را در قالب اعداد درآوریم، باید آن را تا حد نیاز کوچک کنیم و این یعنی دورریختن حجم زیادی از جزئیات. این حذفکردنهای اجتنابناپذیر میتواند دادهها را، برای گروههای خاصی از افراد، با سوگیری همراه کند. استون توضیح میدهد که سازمان ملل متحد زمانی تلاش کرد دستورالعملهایی را برای اندازهگیری سطح خشونت علیه زنان تدوین کند. نمایندگانی از اروپا، آمریکای شمالی، استرالیا و نیوزلند نظراتشان را درباره نوع خشونتهایی که باید در این دستورالعملها گنجانده شود مطرح کردند.
نظرات آنها بر مبنای تحقیقات پیمایشیای بود که بر روی قربانیان در کشورهای خودشان انجام شده بود. موارد پیشنهادی عبارت بودند از مشتزدن، لگدزدن، گازگرفتن، سیلیزدن، هلدادن، کتککاری و فشردن گلو. در همین حین، تعدادی از زنان بنگلادشی پیشنهاد دادند که اشکال دیگری از خشونت نیز باید لحاظ شود - اعمالی که در شبهقاره هند خیلی هم غیرمعمول نیستند - کارهایی مثل سوزاندن زنان، اسیدپاشی بر روی آنها، پرتابکردن آنها از ارتفاع و مجبورکردن آنها به خوابیدن در آغل حیوانات. هیچکدام از این موارد در فهرست نهایی گنجانده نشد. بنابراین، وقتی یک تحقیق پیمایشی بر اساس دستورالعملهای سازمان ملل متحد انجام شود، یافتههای اندکی درباره زنانی به دست خواهد آمد که در معرض این نوع از خشونتها قرار دارند. به قول استون، قبل از شمردن، ابتدا باید تصمیم بگیریم که چه چیزهایی باید شمرده شوند.
کسی که کار شمارش را انجام میدهد قدرت دارد. دیدگاههای ما تأثیر عمیقی دارد در تعیین اینکه چه چیزی ارزش شمردهشدن دارد. درنتیجه، هرقدر هم در فرایند جمعآوری دادهها حسننیت داشته باشیم، باز هم چیزهایی را از قلم خواهیم انداخت. متأسفانه گاهی نیز سوگیریها عمدا از نظرها پنهان نگاه داشته میشود. در سال 2020، در مجله سایکولوجیکال ساینس، مقالهای چاپ شد که رابطه بین بهره هوشی و
تعدادی از شاخصهای اقتصادیاجتماعی را در کشورهای مختلف جهان بررسی کرده بود. متأسفانه، این مقاله به دادههای ملی مربوط به تخمین بهره هوشی استناد کرده بود، گزارشی که با همکاری روانشناس بریتانیایی، ریچارد لین، منتشر شده است. ریچارد لین علنا معتقد به برتری سفیدپوستان است.
هرچند که قاعدتا باید بتوانیم مشارکت علمی لین در آن پژوهش را مستقل از دیدگاههای شخصیاش ارزیابی کنیم، اما مجموعه دادههایی که او برای تخمین بهره هوشی استفاده کرده است در برخی مواقع شامل نمونههای آماری مشکوکی است که نمیتواند بهخوبی معرف جامعه غیراروپایی باشد. مثلا تخمین او از بهره هوشی جامعه سومالی بر مبنای نمونه آماری کودکانی است که در یکی از اردوگاههای پناهندگان در کنیا اقامت داشتند. تخمین بهره هوشی مردم هائیتی بر اساس یک نمونه آماری شامل 133 کودک ششساله روستایی تعیین شده است.
تخمین بهره هوشی مردم بتسوانا هم بر مبنای یک نمونه آماری از دانشآموزان دبیرسانی محاسبه شده است و آزمون آنها هم در آفریقای جنوبی و با زبانی غیر از زبان مادریشان اجرا شده است. بعد از آن، روانشناسی به نام یلته ویکرتس نشان داد که بهترین عاملی که میتواند حضور یک نمونه آماری از یک کشور آفریقایی را در پژوهش لین پیشبینی کند این است که میانگین بهره هوشی در آن نمونه از میانگین جهانی پایینتر باشد. درنتیجه، سایکولوجیکال ساینس این مقاله را حذف کرد اما همچنان مقالهها و کتابهای فراوانی هستند که به دادههای لین استناد کردهاند.
البته، بهره هوشی هم گرفتار همان مشکلات آشنایی است که در استفاده از متغیرهای آماری جایگزین با آن مواجهیم؛ بهره هوشی عددی است که در کاری مثل اندازهگیری قطعی، مطلق و تغییرناپذیر «هوش» بهطرز ناامیدکنندهای شکست میخورد. البته وجود چنین محدودیتهایی به این معنی نیست که بهره هوشی کاملا بیارزش است. بهره هوشی، در بسیاری موارد، قدرت پیشبینی بالایی دارد: درآمد، طول عمر و موفقیت حرفهای. متغیرهای جایگزین همچنان میتوانند بهعنوان شاخصی که چیزی را اندازه میگیرد به کارمان بیایند، حتی اگر بهراحتی نتوانیم تعیین کنیم که آن چیز چیست.
شمردن همهچیز غیرممکن است؛ پس مجبوریم جایی را بهعنوان خط مرزی مشخص کنیم. اما وقتی مفاهیمی که با آن سروکار داریم مبهمتر از مفاهیمی چون زمان لازم برای وقتگرفتن از دکتر یا طول مسیر راهآهن هستند، خود عمل مرزکشی میتواند مشکلساز شود. هارفورد، در ادامه، مثال دو گوسفند در یک مزرعه را میزند: «در یک مزرعه دو گوسفند داریم، اما نکته اینجاست که یکی از گوسفندها درواقع گوسفند نیست بلکه بره است. گوسفند دیگر هم در مرحله آخر بارداری است. درواقع در آستانه وضع حمل است و هر لحظه ممکن است زایمان کند. حالا بگویید چند گوسفند داریم؟».
سؤالهایی از این دست فراتر از یک آزمایش ذهنی ساده هستند. یکی از دوستانم به نام سوزی گیج، که نویسنده و روانشناس است، در دوران همهگیری کووید 19 با شوهرش ازدواج کرد. او آنموقع در هفته سیونهم بارداریاش بود. به دلیل محدودیتهایی که در آن زمان وضع شده بود نمیتوانستند بیشتر از 10 نفر را به مراسم عروسیشان دعوت کنند. نوزادها گاهی جزء آمار حساب میشوند.
پس اگر بچه آنها قبل از روز عروسی به دنیا میآمد، او و آقای داماد یا باید قید دعوت از یکی از اعضای نزدیک خانواده را میزدند یا اینکه بچه تازهمتولدشده را در خانه تنها میگذاشتند.
همیشه نمیتوان دنیا را در چند دستهبندی ساده جای داد. گاهی اوقات مجبوریم تصمیمات سختی بگیریم درباره اینکه اولا چه چیزی را باید به حساب آورد و ثانیا اینکه چطور باید مقدار آن چیز را محاسبه کرد. بنابراین، به دنبال روش آزمایشگاهی کاملا کنترلشدهای میگردیم که تمام دادهها در آن مشخص و حسابشده باشد. آرزویمان هم این است که در انتهای آزمایش به توصیف کاملا دقیقی از واقعیت دست پیدا کنیم. البته ممکن است آکواریومی در آلمان تمام این آرزو را نقش بر آب کند.
مارمورکرب نوعی خرچنگ است، شبیه انواع دیگر خرچنگها - با پاهای باریک و بدن خالدار - اما در پشت این ظاهر مشابه یک تفاوت استثنایی پنهان شده است: مارمورکربها بهشیوه غیرجنسی تولیدمثل میکنند. یک مارمورکرب از نظر ژنتیکی کاملا شبیه فرزندانش است.
مایکل بلستلند، در کتاب نیمه پنهان: جهان چگونه اسرارش را مخفی میکند7 (انتشارات آتلانتیک بوکز)، توضیح میدهد که وقتی دانشمندان برای اولین بار این موجود عجیب را کشف کردند آن را فرصتی دانستند برای پاسخ به بحث قدیمی طبیعت (ژنتیک) یا تربیت (محیط). آنها یک گروه کنترل ایدئال برای آزمایششان پیدا کرده بودند. همه کاری که برای شروع باید انجام میدادند این بود که لشکر کوچکی از مارمورکربهای نوجوان، که همگی از نظر ژنتیکی با هم یکسان بودند، را جمعآوری کنند و آنها را در محیطی یکسان پرورش دهند - به همه آنها مقدار یکسانی آب با دمای یکسان، مقدار یکسانی غذا و مقدار یکسانی نور بدهند - و منتظر بمانند تا همه آنها به موجودات بالغ کاملا یکسانی تبدیل شوند. بعد از آن، دانشمندان میتوانستند متغیرهای محیطی را دستکاری کنند و به بررسی نتایج بپردازند.
بااینحال، همینطور که این مارمورکربهای یکسان در شرایط محیطی یکسان رشد میکردند، تفاوتهای قابلتوجهی در آنها پدیدار میشد. تفاوت چشمگیری در اندازه آنها دیده میشد بهطوری که وزن یکی از آنها 20 برابر دیگری شده بود. رفتارشان هم با هم فرق میکرد: بعضی از آنها پرخاشگرتر از دیگران بودند، بعضیها تنهایی را ترجیح میدادند. بعضیها دوبرابر خواهر و برادرهایشان عمر میکردند. الگوی خالهای روی پوسته هیچ دو مارمورکربی شبیه هم نبود؛ حتی شکل اندامهای داخلی آنها نیز با هم متفاوت بود.
دانشمندان، برای ثابت نگهداشتن تکتک نقاط دادهای، نهایت تلاششان را به خرج داده بودند؛ آنها تلاش طاقتفرسایی را برای ثبت و کنترل هرآنچه قابلاندازهگیری بود انجام داده بودند. بااینحال، گیج شده بودند از دیدن اینهمه تفاوتهایی که برایشان نه قابلتبیین بود و نه قابلپیشبینی. حتی کوچکترین نوساناتی، که از چشمان علم مخفی میماند، میتواند با گذشت زمان تشدید شده و دنیایی از تفاوت را ایجاد کند. سرشت بر اساس ویژگیهای تصادفی اجتنابناپذیری بنا میشود و بهاینترتیب نگاه دادهمحور به واقعیت را با محدودیت مواجه میکند.
حوالی سال 2000، گروهی از پژوهشگران شروع کردند به دعوت از افراد برای شرکت در پژوهشی که نامش را گذاشته بودند «خانوادههای شکننده». پژوهشگران دنبال خانوادههایی با نوزادان تازهمتولدشده
میگشتند تا پیشرفت فرزندان و والدین آنها را برای چندین سال ردگیری کنند. آنها بیش از چهارهزار خانواده را ثبتنام کردند و، بعد از یک ملاقات اولیه، پژوهشگران خانوادهها را در مقاطع زمانیای که فرزندانشان یک، سه، پنج، نه و پانزدهساله بودند دوباره ملاقات کردند. در هر ملاقات، آنها دادههای مربوط به رشد کودکان، وضعیت خانواده و محیط زندگیشان را جمعآوری میکردند.
آنها جزئیات مربوط به سلامتی، اطلاعات جمعیتشناختی، رابطه پدر و مادر، نوع محلهای که کودک در آن زندگی میکند و اینکه شبها چه ساعتی میخوابد را ثبت میکردند. محققان، تا انتهای پژوهش، نزدیک به 13هزار داده را درباره هر کودک جمعآوری کردند.
تیم پژوهش، در ادامه، کار نسبتا هوشمندانهای انجام دادند. آنها، بهجای اینکه تمام دادهها را بهیکباره منتشر کنند، بخشی از دادههای مربوط به اواخر پژوهش را پیش خودشان نگه داشتند و از پژوهشگران سراسر دنیا دعوت کردند تا ببینند آیا آنها میتوانند یافتههای خاصی از پژوهش را پیشبینی کنند یا خیر. میخواستند ببینند که آیا پیچیدهترین الگوریتمهای یادگیری ماشینی و مدلهای ریاضی موجود در جهان میتوانند، با استفاده از تمام دانستههای مربوط به کودکان تا یک سن خاص، از وضعیت زندگی کودکان در سن پانزدهسالگی پرده بردارند یا خیر؟
برای اینکه چالش متمرکزتر شود، از پژوهشگران خواسته شد تا مقدار شش شاخص کلیدی را پیشبینی کنند، شاخصهایی مثل عملکرد تحصیلی بچهها در پانزدهسالگی. تیم پژوهش، برای اینکه یک خط مبنای واحد را برای همه آن پژوهشگران فراهم کند، مدل سادهای را برای پیشبینی در اختیار آنها قرار داد. مدلی که از شدت سادگی خندهدار بود. این مدل فقط از چهار نوع داده استفاده میکرد که سه مورد از آنها در زمان تولد کودک ثبت شده بود: سطح تحصیلات، وضعیت تأهل و نژاد مادر.
همانطور که حدس میزنید، آن مدل پایه حرف زیادی برای پیشبینی آینده نداشت. این مدل، در بهترین حوزه عملکردش، تنها میتوانست حدود 20 درصد از واریانس دادهها را تبیین کند. اما از آن جالبتر عملکرد الگوریتمهای پیچیده بود. مدلهایی که بر اساس مجموعهای کامل و بسیار غنی از دادهها ساخته شده بودند، در بهترین حالت، تنها توانستند عملکرد مدل پایه را در حد چند درصد ناقابل بهبود ببخشند.
همچنین هیچکدام از مدلهای پیچیده نتوانست، در چهار حوزه از شش حوزه، از دقت ششدرصدی مدل پایه فراتر برود. حتی کارآمدترین الگوریتم هم تنها توانست 23 درصد از واریانس موجود در میانگین نمرات بچهها را پیشبینی کند. درواقع، در تمام موارد، فاصله بین عملکرد بهترین و بدترین مدلها همیشه کمتر بود از فاصله بین بهترین مدلها و آنچه در واقعیت اتفاق افتاده بود. معنی این حرف، همانطور که تیم پژوهش هم اعلام کرد، این است که این مدلها «در پیشبینیکردن یکدیگر بهتر عمل میکنند» تا در پیشبینی مسیر زندگی یک انسان.
این به این معنی نیست که این مدلها بد هستند، بلکه آنها، بهشکل معناداری، بهتر از پیشبینی غریزی و پیشبینی بر اساس حدس و گمان عمل میکنند؛ از دهه 1950 به این سو، فهمیدهایم که حتی سادهترین الگوریتمها هم عملکرد بهتری از پیشبینیهای انسانی دارند. اما چالش «خانوادههای شکننده» حواسش بود که گرفتار این وسوسه رایج نشود که باور کند تمام جوابها در آستین اعداد و ارقام است. این واقعیت که مدلهای پیچیده، فقط میتوانند به مقدار ناچیزی مدلهای ساده را بهبود ببخشند ما را به همان سؤال آشنا میرساند، یعنی اینکه اولا چه چیزی را باید به حساب آورد و ثانیا اینکه چطور باید مقدار آن چیز را محاسبه کرد.
شاید بتوان نتیجه دیگری هم از این موضوع گرفت. هروقت که نظرسنجیها در پیشبینی نتایج انتخابات ناموفق عمل میکنند، معمولا میشنویم که به دادههای بیشتر و بهتری نیاز است. اما حالا که فهمیدیم بیشترکردن دادهها همیشه جواب نمیدهد، شاید لازم باشد، بهجای این کار، در رابطه خودمان با پیشبینیکردن تجدیدنظر کنیم، یعنی بپذیریم که توانمندی اعداد و ارقام هم با محدودیتهای اجتنابناپذیری همراه است و، از آن به بعد، دیگر از مدلهای ریاضی توقع بیجا نداشته باشیم که بهخودی خود بتوانند ما را از ورطه عدم قطعیت بهسلامت عبور دهند.
اعداد جایگزین ناکارآمدی برای رنگ و غنای دنیای واقعی هستند. ممکن است تعجب کنید از اینکه میبینید یک ریاضیدان حرفهای (مثل من) یا یک اقتصاددان حرفهای (مثل هارفورد) دارند تلاش میکنند تا شما را نسبت به این حقیقت مجاب کنند. اما درک محدودیتهای موجود در نگاه دادهمحور به جهان به معنای کمرنگ جلوهدادن تواناییهای آن نیست. دو گزاره ذیل میتواند همزمان برقرار باشد: اعداد و ارقام در برابر ظرافتهای موجود در واقعیت کم میآورند و، درعینحال، وقتی پای فهمیدن همان واقعیت در میان باشد، اعداد و ارقام قدرتمندترین ابزاری هستند که در اختیار داریم.
آنچه در همهگیری کووید 19 اتفاق افتاد حقیقت قاطعی را به تصویر کشید. اینکه میزان واقعی خسارتهای ناشی از این ویروس در آمار و ارقام نمیگنجد. وقتی قرار است بگوییم کارکردن در بخش مراقبتهای ویژه یعنی چه، یا اینکه ازدستدادن عزیزی بر اثر این بیماری چه حسی دارد آمار و ارقام حرفی برای گفتن ندارد. آمار و ارقام حتی در شمارش تعداد واقعی جانهایی که در این میان از بین رفتهاند هم ناتوان است (منظورم آمار مرگهایی نیست که با یک دستهبندی شستهرفته شمرده میشود، مثل آمار مرگهایی که طی 28 روز بعد از مثبتشدن آزمایش اتفاق میافتد). آمار و ارقام نمیتواند با قطعیت بگوید که چهوقت به شرایط عادی باز خواهیم گشت.
اما، درعینحال، آمار و ارقام تنها ابزاری است که در دست داریم تا با آن میزان کشندهبودن این ویروس را درک کنیم، از نحوه کارش سر در بیاوریم و، هرچند غیرقطعی، بتوانیم آیندههای محتملی که در انتظارمان است را بررسی کنیم.
اعداد میتوانند داستان کاملی از وجود انسانها روایت کنند. در کنیا، از هر هزار کودک 43تایشان تولد پنجسالگی را نمیبینند. در مالزی، این اتفاق برای 9 کودک میافتد. استون دراینباره سخنانی را از هانس رسلینگ، متخصص سوئدی بهداشت عمومی، نقل میکند: «این شاخص میتواند درجه تب کلی جامعه را نشان دهد. چراکه بچهها بسیار آسیبپذیرند و عوامل زیادی میتواند آنها را به کشتن دهد». آن 991 کودکی که در مالزی نمیمیرند درواقع آنهایی هستند که دربرابر خطر میکروبها، قحطی، خشونت و دسترسی محدود به خدمات بهداشتی محافظت شدهاند. همین یک عدد تصویر روشنی ارائه میدهد از تمام کارهایی که باید برای زندهماندن یک کودک انجام داد.
هارفورد در کتابش ما را با تعداد بیشتری از این نوع شاخصهای آماری آشنا میکند. او از ما میخواهد که روزنامهای را تصور کنیم که هر صد سال یک بار منتشر میشود: او ادعا میکند که اگر قرار بود یک شماره از آن امروز منتشر شود، یقینا تیتر صفحه اول آن به کاهش چشمگیر مرگومیر کودکان در یک قرن اخیر اختصاص مییافت.
او مینویسد: «مدرسهای را تصور کنید که قرار است صد کودک پنجساله را ثبت نام کند، کودکانی که بهطور تصادفی در نقاط مختلف دنیا متولد شدهاند». در سال 1918، 32 نفر از این کودکان تا قبل از روز اول مدرسه میمردند. تا سال 2018، این عدد به چهار نفر کاهش پیدا کرده بود. هارفورد معتقد است که این پیشرفت قابلتوجهی است و هیچچیز بهجز آمار و ارقام نمیتواند تصویر واضحی از این پیشرفت در مقیاس کلان ترسیم کند.
این ابهامهای آماری حتی میتواند در خود موضوع تولد هم وجود داشته باشد. هارفورد داستانی را تعریف میکند از وجود اختلاف گیجکنندهای در آمار مرگومیر نوزادان. از قرار معلوم، این آمار در نواحی مرکزی انگلیس، موسوم به میدلندز، بهطرز چشمگیری بیشتر از لندن بود. آیا متخصصان زنان و زایمان در شهر لستر کارشان را بلد نبودند؟ مشکل دقیقا این نبود. در بریتانیا، بارداریهایی که بعد از هفته بیستوچهارم پایان یابد از نظر قانونی تولد محسوب میشوند؛ از سوی دیگر، بارداریهایی که قبل از هفته دوازدهم به پایان برسد بهعنوان سقط در نظر گرفته میشوند.
در مورد بارداریهایی که جایی بین این دو زمان مشخص تمام میشوند - خواه در هفته پانزدهم بارداری، خواه در هفته بیستوسوم - واژهای که برای توصیف ازدستدادن جنین استفاده میشود بیش از همه برای والدین داغدار مهم است و بههرحال اصطلاحی در قانون برای آن پیشبینی نشده است. دکترهای میدلندز، طبق رسم خودشان، این موارد را بهعنوان مرگومیر کودک ثبت میکنند؛ دکترهای لندن اما آن را سقطجنین اعلام میکنند. تفاوت در آمار برمیگشت به اینکه آنچه میشمردیم را چه مینامیدیم.
اعداد همیشه راست میگویند، مگر در مواردی که دروغ میگویند. حق با هارفورد است که میگوید آمار و ارقام میتوانند با شفافیت و دقتشان دنیا را روشن کنند. آمار و ارقام میتوانند علاجی باشند برای جایزالخطابودن ما انسانها. اما آنچه بهراحتی فراموش میشود این است که آمار و ارقام همچنین میتواند این خطاپذیری را تشدید کند. آنطور که استون به ما یادآوری میکند، «درست محاسبهکردن نیازمند فروتنی است تا بدانیم چه چیزهایی را نمیتوان یا نباید به حساب آورد».
لینک کوتاه: asriran.com/003Qg9