اعداد همیشه راست می‌گویند، مگر وقتی که دروغ می‌گویند

وب‌گاه عصر ایران 1400/09/24 - 11:18 مشاهده در مرجع

اعداد جذاب‌اند. چه از این بهتر که پدیده‌ای پیچیده را در قالب چند عدد و رقم ساده و قابل‌فهم برای همه توضیح بدهیم؟ مهم نیست پیش‌بینی انتخابات باشد، اندازه‌گیری تورم، تاثیرگذاری واکسیناسیون، یا سنجش هوش؛ همه را می‌توان در چند رقم خلاصه کرد. اما کاش همه‌چیز به همین سادگی بود. وقتی بخواهیم دنیا و پیچیدگی‌هایش را در قالب اعداد جای دهیم، باید بخش زیادی از جزئیات را دور بریزیم، جزئیاتی که گاهی...

هانا فرای ترجمه: بابک حافظی / ترجمان علوم انسانی مرجع: Newyorker تونی بلر معمولا در مقابل جمعیت آرامش و چهره کاریزماتیکش را حفظ می‌کرد. اما در آوریل 2005 به‌وضوح می‌شد دید که مواجهه با یک خانم از یکی از استودیوهای تلویزیونی لندن او را به‌کلی به هم ریخته است.

بلر، در دوران هشت‌ساله تصدی پست نخست‌وزیری بریتانیا، مأموریت داشت تا سطح خدمات بهداشت عمومی را ارتقا دهد. خدمات بهداشت عمومی (ان. اچ. اس) یکی از محبوب‌ترین سازمان‌ها در کل بریتانیا است که درعین‌حال بیش از همه تمسخر می‌شود و مغفول‌مانده‌ترین سازمان نیز است، سازمانی که ویژگی‌های منحصربه‌فرد و ناکارآمدی‌های خاص خود را دارد.

در آن زمان، صدای همه درآمده بود از اینکه نمی‌شد، در بازه زمانی قابل‌قبول، از دکترها وقت گرفت؛ غالبا به بیماران گفته می‌شد که باید برای اولین وقت خالی چند هفته منتظر بمانند. دولت بلر، که محل اجتماع فن‌سالارهای کاردرست بود، تصمیم گرفت برای حل این مشکل هدفی تعیین کند: برای دکترهایی که حداکثر طی 48 ساعت از زمان درخواست بیمار را به حضور بپذیرند مشوق‌های مالی در نظر گرفته خواهد شد.

این برنامه به نظر منطقی می‌آمد. اما آن روز حضار از مشکلی باخبر بودند که از چشم بلر و دولتش مخفی مانده بود. درحالی‌که مصاحبه به‌صورت زنده از تلویزیون پخش می‌شد، دایانا چرچ با خونسردی برای نخست‌وزیر توضیح داد که دکتر پسرش خواسته در یکی از روزهای هفته آینده آن‌ها را ببیند و بااین‌حال درمانگاه به آن‌ها گفته است که حداکثر می‌تواند 48 ساعت زودتر از زمان ملاقات درخواست آن‌ها را ثبت کند. چون درغیراین‌صورت پزشکان آنجا از آن پاداش محروم می‌مانند. چنانچه چرچ می‌خواست از دکتر پسرش برای هفته آینده وقت بگیرد، مجبور بود تا روز قبلش صبر کند و سپس ساعت 8 صبح تماس بگیرد و مدت‌ها پشت خط منتظر بماند. تا پیش از برقراری تشویق‌ها، دکترها نمی‌توانستند از یک حدی زودتر وقت بدهند؛ بعد از آن، دلشان نمی‌خواست از یک حدی دیرتر وقت بدهند.

مجری پرسید: «شما خبر نداشتید؟».

بلر پاسخ داد: «من خبر نداشتم».

مجری رو کرد به حضار و پرسید: «کس دیگری هم این تجربه را داشته است؟».

آشوبی به پا شد. اعتراض‌ها بالا گرفت، بلر به تته‌پته افتاد و یک ملت دیدند که چگونه رهبرشان، به‌خاطر مشکل رایجی به نام جوردرنیامدن حساب‌وکتاب‌ها، کنترلش را از دست داد.

بلر و مشاورانش اولین کسانی نبودند که در اهدافشان حسن‌نیت دارند اما به‌واسطه همان اهداف به دردسر می‌افتند. هرگاه تلاش کنید دنیای واقعی را مجبور به انجام کاری کنید که با عدد و رقم قابل‌اندازه‌گیری است، با پیامدهای ناخواسته زیادی مواجه خواهید شد. دو کتاب جدید در حوزه داده‌ها و آمار به همین موضوع می‌پردازند: حساب‌کردن1: چگونه از اعداد برای تعیین اهمیت استفاده می‌کنیم (انتشارات لایورایت)، نوشته دبورا استون، که ما را از خطرات ناشی از تکیه بیش‌ازحد به اعداد آگاه می‌کند، و کتاب کارآگاه داده‌ها (انتشارات ریورهد)، نوشته تیم هارفورد، که روش‌هایی را نشانمان می‌دهد برای اجتناب از تله‌های موجود در دنیایی که بر مبنای داده‌ها مدیریت می‌شود.

هر دو کتاب زمانی منتشر شده‌اند که قدرت خارق‌العاده داده‌ها هیچ‌گاه به این اندازه مشهود نبوده است. همه‌گیری کووید 19 نشان داد که، بدون داشتن آمار مناسب، جهان تا چه حد می‌تواند آسیب‌پذیر باشد. همچنین، با فرارسیدن انتخابات ریاست‌جمهوری، روزنامه‌ها پر شد از نظرسنجی‌ها و پیش‌بینی‌ها درباره نتایج انتخابات که هدف همه آن‌ها فرونشاندن عطش ما برای سردرآوردن از شرایط بود.

در این یک سالی که در شرایط عدم قطعیت گذشت، اعداد و ارقام برایمان حکم منبع آرامش را داشت. ما فریب دقت ظاهری و عینیت داده‌ها را می‌خوریم و وقتی آمار و ارقام نمی‌توانند سرکشی‌های واقعیت را به بند بکشند، گاه احساس می‌کنیم به ما خیانت شده است.

اشتباهی که تونی بلر و تیم خبره سیاست‌گذاری‌اش انجام دادند آن‌قدر اشتباه رایجی است که حکم ضرب‌المثل را پیدا کرده است: وقتی یک عدد مفید به معیاری برای اندازه‌گیری موفقیت تبدیل شود، مفیدبودنش را از دست خواهد داد. این موضوع به قانون گودهارت2معروف است. این قانون به ما یادآوری می‌کند که اندازه‌گیری دنیای انسان‌ها می‌تواند جهت حرکت آن را تغییر دهد. دبورا استون در کتابش می‌نویسد که در شوروی برای کارخانه‌ها و مزارع سهمیه تولید تعیین می‌شد، به‌نحوی که شغل و معاش مردم در گرو تحقق این سهمیه‌ها بود.

کارخانه‌های نساجی ملزم می‌شدند که مقدار معینی پارچه تولید کنند که این مقدار بر اساس طول مشخص می‌شد و درنتیجه بسیاری از دستگاه‌های پارچه‌بافی به‌نحوی تنظیم می‌شدند که نوارهای پارچه‌ای طولانی اما باریک تولید کنند. عملکرد پنبه‌چین‌های ازبک بر اساس وزن محصول برداشت‌شده سنجیده می‌شد. بنابراین آن‌ها پنبه را در آب می‌خیساندند تا سنگین‌تر شود. به همین شکل، وقتی در دهه 1860 اولین راه‌آهن سراسری در آمریکا ساخته می‌شد، حق‌الزحمه پیمانکارها برحسب مایل تعیین می‌شد.

بنابراین، بخشی از راه‌آهن در اطراف اوماها و نبراسکا، به‌جای اینکه به‌صورت خط مستقیم کشیده شود، به‌شکل یک قوس بزرگ ساخته شد که باعث شد چندین مایل مسیر غیرضروری (اما سودآور) به خط آهن اضافه شود. مشکل زمانی ایجاد می‌شود که ما، برای چیزهایی که به آن اهمیت می‌دهیم، جایگزین‌های عددی3 تعیین می‌کنیم. استون در کتابش جمله‌ای را از قول اقتصاددان محیط زیست، جیمز گوستاو اسپت، نقل می‌کند: «ما تمایل داریم آنچه را اندازه می‌گیریم به دست آوریم، پس می‌باید چیزهایی را اندازه بگیریم که مطلوبمان باشد».

البته این مشکل به این سادگی‌ها حل نمی‌شود. مشکلاتی که پیرامون قانون گودهارت وجود دارد گریبان طراحی‌های هوش مصنوعی را هم خواهد گرفت: چطور می‌خواهید هدفی را برای الگوریتمتان توضیح دهید وقتی اعداد تنها زبان مشترک بین او و شما هستند؟ دانشمند علوم رایانه، رابرت فلت، یک بار الگوریتمی طراحی کرد که وظیفه فرودآوردن هواپیما بر روی ناو هواپیمابر را برعهده داشت.

هدف این بود که یک هواپیمای شبیه‌سازی‌شده را به‌آرامی بنشاند، طوری که کمترین فشار ممکن به بدنه هواپیما وارد شود. متأسفانه، در حین اجرای تمرینی، مشکلی در الگوریتم شناسایی شد. اگر الگوریتم، به‌جای اینکه هواپیمای شبیه‌سازی‌شده

را خیلی نرم فرود بیاورد، ناگهان بکوبد روی ترمز، نیروی واردشده به هواپیما از توان سیستم فراتر رفته و دقیقا معادل صفر در سیستم ثبت خواهد شد. فلت متوجه شد که الگوریتم او در اجرای آزمایش بالاترین نمره را در آزمون کسب می‌کند درحالی‌که در واقعیت می‌توانست هواپیماها را با خاک یکسان کند.

خطرناک‌ترین نوع استفاده از داده‌ها زمانی رخ می‌دهد که از آن‌ها برای کنترل چیزها استفاده کنیم نه برای فهمیدن آن‌ها. قانون گودهارت درواقع نشان‌دهنده محدودیت اساسی‌تری در نگاه داده‌محور به جهان است. به نوشته تیم هارفورد، داده‌ها «می‌توانند جایگزین کاملا قابل‌احترامی باشند برای چیزهایی که برایمان مهم‌اند» اما حتی بهترین جایگزین‌ها نیز با اصل خود فاصله بسیاری دارند، فاصله‌ای میان آن چیزی که قادر به اندازه‌گیری آن هستیم و آن چیزی که واقعا برایمان مهم است.

هارفورد از روان‌شناس برجسته، دنیل کانمن، نقل می‌کند که در کتابش، تفکر سریع و آهسته، توضیح داده است که وقتی ما با سؤال دشواری مواجه می‌شویم عادت داریم آن را با یک سؤال ساده عوض کنیم و معمولا هم این کار را ناخودآگاه انجام می‌دهیم. مصداق‌هایی از این موضوع را می‌توان در سؤال‌هایی مشاهده کرد که جامعه تلاش می‌کند با استفاده از داده‌ها به آن‌ها پاسخ دهد. یکی از مثال‌های بارزش مدرسه است. ممکن است دغدغه این را داشته باشیم که آیا بچه‌هایمان آموزش مناسبی در مدرسه دریافت می‌کنند یا نه.

اما مشکل اینجاست که دقیقا نمی‌توانیم مشخص کنیم که منظورمان از «مناسب» چیست. درعوض، به یک سؤال مرتبط و البته ساده‌تر متوسل می‌شویم: اینکه دانش‌آموزمان در آزمونی خاص، که تنها از بخشی از پیکره واقعیت گرفته می‌شود، چه عملکردی دارد؟ و به‌این‌ترتیب گرفتار سندروم رقت‌انگیز «آموزش برای آزمون»4 می‌شویم. مثال دیگری از این موضوع استفاده از شاخص تولید ناخالص داخلی (جی دی‌پی) برای تعیین وضعیت اقتصادی یک کشور است. بر طبق این شاخص، اگر یک معلم مدرسه به یکی از شاگردانش تعرض کند و به همین دلیل به یک زندان فوق امنیتی منتقل شود، نسبت به حالتی که به آن دانش آموز درس یاد بدهد، مشارکت بیشتری در موفقیت اقتصادی کشورش خواهد داشت چون، به‌واسطه زندان‌رفتن آن معلم، کلی شغل ایجاد می‌شود.

یکی از بحث‌برانگیزترین کاربردهای الگوریتم‌ها در سال‌های اخیر پیشنهاد آزادی برای زندانیانی است که در انتظار جلسه دادگاه هستند. در دادگاه‌های سراسر آمریکا، وقتی کسی به جرمی متهم می‌شود، یک الگوریتم سوابق مجرمیت او را بررسی می‌کند و عددی را به‌عنوان نمره ریسک آن فرد استخراج می‌کند تا قاضی به کمک آن عدد تصمیم بگیرد که آن فرد، تا فرارسیدن زمان دادگاه، باید پشت میله‌ها باشد یا خیر. الگوریتم، با استفاده از داده‌های مربوط به اتهام‌های قبلی فرد، تلاش می‌کند تا احتمال ارتکاب مجدد جرم را برای آن فرد محاسبه نماید.

اما در اینجا هم، بین چیزی که برایمان مهم است و چیزی که می‌توانیم آن را اندازه بگیریم، یکی از آن تعویض‌های ظریف کانمنی انجام می‌شود. الگوریتم نمی‌تواند پیش‌بینی کند که چه کسی قرار است دوباره مرتکب جرم شود. بلکه تنها می‌تواند پیش‌بینی کند که چه کسی دوباره دستگیر خواهد شد.

البته که نرخ دستگیرشدن برای همه افراد یکسان نیست. برای مثال سیاه‌پوستان و سفیدپوستان در آمریکا، هر دو، تقریبا به یک اندازه از ماریجوانا استفاده می‌کنند اما گروه اول تقریبا چهار برابر گروه دوم احتمال دارد به‌خاطر حمل ماریجوانا دستگیر شوند. الگوریتمی که بر اساس داده‌های دارای سوگیری ساخته شده باشد منجر به تداوم رفتارهای دارای سوگیری خواهد شد (برایان کریستین در کتاب اخیرش، مسئله همراستایی5 6، مسائل بغرنجی از این دست را به شکلی عالی از نظر گذرانده است).

این به این معنی نیست که قضاوت انسانی لزوما عملکرد بهتری خواهد داشت، اما به‌هرحال سوگیری ورودی سوگیری خروجی را به دنبال خواهد داشت و این مشکل می‌تواند ارزش این نوع پیشنهادهای درخشان و داده‌محور را تا حد زیادی با محدودیت همراه کند.

کافی است سؤالی را در یک پرسشنامه تغییر دهید، ولو تغییر جزئی، و ببینید که چگونه همه‌چیز تغییر خواهد کرد. حدود 25 سال پیش در اوگاندا، آمار نیروی کار فعال به‌طور ناگهانی بیش از 10 درصد افزایش یافت و از 6.5میلیون نفر به 7.2میلیون نفر رسید. طبق توضیح هارفورد، این افزایش ناشی از تغییر در کلمات پرسشنامه نیروی کار بود. تا پیش از آن، از مردم خواسته می‌شد تا فعالیت یا شغل اصلی‌شان را اعلام کنند، اما در نسخه جدید پرسشنامه از افراد خواسته می‌شد تا نقش‌های ثانویه‌ای که بر عهده دارند را نیز ذکر کنند. به‌این‌ترتیب، ناگهان صدها هزار زن اوگاندایی، که شغل اصلی‌شان خانه‌داری بود اما ساعت‌های زیادی را هم به انجام کارهای دیگر می‌گذراندند، به آمار کلی اضافه شدند.

برای اینکه بتوانیم دنیا را در قالب اعداد درآوریم، باید آن را تا حد نیاز کوچک کنیم و این یعنی دورریختن حجم زیادی از جزئیات. این حذف‌کردن‌های اجتناب‌ناپذیر می‌تواند داده‌ها را، برای گروه‌های خاصی از افراد، با سوگیری همراه کند. استون توضیح می‌دهد که سازمان ملل متحد زمانی تلاش کرد دستورالعمل‌هایی را برای اندازه‌گیری سطح خشونت علیه زنان تدوین کند. نمایندگانی از اروپا، آمریکای شمالی، استرالیا و نیوزلند نظراتشان را درباره نوع خشونت‌هایی که باید در این دستورالعمل‌ها گنجانده شود مطرح کردند.

نظرات آن‌ها بر مبنای تحقیقات پیمایشی‌ای بود که بر روی قربانیان در کشورهای خودشان انجام شده بود. موارد پیشنهادی عبارت بودند از مشت‌زدن، لگدزدن، گازگرفتن، سیلی‌زدن، هل‌دادن، کتک‌کاری و فشردن گلو. در همین حین، تعدادی از زنان بنگلادشی پیشنهاد دادند که اشکال دیگری از خشونت نیز باید لحاظ شود - اعمالی که در شبه‌قاره هند خیلی هم غیرمعمول نیستند - کارهایی مثل سوزاندن زنان، اسیدپاشی بر روی آن‌ها، پرتاب‌کردن آن‌ها از ارتفاع و مجبورکردن آن‌ها به خوابیدن در آغل حیوانات. هیچ‌کدام از این موارد در فهرست نهایی گنجانده نشد. بنابراین، وقتی یک تحقیق پیمایشی بر اساس دستورالعمل‌های سازمان ملل متحد انجام شود، یافته‌های اندکی درباره زنانی به دست خواهد آمد که در معرض این نوع از خشونت‌ها قرار دارند. به قول استون، قبل از شمردن، ابتدا باید تصمیم بگیریم که چه چیزهایی باید شمرده شوند.

کسی که کار شمارش را انجام می‌دهد قدرت دارد. دیدگاه‌های ما تأثیر عمیقی دارد در تعیین اینکه چه چیزی ارزش شمرده‌شدن دارد. درنتیجه، هرقدر هم در فرایند جمع‌آوری داده‌ها حسن‌نیت داشته باشیم، باز هم چیزهایی را از قلم خواهیم انداخت. متأسفانه گاهی نیز سوگیری‌ها عمدا از نظرها پنهان نگاه داشته می‌شود. در سال 2020، در مجله سایکولوجیکال ساینس، مقاله‌ای چاپ شد که رابطه بین بهره هوشی و

تعدادی از شاخص‌های اقتصادی‌اجتماعی را در کشورهای مختلف جهان بررسی کرده بود. متأسفانه، این مقاله به داده‌های ملی مربوط به تخمین بهره هوشی استناد کرده بود، گزارشی که با همکاری روانشناس بریتانیایی، ریچارد لین، منتشر شده است. ریچارد لین علنا معتقد به برتری سفیدپوستان است.

هرچند که قاعدتا باید بتوانیم مشارکت علمی لین در آن پژوهش را مستقل از دیدگاه‌های شخصی‌اش ارزیابی کنیم، اما مجموعه داده‌هایی که او برای تخمین بهره هوشی استفاده کرده است در برخی مواقع شامل نمونه‌های آماری مشکوکی است که نمی‌تواند به‌خوبی معرف جامعه غیراروپایی باشد. مثلا تخمین او از بهره هوشی جامعه سومالی بر مبنای نمونه آماری کودکانی است که در یکی از اردوگاه‌های پناهندگان در کنیا اقامت داشتند. تخمین بهره هوشی مردم هائیتی بر اساس یک نمونه آماری شامل 133 کودک شش‌ساله روستایی تعیین شده است.

تخمین بهره هوشی مردم بتسوانا هم بر مبنای یک نمونه آماری از دانش‌آموزان دبیرسانی محاسبه شده است و آزمون آن‌ها هم در آفریقای جنوبی و با زبانی غیر از زبان مادری‌شان اجرا شده است. بعد از آن، روانشناسی به نام یلته ویکرتس نشان داد که بهترین عاملی که می‌تواند حضور یک نمونه آماری از یک کشور آفریقایی را در پژوهش لین پیش‌بینی کند این است که میانگین بهره هوشی در آن نمونه از میانگین جهانی پایین‌تر باشد. درنتیجه، سایکولوجیکال ساینس این مقاله را حذف کرد اما همچنان مقاله‌ها و کتاب‌های فراوانی هستند که به داده‌های لین استناد کرده‌اند.

البته، بهره هوشی هم گرفتار همان مشکلات آشنایی است که در استفاده از متغیرهای آماری جایگزین با آن مواجهیم؛ بهره هوشی عددی است که در کاری مثل اندازه‌گیری قطعی، مطلق و تغییرناپذیر «هوش» به‌طرز ناامیدکننده‌ای شکست می‌خورد. البته وجود چنین محدودیت‌هایی به این معنی نیست که بهره هوشی کاملا بی‌ارزش است. بهره هوشی، در بسیاری موارد، قدرت پیش‌بینی بالایی دارد: درآمد، طول عمر و موفقیت حرفه‌ای. متغیرهای جایگزین همچنان می‌توانند به‌عنوان شاخصی که چیزی را اندازه می‌گیرد به کارمان بیایند، حتی اگر به‌راحتی نتوانیم تعیین کنیم که آن چیز چیست.

شمردن همه‌چیز غیرممکن است؛ پس مجبوریم جایی را به‌عنوان خط مرزی مشخص کنیم. اما وقتی مفاهیمی که با آن سروکار داریم مبهم‌تر از مفاهیمی چون زمان لازم برای وقت‌گرفتن از دکتر یا طول مسیر راه‌آهن هستند، خود عمل مرزکشی می‌تواند مشکل‌ساز شود. هارفورد، در ادامه، مثال دو گوسفند در یک مزرعه را می‌زند: «در یک مزرعه دو گوسفند داریم، اما نکته اینجاست که یکی از گوسفندها درواقع گوسفند نیست بلکه بره است. گوسفند دیگر هم در مرحله آخر بارداری است. درواقع در آستانه وضع حمل است و هر لحظه ممکن است زایمان کند. حالا بگویید چند گوسفند داریم؟».

سؤال‌هایی از این دست فراتر از یک آزمایش ذهنی ساده هستند. یکی از دوستانم به نام سوزی گیج، که نویسنده و روانشناس است، در دوران همه‌گیری کووید 19 با شوهرش ازدواج کرد. او آن‌موقع در هفته سی‌ونهم بارداری‌اش بود. به دلیل محدودیت‌هایی که در آن زمان وضع شده بود نمی‌توانستند بیشتر از 10 نفر را به مراسم عروسی‌شان دعوت کنند. نوزادها گاهی جزء آمار حساب می‌شوند.

پس اگر بچه آن‌ها قبل از روز عروسی به دنیا می‌آمد، او و آقای داماد یا باید قید دعوت از یکی از اعضای نزدیک خانواده را می‌زدند یا اینکه بچه تازه‌متولدشده را در خانه تنها می‌گذاشتند.

همیشه نمی‌توان دنیا را در چند دسته‌بندی ساده جای داد. گاهی اوقات مجبوریم تصمیمات سختی بگیریم درباره اینکه اولا چه چیزی را باید به حساب آورد و ثانیا اینکه چطور باید مقدار آن چیز را محاسبه کرد. بنابراین، به دنبال روش آزمایشگاهی کاملا کنترل‌شده‌ای می‌گردیم که تمام داده‌ها در آن مشخص و حساب‌شده باشد. آرزویمان هم این است که در انتهای آزمایش به توصیف کاملا دقیقی از واقعیت دست پیدا کنیم. البته ممکن است آکواریومی در آلمان تمام این آرزو را نقش بر آب کند.

مارمورکرب نوعی خرچنگ است، شبیه انواع دیگر خرچنگ‌ها - با پاهای باریک و بدن خال‌دار - اما در پشت این ظاهر مشابه یک تفاوت استثنایی پنهان شده است: مارمورکرب‌ها به‌شیوه غیرجنسی تولیدمثل می‌کنند. یک مارمورکرب از نظر ژنتیکی کاملا شبیه فرزندانش است.

مایکل بلست‌لند، در کتاب نیمه پنهان: جهان چگونه اسرارش را مخفی می‌کند7 (انتشارات آتلانتیک بوکز)، توضیح می‌دهد که وقتی دانشمندان برای اولین بار این موجود عجیب را کشف کردند آن را فرصتی دانستند برای پاسخ به بحث قدیمی طبیعت (ژنتیک) یا تربیت (محیط). آن‌ها یک گروه کنترل ایدئال برای آزمایششان پیدا کرده بودند. همه کاری که برای شروع باید انجام می‌دادند این بود که لشکر کوچکی از مارمورکرب‌های نوجوان، که همگی از نظر ژنتیکی با هم یکسان بودند، را جمع‌آوری کنند و آن‌ها را در محیطی یکسان پرورش دهند - به همه آن‌ها مقدار یکسانی آب با دمای یکسان، مقدار یکسانی غذا و مقدار یکسانی نور بدهند - و منتظر بمانند تا همه آن‌ها به موجودات بالغ کاملا یکسانی تبدیل شوند. بعد از آن، دانشمندان می‌توانستند متغیرهای محیطی را دستکاری کنند و به بررسی نتایج بپردازند.

بااین‌حال، همین‌طور که این مارمورکرب‌های یکسان در شرایط محیطی یکسان رشد می‌کردند، تفاوت‌های قابل‌توجهی در آن‌ها پدیدار می‌شد. تفاوت چشمگیری در اندازه آن‌ها دیده می‌شد به‌طوری که وزن یکی از آن‌ها 20 برابر دیگری شده بود. رفتارشان هم با هم فرق می‌کرد: بعضی از آن‌ها پرخاشگرتر از دیگران بودند، بعضی‌ها تنهایی را ترجیح می‌دادند. بعضی‌ها دوبرابر خواهر و برادرهایشان عمر می‌کردند. الگوی خال‌های روی پوسته هیچ دو مارمورکربی شبیه هم نبود؛ حتی شکل اندام‌های داخلی آن‌ها نیز با هم متفاوت بود.

دانشمندان، برای ثابت نگه‌داشتن تک‌تک نقاط داده‌ای، نهایت تلاششان را به خرج داده بودند؛ آن‌ها تلاش طاقت‌فرسایی را برای ثبت و کنترل هرآنچه قابل‌اندازه‌گیری بود انجام داده بودند. بااین‌حال، گیج شده بودند از دیدن این‌همه تفاوت‌هایی که برایشان نه قابل‌تبیین بود و نه قابل‌پیش‌بینی. حتی کوچک‌ترین نوساناتی، که از چشمان علم مخفی می‌ماند، می‌تواند با گذشت زمان تشدید شده و دنیایی از تفاوت را ایجاد کند. سرشت بر اساس ویژگی‌های تصادفی اجتناب‌ناپذیری بنا می‌شود و به‌این‌ترتیب نگاه داده‌محور به واقعیت را با محدودیت مواجه می‌کند.

حوالی سال 2000، گروهی از پژوهشگران شروع کردند به دعوت از افراد برای شرکت در پژوهشی که نامش را گذاشته بودند «خانواده‌های شکننده». پژوهشگران دنبال خانواده‌هایی با نوزادان تازه‌متولدشده

می‌گشتند تا پیشرفت فرزندان و والدین آن‌ها را برای چندین سال ردگیری کنند. آن‌ها بیش از چهارهزار خانواده را ثبت‌نام کردند و، بعد از یک ملاقات اولیه، پژوهشگران خانواده‌ها را در مقاطع زمانی‌ای که فرزندانشان یک، سه، پنج، نه و پانزده‌ساله بودند دوباره ملاقات کردند. در هر ملاقات، آن‌ها داده‌های مربوط به رشد کودکان، وضعیت خانواده و محیط زندگی‌شان را جمع‌آوری می‌کردند.

آن‌ها جزئیات مربوط به سلامتی، اطلاعات جمعیت‌شناختی، رابطه پدر و مادر، نوع محله‌ای که کودک در آن زندگی می‌کند و اینکه شب‌ها چه ساعتی می‌خوابد را ثبت می‌کردند. محققان، تا انتهای پژوهش، نزدیک به 13هزار داده را درباره هر کودک جمع‌آوری کردند.

تیم پژوهش، در ادامه، کار نسبتا هوشمندانه‌ای انجام دادند. آن‌ها، به‌جای اینکه تمام داده‌ها را به‌یک‌باره منتشر کنند، بخشی از داده‌های مربوط به اواخر پژوهش را پیش خودشان نگه داشتند و از پژوهشگران سراسر دنیا دعوت کردند تا ببینند آیا آن‌ها می‌توانند یافته‌های خاصی از پژوهش را پیش‌بینی کنند یا خیر. می‌خواستند ببینند که آیا پیچیده‌ترین الگوریتم‌های یادگیری ماشینی و مدل‌های ریاضی موجود در جهان می‌توانند، با استفاده از تمام دانسته‌های مربوط به کودکان تا یک سن خاص، از وضعیت زندگی کودکان در سن پانزده‌سالگی پرده بردارند یا خیر؟

برای اینکه چالش متمرکزتر شود، از پژوهشگران خواسته شد تا مقدار شش شاخص کلیدی را پیش‌بینی کنند، شاخص‌هایی مثل عملکرد تحصیلی بچه‌ها در پانزده‌سالگی. تیم پژوهش، برای اینکه یک خط مبنای واحد را برای همه آن پژوهشگران فراهم کند، مدل ساده‌ای را برای پیش‌بینی در اختیار آن‌ها قرار داد. مدلی که از شدت سادگی خنده‌دار بود. این مدل فقط از چهار نوع داده استفاده می‌کرد که سه مورد از آن‌ها در زمان تولد کودک ثبت شده بود: سطح تحصیلات، وضعیت تأهل و نژاد مادر.

همان‌طور که حدس می‌زنید، آن مدل پایه حرف زیادی برای پیش‌بینی آینده نداشت. این مدل، در بهترین حوزه عملکردش، تنها می‌توانست حدود 20 درصد از واریانس داده‌ها را تبیین کند. اما از آن جالب‌تر عملکرد الگوریتم‌های پیچیده بود. مدل‌هایی که بر اساس مجموعه‌ای کامل و بسیار غنی از داده‌ها ساخته شده بودند، در بهترین حالت، تنها توانستند عملکرد مدل پایه را در حد چند درصد ناقابل بهبود ببخشند.

همچنین هیچ‌کدام از مدل‌های پیچیده نتوانست، در چهار حوزه از شش حوزه، از دقت شش‌درصدی مدل پایه فراتر برود. حتی کارآمدترین الگوریتم هم تنها توانست 23 درصد از واریانس موجود در میانگین نمرات بچه‌ها را پیش‌بینی کند. درواقع، در تمام موارد، فاصله بین عملکرد بهترین و بدترین مدل‌ها همیشه کمتر بود از فاصله بین بهترین مدل‌ها و آنچه در واقعیت اتفاق افتاده بود. معنی این حرف، همان‌طور که تیم پژوهش هم اعلام کرد، این است که این مدل‌ها «در پیش‌بینی‌کردن یکدیگر بهتر عمل می‌کنند» تا در پیش‌بینی مسیر زندگی یک انسان.

این به این معنی نیست که این مدل‌ها بد هستند، بلکه آن‌ها، به‌شکل معناداری، بهتر از پیش‌بینی غریزی و پیش‌بینی بر اساس حدس و گمان عمل می‌کنند؛ از دهه 1950 به این سو، فهمیده‌ایم که حتی ساده‌ترین الگوریتم‌ها هم عملکرد بهتری از پیش‌بینی‌های انسانی دارند. اما چالش «خانواده‌های شکننده» حواسش بود که گرفتار این وسوسه رایج نشود که باور کند تمام جواب‌ها در آستین اعداد و ارقام است. این واقعیت که مدل‌های پیچیده، فقط می‌توانند به مقدار ناچیزی مدل‌های ساده را بهبود ببخشند ما را به همان سؤال آشنا می‌رساند، یعنی اینکه اولا چه چیزی را باید به حساب آورد و ثانیا اینکه چطور باید مقدار آن چیز را محاسبه کرد.

شاید بتوان نتیجه دیگری هم از این موضوع گرفت. هروقت که نظرسنجی‌ها در پیش‌بینی نتایج انتخابات ناموفق عمل می‌کنند، معمولا می‌شنویم که به داده‌های بیشتر و بهتری نیاز است. اما حالا که فهمیدیم بیشترکردن داده‌ها همیشه جواب نمی‌دهد، شاید لازم باشد، به‌جای این کار، در رابطه خودمان با پیش‌بینی‌کردن تجدیدنظر کنیم، یعنی بپذیریم که توانمندی اعداد و ارقام هم با محدودیت‌های اجتناب‌ناپذیری همراه است و، از آن به بعد، دیگر از مدل‌های ریاضی توقع بی‌جا نداشته باشیم که به‌خودی خود بتوانند ما را از ورطه عدم قطعیت به‌سلامت عبور دهند.

اعداد جایگزین ناکارآمدی برای رنگ و غنای دنیای واقعی هستند. ممکن است تعجب کنید از اینکه می‌بینید یک ریاضی‌دان حرفه‌ای (مثل من) یا یک اقتصاددان حرفه‌ای (مثل هارفورد) دارند تلاش می‌کنند تا شما را نسبت به این حقیقت مجاب کنند. اما درک محدودیت‌های موجود در نگاه داده‌محور به جهان به معنای کمرنگ جلوه‌دادن توانایی‌های آن نیست. دو گزاره ذیل می‌تواند همزمان برقرار باشد: اعداد و ارقام در برابر ظرافت‌های موجود در واقعیت کم می‌آورند و، درعین‌حال، وقتی پای فهمیدن همان واقعیت در میان باشد، اعداد و ارقام قدرتمندترین ابزاری هستند که در اختیار داریم.

آنچه در همه‌گیری کووید 19 اتفاق افتاد حقیقت قاطعی را به تصویر کشید. اینکه میزان واقعی خسارت‌های ناشی از این ویروس در آمار و ارقام نمی‌گنجد. وقتی قرار است بگوییم کارکردن در بخش مراقبت‌های ویژه یعنی چه، یا اینکه ازدست‌دادن عزیزی بر اثر این بیماری چه حسی دارد آمار و ارقام حرفی برای گفتن ندارد. آمار و ارقام حتی در شمارش تعداد واقعی جان‌هایی که در این میان از بین رفته‌اند هم ناتوان است (منظورم آمار مرگ‌هایی نیست که با یک دسته‌بندی شسته‌رفته شمرده می‌شود، مثل آمار مرگ‌هایی که طی 28 روز بعد از مثبت‌شدن آزمایش اتفاق می‌افتد). آمار و ارقام نمی‌تواند با قطعیت بگوید که چه‌وقت به شرایط عادی باز خواهیم گشت.

اما، درعین‌حال، آمار و ارقام تنها ابزاری است که در دست داریم تا با آن میزان کشنده‌بودن این ویروس را درک کنیم، از نحوه کارش سر در بیاوریم و، هرچند غیرقطعی، بتوانیم آینده‌های محتملی که در انتظارمان است را بررسی کنیم.

اعداد می‌توانند داستان کاملی از وجود انسان‌ها روایت کنند. در کنیا، از هر هزار کودک 43تایشان تولد پنج‌سالگی را نمی‌بینند. در مالزی، این اتفاق برای 9 کودک می‌افتد. استون دراین‌باره سخنانی را از هانس رسلینگ، متخصص سوئدی بهداشت عمومی، نقل می‌کند: «این شاخص می‌تواند درجه تب کلی جامعه را نشان دهد. چراکه بچه‌ها بسیار آسیب‌پذیرند و عوامل زیادی می‌تواند آن‌ها را به کشتن دهد». آن 991 کودکی که در مالزی نمی‌میرند درواقع آن‌هایی هستند که دربرابر خطر میکروب‌ها، قحطی، خشونت و دسترسی محدود به خدمات بهداشتی محافظت شده‌اند. همین یک عدد تصویر روشنی ارائه می‌دهد از تمام کارهایی که باید برای زنده‌ماندن یک کودک انجام داد.

هارفورد در کتابش ما را با تعداد بیشتری از این نوع شاخص‌های آماری آشنا می‌کند. او از ما می‌خواهد که روزنامه‌ای را تصور کنیم که هر صد سال یک بار منتشر می‌شود: او ادعا می‌کند که اگر قرار بود یک شماره از آن امروز منتشر شود، یقینا تیتر صفحه اول آن به کاهش چشمگیر مرگ‌ومیر کودکان در یک قرن اخیر اختصاص می‌یافت.

او می‌نویسد: «مدرسه‌ای را تصور کنید که قرار است صد کودک پنج‌ساله را ثبت نام کند، کودکانی که به‌طور تصادفی در نقاط مختلف دنیا متولد شده‌اند». در سال 1918، 32 نفر از این کودکان تا قبل از روز اول مدرسه می‌مردند. تا سال 2018، این عدد به چهار نفر کاهش پیدا کرده بود. هارفورد معتقد است که این پیشرفت قابل‌توجهی است و هیچ‌چیز به‌جز آمار و ارقام نمی‌تواند تصویر واضحی از این پیشرفت در مقیاس کلان ترسیم کند.

این ابهام‌های آماری حتی می‌تواند در خود موضوع تولد هم وجود داشته باشد. هارفورد داستانی را تعریف می‌کند از وجود اختلاف گیج‌کننده‌ای در آمار مرگ‌ومیر نوزادان. از قرار معلوم، این آمار در نواحی مرکزی انگلیس، موسوم به میدلندز، به‌طرز چشمگیری بیشتر از لندن بود. آیا متخصصان زنان و زایمان در شهر لستر کارشان را بلد نبودند؟ مشکل دقیقا این نبود. در بریتانیا، بارداری‌هایی که بعد از هفته بیست‌وچهارم پایان یابد از نظر قانونی تولد محسوب می‌شوند؛ از سوی دیگر، بارداری‌هایی که قبل از هفته دوازدهم به پایان برسد به‌عنوان سقط در نظر گرفته می‌شوند.

در مورد بارداری‌هایی که جایی بین این دو زمان مشخص تمام می‌شوند - خواه در هفته پانزدهم بارداری، خواه در هفته بیست‌وسوم - واژه‌ای که برای توصیف ازدست‌دادن جنین استفاده می‌شود بیش از همه برای والدین داغدار مهم است و به‌هرحال اصطلاحی در قانون برای آن پیش‌بینی نشده است. دکترهای میدلندز، طبق رسم خودشان، این موارد را به‌عنوان مرگ‌ومیر کودک ثبت می‌کنند؛ دکترهای لندن اما آن را سقط‌جنین اعلام می‌کنند. تفاوت در آمار برمی‌گشت به اینکه آنچه می‌شمردیم را چه می‌نامیدیم.

اعداد همیشه راست می‌گویند، مگر در مواردی که دروغ می‌گویند. حق با هارفورد است که می‌گوید آمار و ارقام می‌توانند با شفافیت و دقتشان دنیا را روشن کنند. آمار و ارقام می‌توانند علاجی باشند برای جایزالخطابودن ما انسان‌ها. اما آنچه به‌راحتی فراموش می‌شود این است که آمار و ارقام همچنین می‌تواند این خطاپذیری را تشدید کند. آن‌طور که استون به ما یادآوری می‌کند، «درست محاسبه‌کردن نیازمند فروتنی است تا بدانیم چه چیزهایی را نمی‌توان یا نباید به حساب آورد».

لینک کوتاه: asriran.com/003Qg9

اعداد همیشه راست می‌گویند، مگر وقتی که دروغ می‌گویند 2