چه زمانی می‌توان به یک مدل هوش مصنوعی اعتماد کرد؟

مدل‌های یادگیری ماشین ممکن است پیش‌بینی‌های نادرستی ارائه دهند. به همین دلیل، پژوهشگران تلاش می‌کنند این مدل‌ها را به گونه‌ای طراحی کنند که بتوانند سطح اطمینان خود را در مورد یک تصمیم خاص بیان کنند. این موضوع در شرایط حساس، مانند تشخیص بیماری‌ها در تصاویر پزشکی یا ارزیابی درخواست‌های شغلی، از اهمیت ویژه‌ای برخوردار است.

ارزیابی‌های جامع‌تر از عدم قطعیت می‌تواند به کاربران این امکان را بدهد که در مورد نحوه و زمان استفاده از مدل‌های یادگیری ماشین در دنیای واقعی تصمیم‌گیری کنند. ارزیابی عدم قطعیت یک مدل تنها زمانی مفید است که به دقت انجام شود. به عنوان نمونه، اگر یک مدل اعلام کند که ۴۹ درصد اطمینان دارد که یک تصویر پزشکی نشان‌دهنده تجمع مایع در پلور (Pleura) است، در این صورت باید در ۴۹ درصد موارد پیش‌بینی صحیحی ارائه دهد.

پژوهشگران MIT یک روش نوین را ارائه داده‌اند که قادر است ارزیابی‌های عدم قطعیت را در مدل‌های یادگیری ماشین بهبود بخشد. این روش نه تنها ارزیابی‌های عدم قطعیت دقیق‌تری نسبت به سایر تکنیک‌ها ارائه می‌دهد، بلکه این کار را به شیوه‌ای مؤثرتر انجام می‌دهد.

علاوه بر این، به دلیل مقیاس‌پذیری این تکنیک، امکان استفاده از آن در مدل‌های عمیق و بزرگ وجود دارد که به طور فزاینده‌ای در حوزه‌های مراقبت‌های بهداشتی و سایر موقعیت‌های حساس به امنیت مورد استفاده قرار می‌گیرند.

«ناتان انگ»، دانشجوی تحصیلات تکمیلی در دانشگاه تورنتو و دانشجوی مهمان در MIT، اظهار می‌دارد: «مشاهده عملکرد خوب این مدل‌ها در زمینه‌های خاص بسیار آسان است و ممکن است فرض کنیم که در سایر زمینه‌ها نیز همین‌طور عمل خواهند کرد. به همین دلیل، انجام تحقیقات برای بهبود ارزیابی عدم قطعیت این مدل‌ها ضروری است تا اطمینان حاصل کنیم که با درک ما از عدم قطعیت سازگار است.»

ناتان انگ این مقاله را به همراه «راجر گروس»، استادیار علوم کامپیوتر در دانشگاه تورنتو، و «مرضیه قاسمی»، استاد دانشکده مهندسی برق و علوم کامپیوتر و عضو مؤسسه مهندسی پزشکی و آزمایشگاه سیستم‌های اطلاعاتی و تصمیم‌گیری، تألیف کرده است. این تحقیق در کنفرانس بین‌المللی یادگیری ماشین به نمایش گذاشته خواهد شد.

روش‌های کمی‌سازی عدم قطعیت معمولاً به محاسبات آماری پیچیده‌ای نیاز دارند که برای مدل‌های یادگیری ماشین با میلیون‌ها پارامتر به خوبی قابل مقیاس‌پذیری نیستند. علاوه بر این، این روش‌ها از کاربران می‌خواهند که فرضیاتی درباره مدل و داده‌های مورد استفاده برای آموزش آن ارائه دهند.

پژوهشگران MIT رویکردی متفاوت را انتخاب کرده‌اند. آن‌ها از اصول حداقل طول توصیف (MDL) بهره می‌برند که نیازی به فرضیات خاص ندارد. این رویکرد ممکن است بر دقت سایر روش‌ها تأثیر بگذارد. MDL به منظور بهبود کمی‌سازی و کالیبراسیون عدم قطعیت در نقاط آزمایشی که مدل باید آن‌ها را برچسب‌گذاری کند، مورد استفاده قرار می‌گیرد.

پژوهشگران MIT یک روش نوین به نام IF-COMP را ایجاد کرده‌اند که به آن‌ها اجازه می‌دهد تا روش حداقل طول توصیف (MDL) را با سرعت بیشتری به کار گیرند. این تکنیک قابلیت استفاده در مدل‌های بزرگ یادگیری عمیق را که در شرایط واقعی به کار می‌روند، دارد.

روش MDL به تحلیل تمامی برچسب‌های ممکن می‌پردازد که یک مدل می‌تواند به یک نقطه آزمایشی اختصاص دهد. در صورتی که تعداد زیادی برچسب جایگزین وجود داشته باشد که به خوبی با این نقطه سازگارند، اعتماد مدل به برچسب انتخابی باید به طور متناسب کاهش یابد.

ناتان انگ بیان می‌کند: «برای درک میزان اطمینان یک مدل نسبت به تصمیم خود، می‌توانیم اطلاعات متفاوتی را به آن ارائه دهیم و بررسی کنیم که چقدر احتمال دارد به این اطلاعات جدید اعتماد کند.»

به عنوان نمونه، فرض کنید مدلی قادر است تشخیص دهد که یک تصویر پزشکی نشان‌دهنده تجمع مایع در قفسه سینه (پلورال افیوژن) است. اگر پژوهشگران به این مدل اعلام کنند که این تصویر در واقع نشان‌دهنده ورم است و مدل بخواهد نظر خود را تغییر دهد، در این صورت نسبت به تصمیم اولیه‌اش اعتماد کمتری خواهد داشت.

با بهره‌گیری از روش MDL، اگر یک مدل در برچسب‌گذاری یک داده خاص اطمینان داشته باشد، باید از یک کد بسیار کوتاه برای توصیف آن نقطه استفاده کند. اما اگر مدل نسبت به تصمیم خود مطمئن نباشد و احساس کند که این داده ممکن است برچسب‌های متفاوتی داشته باشد، باید از یک کد طولانی‌تر برای توصیف آن استفاده کند. این کد طولانی به مدل این امکان را می‌دهد که تمامی گزینه‌های ممکن را مد نظر قرار دهد.

مقدار کدی که برای برچسب‌گذاری یک داده به کار می‌رود، به عنوان «پیچیدگی داده‌های تصادفی» شناخته می‌شود. زمانی که پژوهشگران از مدل می‌پرسند آیا می‌تواند نظر خود را درباره یک داده خاص بر اساس شواهد متضاد تغییر دهد، اگر مدل به تصمیم خود اطمینان داشته باشد، باید پیچیدگی آن داده کاهش یابد. با این حال، ارزیابی هر داده با استفاده از روش MDL نیازمند محاسبات بسیار زیادی است.

شتاب دادن به فرایند

پژوهشگران با بهره‌گیری از IF-COMP، یک روش تقریبی را توسعه دادند که قادر است پیچیدگی داده‌های تصادفی را به طور دقیق با استفاده از تابع خاصی به نام تابع تأثیر (influence function) برآورد کند. همچنین، آن‌ها از یک تکنیک آماری به نام تنظیم دما (temperature-scaling) استفاده کردند که به بهبود کالیبراسیون خروجی‌های مدل کمک می‌کند. این ترکیب از توابع تأثیر و تنظیم دما، امکان اندازه‌گیری دقیق‌تری از پیچیدگی داده‌های تصادفی را فراهم می‌آورد.

در نهایت، IF-COMP قادر است برآوردهای دقیقی از میزان عدم قطعیت ارائه دهد که نشان‌دهنده سطح واقعی اطمینان مدل است. این روش همچنین می‌تواند تعیین کند که آیا مدل مورد نظر برخی از نقاط داده را به اشتباه برچسب‌گذاری کرده یا کدام یک از نقاط داده غیرمعمول هستند.

پژوهشگران یک سیستم جدید را برای بهبود ارزیابی عدم قطعیت در مدل‌های یادگیری ماشین طراحی کردند و آن را بر روی سه وظیفه مختلف آزمایش کردند. نتایج نشان داد که این سیستم (IF-COMP) از نظر سرعت و دقت نسبت به روش‌های دیگر عملکرد بهتری دارد.

مرضیه قاسمی بیان می‌کند: «اطمینان از اینکه یک مدل به طور صحیح تنظیم شده، از اهمیت بالایی برخوردار است. همچنین، شناسایی پیش‌بینی‌هایی که ممکن است نادرست باشند، روز به روز ضروری‌تر می‌شود. به همین دلیل، ابزارهای ارزیابی و بررسی مدل‌ها در حوزه یادگیری ماشین اهمیت بیشتری پیدا کرده‌اند. در حال حاضر، ما به حجم زیادی از داده‌های بدون ارزیابی برای ایجاد مدل‌هایی که در مسائل انسانی به کار می‌روند، وابسته هستیم.»

روش IF-COMP به نوع خاصی از مدل محدود نیست و به همین دلیل می‌تواند برآوردهای دقیقی از عدم قطعیت برای انواع مختلف مدل‌های یادگیری ماشین ارائه دهد. این ویژگی امکان استفاده از آن را در موقعیت‌های متنوع دنیای واقعی فراهم می‌آورد و در نهایت به متخصصان کمک می‌کند تا تصمیمات بهتری اتخاذ کنند.

ناتان انگ بیان می‌کند: «باید به این نکته توجه کنیم که این سیستم‌ها به شدت مستعد خطا هستند و ممکن است در حین عملکرد، اطلاعات نادرستی تولید کنند. یک مدل ممکن است ظاهراً از اعتبار بالایی برخوردار باشد، اما در واقع ممکن است با باورهای متعددی روبرو شود که با شواهد متناقض در تضاد است.»

در آینده، پژوهشگران برنامه دارند که روش خود را بر روی مدل‌های زبانی بزرگ آزمایش کنند و به دنبال کاربردهای نوینی برای اصل حداقل طول توصیف (MDL) باشند. در آینده، پژوهشگران قصد دارند روش خود را بر روی مدل‌های زبانی بزرگ آزمایش کنند و به دنبال کاربردهای نوینی برای اصل حداقل طول توصیف (Minimum Description Length یا MDL) باشند.