چه زمانی میتوان به یک مدل هوش مصنوعی اعتماد کرد؟
مدلهای یادگیری ماشین ممکن است پیشبینیهای نادرستی ارائه دهند. به همین دلیل، پژوهشگران تلاش میکنند این مدلها را به گونهای طراحی کنند که بتوانند سطح اطمینان خود را در مورد یک تصمیم خاص بیان کنند. این موضوع در شرایط حساس، مانند تشخیص بیماریها در تصاویر پزشکی یا ارزیابی درخواستهای شغلی، از اهمیت ویژهای برخوردار است.
ارزیابیهای جامعتر از عدم قطعیت میتواند به کاربران این امکان را بدهد که در مورد نحوه و زمان استفاده از مدلهای یادگیری ماشین در دنیای واقعی تصمیمگیری کنند. ارزیابی عدم قطعیت یک مدل تنها زمانی مفید است که به دقت انجام شود. به عنوان نمونه، اگر یک مدل اعلام کند که ۴۹ درصد اطمینان دارد که یک تصویر پزشکی نشاندهنده تجمع مایع در پلور (Pleura) است، در این صورت باید در ۴۹ درصد موارد پیشبینی صحیحی ارائه دهد.
پژوهشگران MIT یک روش نوین را ارائه دادهاند که قادر است ارزیابیهای عدم قطعیت را در مدلهای یادگیری ماشین بهبود بخشد. این روش نه تنها ارزیابیهای عدم قطعیت دقیقتری نسبت به سایر تکنیکها ارائه میدهد، بلکه این کار را به شیوهای مؤثرتر انجام میدهد.
علاوه بر این، به دلیل مقیاسپذیری این تکنیک، امکان استفاده از آن در مدلهای عمیق و بزرگ وجود دارد که به طور فزایندهای در حوزههای مراقبتهای بهداشتی و سایر موقعیتهای حساس به امنیت مورد استفاده قرار میگیرند.
«ناتان انگ»، دانشجوی تحصیلات تکمیلی در دانشگاه تورنتو و دانشجوی مهمان در MIT، اظهار میدارد: «مشاهده عملکرد خوب این مدلها در زمینههای خاص بسیار آسان است و ممکن است فرض کنیم که در سایر زمینهها نیز همینطور عمل خواهند کرد. به همین دلیل، انجام تحقیقات برای بهبود ارزیابی عدم قطعیت این مدلها ضروری است تا اطمینان حاصل کنیم که با درک ما از عدم قطعیت سازگار است.»
ناتان انگ این مقاله را به همراه «راجر گروس»، استادیار علوم کامپیوتر در دانشگاه تورنتو، و «مرضیه قاسمی»، استاد دانشکده مهندسی برق و علوم کامپیوتر و عضو مؤسسه مهندسی پزشکی و آزمایشگاه سیستمهای اطلاعاتی و تصمیمگیری، تألیف کرده است. این تحقیق در کنفرانس بینالمللی یادگیری ماشین به نمایش گذاشته خواهد شد.
روشهای کمیسازی عدم قطعیت معمولاً به محاسبات آماری پیچیدهای نیاز دارند که برای مدلهای یادگیری ماشین با میلیونها پارامتر به خوبی قابل مقیاسپذیری نیستند. علاوه بر این، این روشها از کاربران میخواهند که فرضیاتی درباره مدل و دادههای مورد استفاده برای آموزش آن ارائه دهند.
پژوهشگران MIT رویکردی متفاوت را انتخاب کردهاند. آنها از اصول حداقل طول توصیف (MDL) بهره میبرند که نیازی به فرضیات خاص ندارد. این رویکرد ممکن است بر دقت سایر روشها تأثیر بگذارد. MDL به منظور بهبود کمیسازی و کالیبراسیون عدم قطعیت در نقاط آزمایشی که مدل باید آنها را برچسبگذاری کند، مورد استفاده قرار میگیرد.
پژوهشگران MIT یک روش نوین به نام IF-COMP را ایجاد کردهاند که به آنها اجازه میدهد تا روش حداقل طول توصیف (MDL) را با سرعت بیشتری به کار گیرند. این تکنیک قابلیت استفاده در مدلهای بزرگ یادگیری عمیق را که در شرایط واقعی به کار میروند، دارد.
روش MDL به تحلیل تمامی برچسبهای ممکن میپردازد که یک مدل میتواند به یک نقطه آزمایشی اختصاص دهد. در صورتی که تعداد زیادی برچسب جایگزین وجود داشته باشد که به خوبی با این نقطه سازگارند، اعتماد مدل به برچسب انتخابی باید به طور متناسب کاهش یابد.
ناتان انگ بیان میکند: «برای درک میزان اطمینان یک مدل نسبت به تصمیم خود، میتوانیم اطلاعات متفاوتی را به آن ارائه دهیم و بررسی کنیم که چقدر احتمال دارد به این اطلاعات جدید اعتماد کند.»
به عنوان نمونه، فرض کنید مدلی قادر است تشخیص دهد که یک تصویر پزشکی نشاندهنده تجمع مایع در قفسه سینه (پلورال افیوژن) است. اگر پژوهشگران به این مدل اعلام کنند که این تصویر در واقع نشاندهنده ورم است و مدل بخواهد نظر خود را تغییر دهد، در این صورت نسبت به تصمیم اولیهاش اعتماد کمتری خواهد داشت.
با بهرهگیری از روش MDL، اگر یک مدل در برچسبگذاری یک داده خاص اطمینان داشته باشد، باید از یک کد بسیار کوتاه برای توصیف آن نقطه استفاده کند. اما اگر مدل نسبت به تصمیم خود مطمئن نباشد و احساس کند که این داده ممکن است برچسبهای متفاوتی داشته باشد، باید از یک کد طولانیتر برای توصیف آن استفاده کند. این کد طولانی به مدل این امکان را میدهد که تمامی گزینههای ممکن را مد نظر قرار دهد.
مقدار کدی که برای برچسبگذاری یک داده به کار میرود، به عنوان «پیچیدگی دادههای تصادفی» شناخته میشود. زمانی که پژوهشگران از مدل میپرسند آیا میتواند نظر خود را درباره یک داده خاص بر اساس شواهد متضاد تغییر دهد، اگر مدل به تصمیم خود اطمینان داشته باشد، باید پیچیدگی آن داده کاهش یابد. با این حال، ارزیابی هر داده با استفاده از روش MDL نیازمند محاسبات بسیار زیادی است.
شتاب دادن به فرایند
پژوهشگران با بهرهگیری از IF-COMP، یک روش تقریبی را توسعه دادند که قادر است پیچیدگی دادههای تصادفی را به طور دقیق با استفاده از تابع خاصی به نام تابع تأثیر (influence function) برآورد کند. همچنین، آنها از یک تکنیک آماری به نام تنظیم دما (temperature-scaling) استفاده کردند که به بهبود کالیبراسیون خروجیهای مدل کمک میکند. این ترکیب از توابع تأثیر و تنظیم دما، امکان اندازهگیری دقیقتری از پیچیدگی دادههای تصادفی را فراهم میآورد.
در نهایت، IF-COMP قادر است برآوردهای دقیقی از میزان عدم قطعیت ارائه دهد که نشاندهنده سطح واقعی اطمینان مدل است. این روش همچنین میتواند تعیین کند که آیا مدل مورد نظر برخی از نقاط داده را به اشتباه برچسبگذاری کرده یا کدام یک از نقاط داده غیرمعمول هستند.
پژوهشگران یک سیستم جدید را برای بهبود ارزیابی عدم قطعیت در مدلهای یادگیری ماشین طراحی کردند و آن را بر روی سه وظیفه مختلف آزمایش کردند. نتایج نشان داد که این سیستم (IF-COMP) از نظر سرعت و دقت نسبت به روشهای دیگر عملکرد بهتری دارد.
مرضیه قاسمی بیان میکند: «اطمینان از اینکه یک مدل به طور صحیح تنظیم شده، از اهمیت بالایی برخوردار است. همچنین، شناسایی پیشبینیهایی که ممکن است نادرست باشند، روز به روز ضروریتر میشود. به همین دلیل، ابزارهای ارزیابی و بررسی مدلها در حوزه یادگیری ماشین اهمیت بیشتری پیدا کردهاند. در حال حاضر، ما به حجم زیادی از دادههای بدون ارزیابی برای ایجاد مدلهایی که در مسائل انسانی به کار میروند، وابسته هستیم.»
روش IF-COMP به نوع خاصی از مدل محدود نیست و به همین دلیل میتواند برآوردهای دقیقی از عدم قطعیت برای انواع مختلف مدلهای یادگیری ماشین ارائه دهد. این ویژگی امکان استفاده از آن را در موقعیتهای متنوع دنیای واقعی فراهم میآورد و در نهایت به متخصصان کمک میکند تا تصمیمات بهتری اتخاذ کنند.
ناتان انگ بیان میکند: «باید به این نکته توجه کنیم که این سیستمها به شدت مستعد خطا هستند و ممکن است در حین عملکرد، اطلاعات نادرستی تولید کنند. یک مدل ممکن است ظاهراً از اعتبار بالایی برخوردار باشد، اما در واقع ممکن است با باورهای متعددی روبرو شود که با شواهد متناقض در تضاد است.»
در آینده، پژوهشگران برنامه دارند که روش خود را بر روی مدلهای زبانی بزرگ آزمایش کنند و به دنبال کاربردهای نوینی برای اصل حداقل طول توصیف (MDL) باشند. در آینده، پژوهشگران قصد دارند روش خود را بر روی مدلهای زبانی بزرگ آزمایش کنند و به دنبال کاربردهای نوینی برای اصل حداقل طول توصیف (Minimum Description Length یا MDL) باشند.