لحظه اسپوتنیک
دارون عجماوغلو استاد اقتصاد
در حالی که صنعت هوش مصنوعی آمریکا به تکانی اساسی نیاز داشت، انتشار مدل DeepSeek-R۱ در ۲۰ژانویه باعث سقوط شدید قیمت سهام شرکت تراشهسازِ انویدیا و کاهش ارزش بازار چند شرکت فناوری دیگر شد. برخی این رویداد را «لحظه اسپوتنیک» در رقابت چین و آمریکا برای سلطه بر هوش مصنوعی نامیدند.
سرمایهگذاریهای صنعت فناوری آمریکا در هوش مصنوعی بسیار عظیم بوده است. گلدمنساکس تخمین میزند که «شرکتهای فناوری بزرگ، شرکتها و بخشهای خدماتی در سالهای آینده حدود یکتریلیون دلار در سرمایهگذاریهای مرتبط با هوش مصنوعی هزینه خواهند کرد.» با این حال، مدتهاست که بسیاری از ناظران، از جمله خود من، جهتگیری سرمایهگذاری و توسعه هوش مصنوعی در ایالاتمتحده را زیر سوال بردهاند.
در حالی که همه شرکتهای پیشرو در این صنعت از الگویی مشابه استفاه میکنند (هرچند مدل تقریبا متنباز متا کمی متفاوت است)، به نظر میآید که صنعت هوش مصنوعی همه تخممرغهای خود را در یک سبد گذاشته است. شرکتهای فناوری آمریکایی بدون استثنا شیفته مقیاسپذیری هستند. آنها با استناد به قوانین هنوز اثباتنشده «مقیاسگذاری»، فرض میکنند که تغذیه مدلهایشان با دادههای بیشتر و توان محاسباتی قویتر، کلید دستیابی به قابلیتهای بیشتر است.
میتوان گفت آنها بهطور انحصاری بر مدلهای انتشاری۱ و چتباتهایی متمرکز بودند که برای انجام وظایف انسانی (یا شبیه به انسان) طراحی شدهاند. با این حال، در حالی که دیپسیک رویکردی عمدتا مشابه دارد، به نظر میرسد بیش از حد معمول بر یادگیری تقویتی ۲، روش ترکیب متخصصان ۳ (استفاده از چند مدل کوچکتر و کارآمدتر)، تقطیر۴ و بهبود استدلال زنجیرهای۵ افکار تمرکز کرده است. گفته میشود که این استراتژی به دیپسیک اجازه داده است تا مدلی رقابتی را با کسری از هزینه تولید کند.
اگرچه هنوز اختلافنظرهایی درباره صحت ادعاهای دیپسیک وجود دارد، این اتفاق باعث آشکار شدن «گروه اندیشی۶» در صنعت هوش مصنوعی آمریکا شده است. نابینایی این صنعت نسبت به روشهای جایگزین، ارزانتر و نویدبخشتر، دقیقا همان چیزی را نشان داده که من و سایمون جانسون در کتاب «قدرت و پیشرفت» که درست پیش از آغاز عصر هوش مصنوعی نوشته شده بود پیشبینی کرده بودیم. اکنون پرسش این است که آیا صنعت هوش مصنوعی آمریکا نقاط کور خطرناکتری هم دارد؟ برای مثال، آیا شرکتهای پیشروی آمریکایی فرصت هدایت مدلهایشان به مسیری «بیشتر انسانی» را از دست دادهاند؟ حدس من این است که پاسخ مثبت است، اما گذر زمان این را مشخص خواهد کرد.
تمایل من این است که باور کنم کنترل از بالا مانع نوآوری میشود؛ همانطور که در کتاب «چرا ملتها شکست میخورند» من و رابینسون استدلال کردیم. در حالی که موفقیت دیپسیک به نظر میرسد این ادعا را به چالش میکشد، هنوز مدرکی قطعی حاکی از آن که نوآوری تحت نهادهای استثماری میتواند به همان اندازه نوآوری در سایه نهادهای فراگیر، قدرتمند یا پایدار باشد، وجود ندارد. در نهایت، دیپسیک بر پایه سالها پیشرفتهای علمی در آمریکا (و بعضا در اروپا) ساخته شده است. تمام روشهای پایهای آن در ایالاتمتحده ابداع شدهاند.
سوال دیگر درباره ژئوپلیتیک است. آیا این ماجرا به این معناست که کنترل صادرات ایالاتمتحده و سایر اقداماتی که برای مهار تحقیقات هوش مصنوعی چین انجام شده، شکست خوردهاند؟ پاسخ این پرسش نیز هنوز مشخص نیست. دیپسیک مدلهای اخیر خود (V۳ وR۱ ) را روی تراشههای قدیمیتر و کمقدرتتر آموزش داده است، اما برای پیشرفتهای بیشتر و گسترش مقیاس خود ممکن است همچنان به قدرتمندترین تراشهها نیاز داشته باشد. با این حال، مشخص است که رویکرد بازی جمعصفر آمریکا غیرقابل اجرا و اشتباه بوده است.
چنین استراتژیای تنها در صورتی منطقی است که باور داشته باشید ما به سمت هوش جامع مصنوعی (مدلهایی که میتوانند در هر دستور شناختی تواناییای معادل انسان داشته باشند) حرکت میکنیم و اینکه هر کس زودتر به هوش جامع مصنوعی برسد، یک مزیت ژئوپلیتیک عظیم خواهد داشت. با چسبیدن به این فرضیات -که هیچیک لزوما موجه نیستند- ما از همکاری سازنده با چین، در بسیاری از حوزهها جلوگیری کردهایم. برای مثال، اگر یک کشور مدلهایی تولید کند که بهرهوری انسانی را افزایش دهد یا به تنظیم بهتر مصرف انرژی کمک کند، چنین نوآوریای برای هر دو کشور سودمند خواهد بود؛ بهویژه اگر بهطور گسترده مورد استفاده قرار گیرد.
دیپسیک نیز مانند شرکتهای آمریکایی، جاهطلبی توسعه هوش جامع مصنوعی را دارد. ایجاد مدلی که با هزینهای بهمراتب کمتر آموزش داده شود، میتواند تغییر بزرگی ایجاد کند. اما کاهش هزینههای توسعه با استفاده از روشهای شناختهشده فعلی، نمیتواند باعث شود که در چند سال آینده به طور معجزهآسایی به هوش جامع مصنوعی برسیم. اینکه آیا هوش جامع در کوتاهمدت قابل دستیابی است، همچنان یک پرسش باقی میماند (و اینکه آیا مطلوب است یا نه، حتی بحثبرانگیزتر است). حتی اگر هنوز جزئیات کاملی درباره نحوه توسعه مدلهای دیپسیک یا پیامدهای این موفقیت برای آینده صنعت هوش مصنوعی نداشته باشیم، یک نکته روشن است: یک استارتآپ چینی موفق شده است وسواس صنعت فناوری نسبت به مقیاس را متزلزل کند و شاید حتی آنها را کمی بترساند.
۱ . Diffusion Models یک نوع از مدلهای مولد است. مدل انتشاری یک روش یادگیری مبتنی بر احتمال است که برای مدلسازی و تولید دادههای با ساختار پیچیده استفاده میشود.
۲ . در الگوریتم های یادگیری ماشین تقویتی، عامل با محیطی تعامل میکند و میآموزد که چگونه تصمیمات بهینهای بگیرد تا پاداشش را حداکثر و جریمهاش را حداقل کند.
۳ . یک تکنیک یادگیری ماشین
۴ . به فرآیند انتقال دانش از یک مدل نسبتا بزرگ به یکمدل کوچک تقطیر دانش گفته میشود.
۵ . تحریک زنجیرهای از فکر، تکنیکی است که هدف آن بهبود عملکرد مدلهای زبان بزرگ در کارهای استدلالی پیچیده با تشویق مدل به تولید مراحل استدلال میانی است. برخلاف روشهای پیشنهادی سنتی که معمولا یک درخواست واحد ارائه میدهند و انتظار پاسخ مستقیم دارند، درخواست CoT فرآیند استدلال را به یکسری مراحل کوچکتر و به هم مرتبط تقسیم میکند.
۶. پدیدهای روانشناسانه است که در بین گروهی از مردم رخ میدهد، بدین شکل که میل به هارمونی و همگرایی در گروه، به تصمیمگیری غیرعقلانی یا ناکارآمد منجر میشود.