OpenAI از انتشار آخرین مدل زبان بزرگ خود، GPT-4 خبر داد. این مدل زبان، یک مدل چندوجهی بزرگ است که می تواند هم ورودی تصویر و هم متن را بپذیرد و خروجی متن تولید کند.
به گزارش رویداد۲۴ حسین فلاحی: انتشار اخیر GPT-4 نقطه عطف مهمی در زمینه هوش مصنوعی، به ویژه در پردازش زبان طبیعی است. در این مقاله، تجزیه و تحلیل کاملی از قابلیتهای پیشرفته آن ارائه میکنیم و به تاریخچه و توسعه ترانسفورماتورهای از پیش آموزشدیده (GPT) و به قابلیتهای جدیدی که GPT-4 ارائه می کند خواهیم پرداخت.
تبدیل کننده تولیدگر پیش آموزش دیده (GPT) چیست؟
ترانسفورمر مولد پیش آموزش دیده (GPT) نوعی مدل یادگیری عمیق هستند که برای تولید متنی شبیه به انسان استفاده می شود. کاربردهای رایج عبارتند از
- پاسخ دادن به سوالات
- خلاصه کردن متن
- ترجمه متن به زبان های دیگر
- تولید کد
- ایجاد پستهای وبلاگ، داستانها، گفتگوها و سایر انواع محتوا.
برنامه های بی پایانی برای مدل های GPT وجود دارد و حتی می توانید آنها را روی داده های خاص تنظیم کنید تا نتایج بهتری ایجاد کنید. با استفاده از ترانسفورمرها، در هزینه های محاسباتی، زمان و سایر منابع صرفه جویی خواهید کرد.
قبل از GPT
انقلاب هوش مصنوعی فعلی برای زبان طبیعی تنها با اختراع مدلهای ترانسفورمرها امکانپذیر شد که با BERT گوگل در سال ۲۰۱۷ شروع شد. شبکه های عصبی حافظه (LSTMs). اینها برای خروجی تک کلمات یا عبارات کوتاه عملکرد خوبی داشتند، اما نمیتوانستند محتوای واقعی و طولانیتری تولید کنند.
رویکرد ترانسفورمر BERT یک پیشرفت بزرگ بود زیرا یک تکنیک یادگیری تحت نظارت نیست. به این معنا که برای آموزش آن نیازی به مجموعه داده مشروح گران قیمت نیست. BERT توسط گوگل برای تفسیر جستجوهای زبان طبیعی استفاده شد، با این حال، نمی تواند متنی را برای یک درخواست تولید کند.
GPT-1
معماری ترانسفورمر | کاغذ GPT-1
در سال ۲۰۱۸، OpenAI مقالهای (بهبود درک زبان توسط پیشآموزش مولد) درباره استفاده از درک زبان طبیعی با استفاده از مدل زبان GPT-1 منتشر کرد. این مدل اثبات مفهوم بود و به صورت عمومی منتشر نشد.
GPT-2
مدل عملکرد در وظایف مختلف | کاغذ GPT-2
سال بعد، OpenAI مقاله دیگری را منتشر کرد (مدل های زبان، یادگیرندگان چند وظیفه ای بدون نظارت هستند) در مورد آخرین مدل خود، GPT-2. این بار، این مدل در دسترس جامعه یادگیری ماشین قرار گرفت و برای کارهای تولید متن پذیرفته شد. GPT-2 اغلب می تواند چند جمله را ایجاد کند. این در سال ۲۰۱۹ بسیار پیشرفته بود.
GPT-3
نتایج سه وظیفه QA دامنه باز | کاغذ GPT-3
در سال ۲۰۲۰، OpenAI مقاله دیگری در مورد مدل GPT-3 خود منتشر کرد (مدلهای زبانی یادگیرندگان کمی هستند). این مدل ۱۰۰ برابر پارامترهای بیشتری نسبت به GPT-2 داشت و بر روی یک مجموعه داده متنی حتی بزرگتر آموزش داده شد که در نتیجه عملکرد مدل بهتری داشت. این مدل با تکرارهای مختلفی که به عنوان سری GPT-3.5 شناخته می شوند، از جمله ChatGPT متمرکز بر مکالمه، بهبود یافت.
این نسخه پس از غافلگیری جهان با توانایی خود در تولید صفحات متنی شبیه به انسان، جهان را غافلگیر کرد. ChatGPT تبدیل به سریعترین برنامه وب در حال رشد شد و تنها در دو ماه به ۱۰۰ میلیون کاربر رسید.
چه چیزی در GPT-4 جدید است؟
GPT-4 برای بهبود مدل “هم ترازی” توسعه یافته است با توانایی اجرای خواست کاربر به صورت قابل اعتمادتر با خروجی توهینآمیز یا خطرناکتر کمتر.
بهبود عملکرد GPT
همانطور که ممکن است انتظار داشته باشید، GPT-4 در مدل های GPT-3.5 از نظر صحت واقعی پاسخ ها بهبود یافته است و تعداد “توهمات” و اشتباهات که در آن مدل، خطاهای واقعی یا استدلالی را مرتکب می شود کمتر است، به طوری که امتیاز GPT-4 حدود ۴۰٪ بالاتر از GPT-3.5 در معیار عملکرد واقعی داخلی OpenAI است.
همچنین “هدایت پذیری” را بهبود می بخشد، که توانایی تغییر رفتار آن بر اساس درخواست کاربر است. به عنوان مثال، می توانید به آن دستور دهید که با سبک یا لحن یا صدای متفاوت بنویسد. سعی کنید اعلانها را با «شما یک متخصص دادههای وراج هستید» یا «شما یک متخصص داده مختصر هستید» شروع کنید و از آن بخواهید مفهوم علم داده را برای شما توضیح دهد.
استفاده از ورودی های بصری در GPT-4
یکی از تغییرات عمده این است که GPT-4 می تواند از ورودی های تصویر (فقط پیش نمایش تحقیق؛ هنوز در دسترس عموم نیست) و متن استفاده کند. کاربران می توانند با وارد کردن متن و تصاویر به هم ریخته، هر چشم انداز یا وظیفه زبانی را مشخص کنند.
نمونههایی نشان میدهند که GPT-4 به درستی تصاویر پیچیدهای مانند نمودارها و عکسهای صفحهنمایش مقالات دانشگاهی را تفسیر میکند. در زیر می توانید نمونههایی از ورودی دید را مشاهده کنید.
معیارهای عملکرد GPT-4
OpenAI، محصول GPT-4 را با شبیه سازی امتحانات طراحی شده برای انسان، مانند آزمون یکنواخت وکالت و LSAT برای وکلا، و SAT برای پذیرش دانشگاه، ارزیابی کرد. نتایج نشان داد که GPT-4 عملکردی در سطح انسانی در معیارهای مختلف حرفه ای و دانشگاهی به دست آورد.
OpenAI همچنین GPT-4 را بر روی معیارهای سنتی طراحی شده برای مدلهای یادگیری ماشین ارزیابی کرد، جایی که از مدلهای زبان بزرگ موجود و بیشتر مدلهای پیشرفته که ممکن است شامل پروتکلهای آموزشی خاص یا پروتکلهای آموزشی اضافی باشد، بهتر عمل کرد. این معیارها شامل سؤالات چندگزینه ای در ۵۷ موضوع، استدلال عامیانه در مورد رویدادهای روزمره، سؤالات علوم چندگزینه ای در مقطع ابتدایی و غیره بود.
OpenAI با ترجمه معیار MMLU، مجموعهای از ۱۴۰۰۰ مسئله چند گزینهای که شامل ۵۷ موضوع است، به زبانهای مختلف با استفاده از Azure Translate، قابلیت GPT-4 را در زبانهای دیگر آزمایش کرد. در ۲۴ زبان از ۲۶ زبان آزمایش شده، GPT-4 عملکرد بهتری نسبت به عملکرد انگلیسی زبان GPT-3.5 و سایر مدل های زبان بزرگ داشت.
به طور کلی، نتایج پایهدارتر GPT-4 نشاندهنده پیشرفت قابل توجهی در تلاش OpenAI برای توسعه مدلهای هوش مصنوعی با قابلیتهای پیشرفتهتر است.
نحوه دسترسی به GPT-4
OpenAI قابلیت ورودی متن GPT-4 را از طریق ChatGPT منتشر می کند. در حال حاضر برای کاربران ChatGPT Plus در دسترس است. یک لیست انتظار برای GPT-4 API وجود دارد.
در دسترس بودن عمومی قابلیت ورودی تصویر هنوز اعلام نشده است. OpenAI دارای OpenAI Evals منبع باز است، چارچوبی برای ارزیابی خودکار عملکرد مدل هوش مصنوعی، تا به هر کسی اجازه دهد کاستیهای مدلهای خود را گزارش کند و پیشرفتهای بیشتر را راهنمایی کند.