مدل زبانی بزرگ (LLM) یا الالام، سامانههای هوش مصنوعی هستند که برای درک، تولید و پاسخگویی به زبان انسان طراحی شدهاند. آنها «بزرگ» نامیده میشوند زیرا حاوی میلیاردها پارامتر هستند که به آنها امکان میدهد الگوهای پیچیده در دادههای زبان را پردازش کنند.
الالامها دستهای از مدلهای یادگیری ماشینی هستند که توانایی درک و تولید متنی شبیه انسان را دارند. این مدلها این تواناییها را با یادگیری روابط آماری از اسناد متنی در طی یک فرایند آموزشی فشرده محاسباتی خود نظارت و نیمه نظارت به دست میآورند. آنها بر روی مجموعه دادههای گستردهای آموزش دیدهاند که اغلب از اینترنت جمعآوری میشوند، و میتواند شامل منابع متنی بسیار متنوعی مانند صفحات ویکیپدیا، کتابها، موضوعات رسانههای اجتماعی و مقالات خبری باشد. مدلهای زبان بزرگ در حدود سال ۲۰۱۸ ظاهر شدند و در گستره وسیعی از وظایف، عملکرد بالایی دارند. در معماری داخلی این مدلها از ترنسفورمر بهره برده شده است. ترنسفورمرها شبکههای عصبی مصنوعی هستند که برای پردازش دنبالههای طولانی توکنها (نشانهها) به سازوکارهای توجه متکی هستند و معمولاً از دهها میلیون و تا میلیاردها پارامتر آموزشدیده دارند. ترنسفورمرها میتوانند وابستگیها و روابط بین کلمات و جملات، و همچنین نحو، معناشناسی و زمینه زبان طبیعی را به تصویر بکشند لذا میتوان به عنوان نوعی هوش مصنوعی مولد، از آنها برای تولید متن بهره برد. در این صورت هوش مصنوعی مولد با گرفتن یک متن ورودی و پیشبینی مکرر نشانه یا کلمه بعدی متن شبهانسانی تولید میکند.
تا تاریخ مارس ۲۰۲۴ بزرگترین و تواناترین آنها، با معماری مبتنی بر ترنسفورمرهای فقط رمزگشا ساخته شدهاند. در عین حال، برخی دیگر از پیادهسازیها بر اساس معماریهایی مانند انواع شبکه عصبی بازگشتی و مامبا (یک مدل فضای حالت) هستند.