مخفف LLM

Large Language Model

مدل زبانی بزرگ (LLM) یا ال‌ال‌ام، سامانه‌های هوش مصنوعی هستند که برای درک، تولید و پاسخگویی به زبان انسان طراحی شده‌اند. آنها «بزرگ» نامیده می‌شوند زیرا حاوی میلیاردها پارامتر هستند که به آنها امکان می‌دهد الگوهای پیچیده در داده‌های زبان را پردازش کنند.

ال‌ال‌ام‌ها دسته‌ای از مدل‌های یادگیری ماشینی هستند که توانایی درک و تولید متنی شبیه انسان را دارند. این مدل‌ها این توانایی‌ها را با یادگیری روابط آماری از اسناد متنی در طی یک فرایند آموزشی فشرده محاسباتی خود نظارت و نیمه نظارت به دست می‌آورند. آنها بر روی مجموعه داده‌های گسترده‌ای آموزش دیده‌اند که اغلب از اینترنت جمع‌آوری می‌شوند، و می‌تواند شامل منابع متنی بسیار متنوعی مانند صفحات ویکی‌پدیا، کتاب‌ها، موضوعات رسانه‌های اجتماعی و مقالات خبری باشد. مدل‌های زبان بزرگ در حدود سال ۲۰۱۸ ظاهر شدند و در گستره وسیعی از وظایف، عملکرد بالایی دارند. در معماری داخلی این مدل‌ها از ترنسفورمر بهره برده شده است. ترنسفورمرها شبکه‌های عصبی مصنوعی هستند که برای پردازش دنباله‌های طولانی توکن‌ها (نشانه‌ها) به سازوکارهای توجه متکی هستند و معمولاً از ده‌ها میلیون و تا میلیاردها پارامتر آموزش‌دیده دارند. ترنسفورمرها می‌توانند وابستگی‌ها و روابط بین کلمات و جملات، و همچنین نحو، معناشناسی و زمینه زبان طبیعی را به تصویر بکشند لذا می‌توان به عنوان نوعی هوش مصنوعی مولد، از آنها برای تولید متن بهره برد. در این صورت هوش مصنوعی مولد با گرفتن یک متن ورودی و پیش‌بینی مکرر نشانه یا کلمه بعدی متن شبه‌انسانی تولید می‌کند.

تا تاریخ مارس ۲۰۲۴ بزرگ‌ترین و تواناترین آنها، با معماری مبتنی بر ترنسفورمرهای فقط رمزگشا ساخته شده‌اند. در عین حال، برخی دیگر از پیاده‌سازی‌ها بر اساس معماری‌هایی مانند انواع شبکه عصبی بازگشتی و مامبا (یک مدل فضای حالت) هستند.

ارسال نظر

مخفف LLM

Large Language Model

مخفف ال‌ال‌ام‌‌

lott ممپ

ارسال نظر