178 قرائت

تغییر از هوش مصنوعی نمادین به یادگیری عمیق در پردازش زبان طبیعی

توسط Philosophical5m2025/02/24
Read on Terminal Reader

خیلی طولانی؛ خواندن

مدل‌های زبان هوش مصنوعی از NLP مبتنی بر قانون و روش‌های آماری به شبکه‌های عصبی و ترانسفورماتورها تکامل یافته‌اند که منجر به قابلیت‌های پیشرفته مدل‌هایی مانند GPT-4 می‌شود.
featured image - تغییر از هوش مصنوعی نمادین به یادگیری عمیق در پردازش زبان طبیعی
Philosophical HackerNoon profile picture
0-item

نویسندگان:

(1) Raphaël Millière، گروه فلسفه، دانشگاه Macquarie ([email protected]);

(2) کامرون باکنر، گروه فلسفه، دانشگاه هیوستون ([email protected]).

جدول پیوندها

چکیده و 1 مقدمه

2. پرایمر روی LLM ها

2.1. مبانی تاریخی

2.2. LLM های مبتنی بر ترانسفورماتور

3. ارتباط با مسائل فلسفی کلاسیک

3.1. ترکیب بندی

3.2. بومی گرایی و فراگیری زبان

3.3. درک زبان و زمینه سازی

3.4. مدل های جهانی

3.5. انتقال دانش فرهنگی و داربست زبانی

4. نتیجه گیری، واژه نامه، و منابع

2.1. مبانی تاریخی

منشاء مدل‌های زبان بزرگ را می‌توان در آغاز تحقیقات هوش مصنوعی جستجو کرد. تاریخ اولیه پردازش زبان طبیعی (NLP) با شکاف بین دو پارادایم رقیب مشخص شد: رویکرد نمادین و تصادفی. تأثیر عمده بر پارادایم نمادین در NLP، گرامر دگرگونی-زاینده نوام چامسکی بود (چامسکی 1957)، که بیان می کرد که نحو زبان های طبیعی را می توان با مجموعه ای از قوانین رسمی که جملاتی به خوبی شکل گرفته است، دریافت کرد. کار چامسکی پایه و اساس توسعه تجزیه‌کننده‌های نحوی مبتنی بر قاعده را ایجاد کرد که از نظریه زبان‌شناختی برای تجزیه جملات به اجزای سازنده‌شان استفاده می‌کنند. سیستم‌های NLP محاوره‌ای اولیه، مانند SHRDLU وینوگراد (وینوگراد 1971)، به تجزیه‌کننده‌های نحوی با مجموعه‌ای پیچیده از قوانین ad hoc برای پردازش ورودی کاربر نیاز داشت.


به موازات آن، پارادایم تصادفی توسط محققانی مانند ریاضیدان وارن ویور، که تحت تأثیر نظریه اطلاعات کلود شانون بود، پیشگام شد. در یادداشتی که در سال 1949 نوشته شد، ویور استفاده از رایانه را برای ترجمه ماشینی با استفاده از تکنیک های آماری پیشنهاد کرد (ویور 1955). این کار راه را برای توسعه مدل‌های زبانی آماری، مانند مدل‌های n-gram، که احتمال توالی کلمات را بر اساس فراوانی‌های مشاهده‌شده ترکیب‌های کلمه در یک پیکره تخمین می‌زند، هموار کرد (Jelinek 1998). با این حال، در ابتدا، الگوی تصادفی از رویکردهای نمادین NLP عقب مانده بود، و تنها موفقیت متوسطی را در مدل‌های اسباب‌بازی با کاربردهای محدود نشان می‌داد.


یکی دیگر از پله های نظری مهم در راه رسیدن به مدل های زبان مدرن، فرضیه موسوم به توزیعی است که برای اولین بار توسط زلیگ هریس زبان شناس در دهه 1950 ارائه شد (Harris 1954). این ایده مبتنی بر دیدگاه ساختارگرایانه زبان بود، که معتقد است واحدهای زبانی از طریق الگوهای هم‌زمانی خود با واحدهای دیگر در سیستم معنا پیدا می‌کنند. هریس به طور خاص پیشنهاد کرد که معنای یک کلمه را می توان با بررسی ویژگی های توزیعی آن، یا زمینه هایی که در آن رخ می دهد، استنباط کرد. فرث (1957) به درستی این فرضیه را با شعار "شما باید یک کلمه را توسط شرکتی که نگه می دارد بشناسید" خلاصه کرد و تأثیر مفهوم ویتگنشتاین (1953) از معنا-به عنوان-استفاده را برای برجسته کردن اهمیت زمینه در درک معنای زبانی تأیید کرد.


با پیشرفت تحقیق در مورد فرضیه توزیعی، محققان شروع به بررسی امکان نمایش معانی کلمات به عنوان بردار در فضای چند بعدی کردند. 1. کارهای تجربی اولیه در این زمینه از روانشناسی سرچشمه می گرفت و معنای کلمات را در ابعاد مختلف، مانند ظرفیت و قدرت بررسی می کرد (Osgood 1952). در حالی که این کار ایده نمایش معنا را در یک فضای برداری چند بعدی معرفی کرد، به جای تجزیه و تحلیل ویژگی‌های توزیعی یک پیکره زبانی، بر رتبه‌بندی‌های صریح شرکت‌کنندگان در مورد معانی کلمات در مقیاس‌های مختلف (مثلاً خوب-بد) تکیه داشت. تحقیقات بعدی در بازیابی اطلاعات، نمایش‌های مبتنی بر برداری را با رویکرد داده‌محور ترکیب کرد و تکنیک‌های خودکار را برای نمایش اسناد و کلمات به‌عنوان بردار در فضاهای برداری با ابعاد بالا توسعه داد (سالتون و همکاران 1975).


پس از دهه‌ها تحقیق تجربی، این ایده‌ها در نهایت با توسعه مدل‌های جاسازی کلمه با استفاده از شبکه‌های عصبی مصنوعی به بلوغ رسیدند (Bengio et al. 2000). این مدل‌ها مبتنی بر این بینش هستند که ویژگی‌های توزیعی کلمات را می‌توان با آموزش یک شبکه عصبی برای پیش‌بینی بافت کلمه با توجه به خود کلمه یا برعکس، آموخت. بر خلاف روش‌های آماری قبلی مانند مدل‌های n-gram، مدل‌های جاسازی کلمه، کلمات را به نمایش‌های برداری متراکم و کم‌بعدی رمزگذاری می‌کنند (شکل 1). فضای برداری حاصل، ابعاد داده های زبانی را به شدت کاهش می دهد در حالی که اطلاعات مربوط به روابط زبانی معنادار را فراتر از آمارهای ساده همزمان حفظ می کند. قابل توجه است که بسیاری از روابط معنایی و نحوی بین کلمات در زیرساخت‌های خطی در فضای برداری مدل‌های جاسازی کلمه منعکس می‌شوند. به عنوان مثال، Word2Vec (Mikolov و همکاران 2013) نشان داد که تعبیه‌های کلمه می‌توانند هم نظم معنایی و هم نظم نحوی را به تصویر بکشند، همانطور که با توانایی حل تکالیف قیاس کلمه از طریق حساب برداری ساده که ساختار زبانی پنهان کدگذاری شده در فضای برداری را آشکار می‌کند، مشهود است (به عنوان مثال، 👘). 𝑤𝑜𝑚𝑎𝑛 − 𝑚𝑎𝑛 ≈ 𝑞𝑢 𝑤𝑎𝑙𝑘𝑒𝑑 ≈ 𝑠𝑤𝑖𝑚𝑚𝑖.


توسعه مدل‌های جاسازی کلمه نقطه عطفی در تاریخ NLP بود و ابزار قدرتمند و کارآمدی را برای نمایش واحدهای زبانی در یک فضای برداری پیوسته بر اساس توزیع آماری آنها در یک مجموعه بزرگ فراهم کرد. با این حال، این مدل ها دارای چندین محدودیت قابل توجه هستند. اولاً، آنها قادر به گرفتن چندمعنی و متجانس نیستند، زیرا آنها a را اختصاص می دهند


شکل 1 | تصویری از جاسازی کلمات در یک فضای برداری چند بعدی. الف. یک مدل جاسازی کلمه که بر روی پیکره زبان طبیعی آموزش داده شده است، یاد می‌گیرد که کلمات را در بردارهای عددی (یا جاسازی‌ها) در یک فضای چند بعدی (ساده‌شده به دوبعد برای وضوح بصری) رمزگذاری کند. در طول دوره آموزش، بردارهای کلمات مرتبط با زمینه (مانند "سن" و "عصر") بیشتر شبیه می شوند، در حالی که بردارهای کلمات غیرمرتبط با زمینه (مانند "سن" و "قهوه") کمتر شبیه می شوند. ب. جاسازی کلمه در فضای برداری دو بعدی یک مدل آموزش دیده. کلماتی با معانی مشابه («عصر» و «دوران») نزدیک‌تر به هم قرار می‌گیرند، همانطور که با نمره شباهت کسینوس بالای آنها مشخص می‌شود، در حالی که کلمات با معانی غیرمشابه («قهوه» و «عصر») از هم دورتر هستند و در نمره شباهت کسینوس پایین‌تر منعکس می‌شوند. تشابه کسینوس معیاری است که برای تعیین کسینوس زاویه بین دو بردار غیر صفر به کار می رود و نشانی از درجه مشابه بودن آنها ارائه می دهد. نمره شباهت کسینوس نزدیک به 1 نشان دهنده زاویه کوچکتر و در نتیجه درجه تشابه بالاتر بین بردارها است. شکل اقتباسی ضعیف از Boleda (2020، شکل 1).


تعبیه تک یا "ایستا" در هر نوع کلمه، که نمی تواند تغییرات در معنا را بر اساس زمینه توضیح دهد. به عنوان مثال، "بانک" بدون توجه به اینکه به کنار رودخانه یا موسسه مالی اشاره دارد، یک جاسازی منحصر به فرد اختصاص داده می شود. دوم، آنها به معماری شبکه های عصبی مصنوعی "کم عمق" با یک لایه پنهان تکیه می کنند، که توانایی آنها را برای مدل سازی روابط پیچیده بین کلمات محدود می کند. در نهایت، طراحی شده برای نشان دادن زبان در سطح کلمات فردی، آنها برای مدل سازی بیان پیچیده زبانی، مانند عبارات، جملات، و پاراگراف ها مناسب نیستند. در حالی که می‌توان یک جمله را به‌عنوان یک بردار با میانگین‌گیری از جاسازی‌های هر کلمه در جمله نشان داد، این روش بسیار ضعیفی برای نمایش معنای سطح جمله است، زیرا اطلاعات مربوط به ساختار ترکیبی منعکس‌شده در ترتیب کلمات را از دست می‌دهد. به عبارت دیگر، مدل‌های جاسازی کلمه، زبان را صرفاً به عنوان «کیف کلمات» در نظر می‌گیرند. برای مثال، "یک کتاب قانون" و "یک قانون کتاب" به طور یکسان به عنوان مجموعه نامرتب {'a','book',' law'} در نظر گرفته می شوند.


کاستی‌های مدل‌های جاسازی کلمه کم عمق با معرفی مدل‌های زبانی «عمیق»، که به شبکه‌های عصبی بازگشتی (RNN) و انواع آن‌ها، مانند حافظه کوتاه‌مدت بلندمدت (LSTM) (Hochreiter & Schmidhuber 1997) و واحد بازگشتی دروازه‌ای (GRU) (GRU) باز می‌گردد، برطرف شد. این معماری‌های شبکه عصبی عمیق مکانیزمی شبیه حافظه را در خود جای داده‌اند که به آن‌ها اجازه می‌دهد توالی‌هایی از ورودی‌ها را در طول زمان به خاطر بسپارند و پردازش کنند، نه کلمات مجزا. علیرغم این مزیت نسبت به مدل‌های جاسازی کلمه، آنها از محدودیت‌های خاص خود رنج می‌برند: در آموزش آهسته هستند و با دنباله‌های طولانی متن مبارزه می‌کنند. این مسائل با معرفی معماری ترانسفورماتور توسط واسوانی و همکاران مطرح شد. (2017)، که زمینه را برای LLM های مدرن فراهم کرد.



L O A D I N G
. . . comments & more!

About Author

Philosophical HackerNoon profile picture
Philosophical@philosophical
Philosophical: Questions that span centuries, ideas that shape the mind.

برچسب ها را آویزان کنید

این مقاله در ارائه شده است...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks