آشنایی با توابع ضرر استفاده شده در ترنسفورمر ها

نویسنده: صابره عسکری

دانشگاه فردوسی مشهد دانشکده مهندسی گروه کامپیوتر

دانشجوی ارشد هوش‌ مصنوعی دانشگاه فردوسی مشهد
آزمایشگاه شناسایی الگو دکتر هادی صدوقی یزدی

مقدمه

در سال‌های اخیر، معماری ترنسفورمر به‌عنوان نقطه‌ی عطفی در حوزه‌ی یادگیری عمیق و پردازش زبان طبیعی معرفی شده است. این معماری که نخستین بار در مقاله‌ی Attention Is All You Need توسط Vaswani و همکاران (۲۰۱۷) مطرح شد، توانست محدودیت‌های مدل‌های بازگشتی (RNN) و حافظه‌های طولانی‌کوتاه‌مدت (LSTM) را پشت سر بگذارد و با بهره‌گیری از مکانیزم Self-Attention، وابستگی‌های طولانی‌مدت در داده‌های متنی را با کارایی بالا مدل‌سازی کند.

با وجود اهمیت ساختار شبکه و مکانیزم توجه، آنچه فرآیند یادگیری ترنسفورمر را هدایت می‌کند، تابع ضرر (Loss Function) است. تابع ضرر به‌عنوان قطب‌نمای یادگیری عمل کرده و مسیر بهینه‌سازی وزن‌ها را مشخص می‌سازد. انتخاب و طراحی مناسب تابع ضرر نه‌تنها بر سرعت همگرایی مدل اثرگذار است، بلکه کیفیت نهایی نمایش‌های یادگرفته‌شده و توانایی مدل در انجام وظایف مختلف را تعیین می‌کند.

در مدل‌های زبانی بزرگ مانند GPT و BERT، معمولاً از Cross-Entropy Loss برای پیش‌بینی توکن‌های بعدی یا بازسازی بخش‌های حذف‌شده‌ی متن استفاده می‌شود. اما در وظایف خاص‌تر مانند ترجمه ماشینی، طبقه‌بندی متون یا یادگیری نمایش‌های معنایی، ترکیب یا جایگزینی این تابع با توابعی همچون Mean Squared Error (MSE)، Binary Cross-Entropy یا Contrastive Loss می‌تواند عملکرد مدل را به‌طور چشمگیری تغییر دهد.

هدف این مقاله، بررسی معماری ترنسفورمر از منظر طراحی و بهینه‌سازی توابع ضرر است. در این مسیر، ابتدا به معرفی اجزای اصلی ترنسفورمر پرداخته می‌شود، سپس انواع توابع ضرر رایج و نوین در آموزش این مدل‌ها تحلیل خواهند شد، و در نهایت تأثیر انتخاب تابع ضرر بر همگرایی، کیفیت یادگیری و مسیرهای پژوهشی آینده مورد بحث قرار می‌گیرد.

مروری بر معماری ترنسفورمر

معماری ترنسفورمر در سال ۲۰۱۷ معرفی شد و به‌سرعت به ستون اصلی مدل‌های زبانی مدرن تبدیل گردید. ویژگی کلیدی این معماری، استفاده از مکانیزم Self-Attention است که امکان مدل‌سازی وابستگی‌های طولانی‌مدت در داده‌های متنی را فراهم می‌کند. برخلاف RNNها، ترنسفورمرها به‌صورت موازی عمل می‌کنند و همین امر باعث افزایش سرعت آموزش و مقیاس‌پذیری آن‌ها شده است.

اجزای اصلی ترنسفورمر

1. Encoder

شامل چندین لایه متوالی از Self-Attention و شبکه‌های Feed-Forward.
وظیفه: استخراج ویژگی‌های معنایی از ورودی.

2. Decoder

مشابه Encoder اما با مکانیزم Attention اضافی برای ارتباط با خروجی قبلی.
وظیفه: تولید توالی خروجی (مثلاً ترجمه جمله).

3. Self-Attention

مکانیزمی برای محاسبه ارتباط هر توکن با سایر توکن‌ها در توالی.

4. Feed-Forward Networks

شبکه‌های کاملاً متصل (Fully Connected) که پس از Attention قرار می‌گیرند.
وظیفه: تبدیل ویژگی‌های استخراج‌شده به نمایش‌های غنی‌تر.

5. Position Encoding

چون ترنسفورمر ذاتاً ترتیبی نیست، از کدگذاری موقعیت برای حفظ ترتیب توکن‌ها استفاده می‌شود.

ارتباط با تابع ضرر

خروجی Decoder معمولاً یک توزیع احتمالاتی روی واژگان است.
این توزیع با توزیع واقعی مقایسه می‌شود و تابع ضرر (مثلاً Cross-Entropy) محاسبه می‌گردد.
سپس گرادیان‌ها از طریق لایه‌های Attention و Feed-Forward به عقب انتشار می‌یابند و وزن‌ها به‌روزرسانی می‌شوند.

نقش تابع ضرر در آموزش ترنسفورمر

تابع ضرر (Loss Function) قلب فرآیند یادگیری در ترنسفورمرهاست. این تابع مشخص می‌کند که خروجی مدل تا چه حد با داده‌های واقعی فاصله دارد و سپس با انتشار گرادیان‌ها در لایه‌های مختلف، وزن‌ها به‌روزرسانی می‌شوند. انتخاب درست تابع ضرر می‌تواند سرعت همگرایی و کیفیت نهایی مدل را به‌طور چشمگیری تحت تأثیر قرار دهد.

انواع توابع ضرر در ترنسفورمرها

ترنسفورمرها بسته به وظیفه‌ای که برای آن‌ها طراحی یا تنظیم (Fine-Tune) می‌شوند، از توابع ضرر متفاوتی استفاده می‌کنند. در ادامه، مهم‌ترین توابع ضرر و کاربرد آن‌ها را بررسی می‌کنیم.

1. Cross-Entropy Loss (مدل‌های زبانی)

رایج‌ترین تابع ضرر در آموزش ترنسفورمرهای زبانی، Cross-Entropy Loss است. این تابع میزان اختلاف بین توزیع احتمالاتی پیش‌بینی‌شده توسط مدل و توزیع واقعی (برچسب‌ها) را اندازه‌گیری می‌کند.

رایج‌ترین تابع ضرر در آموزش مدل‌های زبانی مثل GPT و BERT.
هدف: کمینه کردن اختلاف بین توزیع پیش‌بینی‌شده و توزیع واقعی توکن‌ها.

فرمول:

$Loss = - \sum_{i=1}^{C} y_i \cdot \log(\hat{p}_i)$

$C$ : تعداد کلاس‌ها
$y_i$: برچسب واقعی (بردار one-hot)
$\hat{p}_i$: احتمال پیش‌بینی‌شده برای کلاس $i$

این فرمول باعث می‌شود مدل احتمال بیشتری به توکن‌های درست اختصاص دهد و به‌تدریج توزیع خروجی به توزیع واقعی نزدیک شود.

مفهوم اصلی

در مسائل طبقه‌بندی، مدل برای هر ورودی یک توزیع احتمال روی کلاس‌ها تولید می‌کند. اما در واقعیت، هر نمونه فقط به یک کلاس تعلق دارد (مثلاً گربه یا سگ).
Cross-Entropy Loss میزان فاصله بین این دو توزیع (پیش‌بینی مدل و حقیقت) را اندازه‌گیری می‌کند. هرچه مدل احتمال بیشتری به کلاس درست بدهد، مقدار Loss کمتر خواهد بود.

چرا مهم است؟

هدایت یادگیری: این تابع ضرر مدل را مجبور می‌کند احتمال کلاس درست را افزایش دهد و احتمال کلاس‌های اشتباه را کاهش دهد.
پایداری: برخلاف برخی توابع دیگر، Cross-Entropy به خوبی با داده‌های بزرگ و چندکلاسه کار می‌کند.
کاربرد گسترده: تقریباً در همه‌ی مدل‌های طبقه‌بندی مدرن (از شبکه‌های ساده تا ترنسفورمرها) استفاده می‌شود.

مثال ساده

فرض کنید یک مدل برای یک تصویر سه کلاس پیش‌بینی می‌کند:

کلاس A: 0.7
کلاس B: 0.2
کلاس C: 0.1

اگر برچسب واقعی کلاس A باشد، Cross-Entropy Loss مقدار کمی خواهد داشت چون مدل احتمال بالایی به کلاس درست داده است. اما اگر برچسب واقعی کلاس C باشد، Loss بزرگ خواهد شد چون مدل احتمال کمی به کلاس درست داده است.

نکته

Cross-Entropy Loss در واقع اطلاعات از دست‌رفته بین دو توزیع را اندازه‌گیری می‌کند. اگر مدل کاملاً درست پیش‌بینی کند، Loss برابر صفر خواهد بود. اگر مدل کاملاً اشتباه باشد، Loss بزرگ می‌شود.

کاربرد: پیش‌بینی توکن بعدی یا بازسازی بخش‌های حذف‌شده‌ی متن.

Cross-Entropy Loss (طبقه‌بندی چندکلاسه)

import torch
import torch.nn as nn
import matplotlib.pyplot as plt

# داده‌های فرضی: 50 نمونه، 3 کلاس
torch.manual_seed(0)
outputs = torch.randn(50, 3)  # logits
labels = torch.randint(0, 3, (50,))  # برچسب‌های واقعی

loss_fn = nn.CrossEntropyLoss()
loss = loss_fn(outputs, labels)
print("Cross-Entropy Loss:", loss.item())

# محاسبه احتمال‌ها
probs = torch.softmax(outputs, dim=1).detach().numpy()

# رسم نمودار احتمال‌های اولین 10 نمونه
plt.figure(figsize=(10,6))
for i in range(10):
    plt.bar([f"class {j}" for j in range(3)], probs[i], alpha=0.6, label=f"Sample {i+1}")
plt.title("Predicted Probabilities (first 10 samples)")
plt.ylabel("Probability")
plt.legend()
plt.show()

این کد یک مسئله‌ی طبقه‌بندی با ۳ کلاس و ۵۰ نمونه رو شبیه‌سازی می‌کنه.

برای هر نمونه، مدل خروجی خام (logits) تولید می‌کنه.
برچسب واقعی هر نمونه مشخصه (کلاس درست).
کد اختلاف بین پیش‌بینی مدل و برچسب واقعی رو محاسبه می‌کنه.
بعد احتمال هر کلاس برای چند نمونه‌ی اول محاسبه و به صورت نمودار میله‌ای نمایش داده می‌شه.
مقدار محاسبه : Cross-Entropy Loss: 1.3174546957015991

خروجی تصویری: نشان می‌دهد مدل برای هر نمونه چه احتمالاتی برای کلاس‌ها در نظر گرفته است.

2. Mean Squared Error (MSE)

برای وظایف رگرسیون یا پیش‌بینی مقادیر عددی.
مدل خروجی عددی تولید می‌کند و MSE اختلاف میانگین مربعی بین خروجی و مقدار واقعی را محاسبه می‌کند.

فرمول:

$\mathcal{L}_{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

پارامترها

(n): تعداد نمونه‌ها در مجموعه داده.
(y_i): مقدار واقعی یا همان ground truth برای نمونه (i).
(\hat{y}_i): مقدار پیش‌بینی‌شده توسط مدل برای نمونه (i).

توضیح

ابتدا اختلاف بین مقدار واقعی و پیش‌بینی‌شده محاسبه می‌شود. سپس این اختلاف به توان دو می‌رسد تا هم علامت منفی حذف شود و هم خطاهای بزرگ‌تر بیشتر جریمه شوند. در نهایت میانگین همه‌ی این خطاها گرفته می‌شود تا یک عدد کلی به‌عنوان معیار دقت مدل به دست آید. اگر MSE کوچک باشد، یعنی پیش‌بینی‌های مدل به طور میانگین نزدیک به مقادیر واقعی هستند. اگر بزرگ باشد، یعنی مدل در پیش‌بینی دچار خطاهای قابل توجه شده است.

کاربرد: پیش‌بینی ویژگی‌های پیوسته مثل امتیاز احساسات یا مقادیر عددی در داده‌های علمی.

Mean Squared Error (MSE)

import torch
import torch.nn as nn
import matplotlib.pyplot as plt

# داده‌های فرضی: 50 نمونه
torch.manual_seed(0)
preds = torch.randn(50)  # خروجی مدل
targets = torch.randn(50)  # مقادیر واقعی

loss_fn = nn.MSELoss()
loss = loss_fn(preds, targets)
print("MSE Loss:", loss.item())

# رسم مقایسه بین خروجی و مقدار واقعی
plt.figure(figsize=(10,6))
plt.plot(preds.numpy(), label="Predictions", marker='o')
plt.plot(targets.numpy(), label="Targets", marker='x')
plt.title("Predictions vs Targets")
plt.xlabel("Sample")
plt.ylabel("Value")
plt.legend()
plt.show()

این کد یک مسئله‌ی رگرسیون با ۵۰ نمونه رو شبیه‌سازی می‌کنه.

مدل برای هر نمونه یک مقدار عددی پیش‌بینی می‌کنه.
داده‌ی واقعی هم برای هر نمونه داریم.
کد اختلاف بین پیش‌بینی‌ها و داده‌های واقعی رو محاسبه می‌کنه.
سپس نمودار خطی رسم می‌شود که پیش‌بینی‌ها و مقادیر واقعی را کنار هم نشان می‌دهد.
مقدار محاسبه شده : MSE Loss: 2.2969024181365967

خروجی تصویری: نشان می‌دهد مدل چقدر به مقادیر واقعی نزدیک یا دور بوده است.

3. Binary Cross-Entropy (BCE)

برای وظایف طبقه‌بندی دودویی (مثلاً مثبت/منفی یا درست/غلط).

فرمول:

$Loss = - \frac{1}{n} \sum_{i=1}^{n} \Big[ y_i \cdot \log(p_i) + (1-y_i) \cdot \log(1-p_i) \Big]$

پارامترها

(n): تعداد نمونه‌ها در مجموعه داده.
(y_i): برچسب واقعی برای نمونه (i). این مقدار یا ۰ (کلاس منفی) یا ۱ (کلاس مثبت) است.
(p_i): احتمال پیش‌بینی‌شده توسط مدل برای نمونه (i) که بین ۰ و ۱ قرار دارد.

توضیح

این فرمول برای مسائل دودویی (دو کلاس) استفاده می‌شود. اگر برچسب واقعی برابر ۱ باشد، بخش اول فرمول یعنی (y_i \cdot \log(p_i)) فعال می‌شود و مدل باید احتمال بالایی برای کلاس مثبت بدهد تا Loss کوچک شود. اگر برچسب واقعی برابر ۰ باشد، بخش دوم فرمول یعنی ((1-y_i) \cdot \log(1-p_i)) فعال می‌شود و مدل باید احتمال کمی برای کلاس مثبت بدهد تا Loss کوچک شود.

به زبان ساده، BCE بررسی می‌کند که آیا مدل برای نمونه‌های مثبت احتمال نزدیک به ۱ و برای نمونه‌های منفی احتمال نزدیک به ۰ داده است یا نه. هرچه این پیش‌بینی‌ها دقیق‌تر باشند، مقدار Loss کمتر خواهد بود.

Binary Cross-Entropy معیار استاندارد برای آموزش مدل‌های دودویی است و به مدل یاد می‌دهد که احتمال درست برای کلاس مثبت یا منفی را پیش‌بینی کند.

کاربرد: تشخیص احساسات مثبت/منفی یا وجود/عدم وجود یک ویژگی خاص.

Binary Cross-Entropy (BCE)

import torch
import torch.nn as nn
import matplotlib.pyplot as plt

# داده‌های فرضی: 50 نمونه، خروجی بین 0 و 1
torch.manual_seed(0)
outputs = torch.sigmoid(torch.randn(50))  # احتمالات پیش‌بینی
labels = torch.randint(0, 2, (50,)).float()  # برچسب‌های واقعی

loss_fn = nn.BCELoss()
loss = loss_fn(outputs, labels)
print("Binary Cross-Entropy Loss:", loss.item())

# رسم نمودار مقایسه
plt.figure(figsize=(10,6))
plt.scatter(range(50), outputs.numpy(), label="Predicted Probabilities", color='blue')
plt.scatter(range(50), labels.numpy(), label="True Labels", color='red', marker='x')
plt.title("Predicted vs True Labels")
plt.xlabel("Sample")
plt.ylabel("Probability / Label")
plt.legend()
plt.show()

این کد یک مسئله‌ی دودویی (دو کلاس: ۰ یا ۱) با ۵۰ نمونه رو شبیه‌سازی می‌کنه.

مدل برای هر نمونه یک احتمال بین ۰ و ۱ تولید می‌کنه.
داده‌ی واقعی مشخص می‌کنه که نمونه مثبت (۱) یا منفی (۰) است.
کد اختلاف بین احتمال پیش‌بینی و برچسب واقعی رو محاسبه می‌کنه.
سپس نمودار پراکندگی رسم می‌شود که احتمال پیش‌بینی و برچسب واقعی را برای همه‌ی نمونه‌ها نشان می‌دهد.
مقدار محاسبه شده: Binary Cross-Entropy Loss: 0.8622072339057922

خروجی تصویری: نشان می‌دهد مدل برای نمونه‌های مثبت و منفی چه احتمالاتی داده و چقدر درست یا غلط بوده.

4. Contrastive Loss

برای یادگیری نمایش‌های معنایی (Representation Learning).
هدف: نزدیک کردن نمونه‌های مشابه و دور کردن نمونه‌های غیرمشابه.

فرمول:

$\mathcal{L}_{contrastive} = \frac{1}{2n} \sum_{i=1}^{n} \Big[ y_i \cdot D_i^2 + (1-y_i) \cdot \max(0, m - D_i)^2 \Big]$

پارامترها

(n): تعداد جفت نمونه‌ها در مجموعه داده.
(y_i): برچسب برای جفت نمونه (i). اگر دو نمونه مشابه باشند مقدار ۱ و اگر غیرمشابه باشند مقدار ۰ است.
(D_i): فاصله بین دو نمونه در جفت (i). این فاصله معمولاً با فاصله اقلیدسی بین بردارهای ویژگی محاسبه می‌شود.
(m): مقدار margin یا آستانه‌ای که تعیین می‌کند نمونه‌های غیرمشابه باید حداقل چه فاصله‌ای داشته باشند.

توضیح

Contrastive Loss برای آموزش مدل‌هایی استفاده می‌شود که باید تشابه یا عدم تشابه بین نمونه‌ها را یاد بگیرند. این تابع دو حالت دارد:

اگر دو نمونه مشابه باشند ((y_i=1))، Loss برابر با مربع فاصله بین آن‌هاست. یعنی مدل تشویق می‌شود نمونه‌های مشابه را به هم نزدیک کند.
اگر دو نمونه غیرمشابه باشند ((y_i=0))، Loss برابر با مربع ((m - D_i)) است، البته فقط وقتی که فاصله کمتر از margin باشد. یعنی مدل تشویق می‌شود نمونه‌های غیرمشابه را حداقل به اندازه margin از هم دور کند.

به زبان ساده، Contrastive Loss مدل را وادار می‌کند بردارهای مشابه نزدیک‌تر و بردارهای غیرمشابه دورتر باشند. این ویژگی در مسائل مثل تشخیص چهره، جستجوی تصویر و یادگیری نمایش‌ها بسیار کاربردی است.

Contrastive Loss یک ابزار کلیدی برای یادگیری نمایش‌های برداری است که بتوانند شباهت‌ها و تفاوت‌ها را به خوبی بازتاب دهند.

کاربرد: در مدل‌های Sentence-BERT برای یادگیری نمایش‌های معنایی جملات.

Contrastive Loss (نمایش‌های برداری)

import torch
import torch.nn as nn
import matplotlib.pyplot as plt

# داده‌های فرضی: 50 جفت نمونه
torch.manual_seed(0)
x1 = torch.randn(50, 5)
x2 = torch.randn(50, 5)
labels = torch.randint(0, 2, (50,))  # 1=مشابه، 0=غیرمشابه

# فاصله بین بردارها
distances = torch.norm(x1 - x2, dim=1)

# Contrastive Loss
margin = 1.0
losses = labels * distances**2 + (1-labels) * torch.clamp(margin - distances, min=0)**2
loss = losses.mean()
print("Contrastive Loss:", loss.item())

# رسم توزیع فاصله‌ها
plt.figure(figsize=(10,6))
plt.hist(distances[labels==1].numpy(), bins=10, alpha=0.6, label="Similar pairs")
plt.hist(distances[labels==0].numpy(), bins=10, alpha=0.6, label="Dissimilar pairs")
plt.title("Distribution of Distances")
plt.xlabel("Distance")
plt.ylabel("Count")
plt.legend()
plt.show()

این کد ۵۰ جفت نمونه رو شبیه‌سازی می‌کنه.

هر جفت نمونه یا مشابه هستند یا غیرمشابه.
فاصله‌ی برداری بین هر جفت محاسبه می‌شود.
کد اختلاف بین فاصله‌های مشابه و غیرمشابه را محاسبه می‌کند.
سپس نمودار هیستوگرام رسم می‌شود که توزیع فاصله‌ها را برای جفت‌های مشابه و غیرمشابه نشان می‌دهد.
مقدار محاسبه شده : Contrastive Loss: 3.8370351791381836

خروجی تصویری: نشان می‌دهد نمونه‌های مشابه معمولاً فاصله‌ی کمی دارند و نمونه‌های غیرمشابه فاصله‌ی بیشتری.

5. Triplet Loss

مشابه Contrastive Loss اما با سه نمونه: Anchor، Positive، Negative.
هدف: فاصله Anchor با Positive کمتر از فاصله Anchor با Negative باشد.

فرمول:

$\mathcal{L}_{triplet} = \frac{1}{n} \sum_{i=1}^{n} \max \big(0, D(a_i, p_i) - D(a_i, n_i) + m \big)$

پارامترها

(n): تعداد سه‌تایی‌ها (Triplets) در مجموعه داده.
(a_i): نمونه Anchor یا همان نقطه‌ی مرجع.
(p_i): نمونه Positive که باید به Anchor نزدیک باشد.
(n_i): نمونه Negative که باید از Anchor دور باشد.
(D(x,y)): فاصله بین دو نمونه (معمولاً فاصله اقلیدسی یا کسینوسی).
(m): مقدار margin یا آستانه‌ای که تعیین می‌کند فاصله Anchor-Positive باید حداقل به اندازه‌ی margin کمتر از فاصله Anchor-Negative باشد.
توضیح

Triplet Loss برای آموزش مدل‌هایی طراحی شده که باید نمایش‌های برداری (embeddings) را یاد بگیرند. ایده‌ی اصلی این است که برای هر Anchor، یک نمونه مشابه (Positive) و یک نمونه غیرمشابه (Negative) انتخاب می‌کنیم. مدل باید یاد بگیرد که فاصله Anchor-Positive کمتر از فاصله Anchor-Negative باشد، و این اختلاف حداقل به اندازه margin باشد.

اگر این شرط برقرار باشد، عبارت داخل max منفی می‌شود و Loss برابر صفر خواهد بود (یعنی مدل کارش را درست انجام داده). اگر شرط برقرار نباشد، Loss مثبت می‌شود و مدل باید وزن‌هایش را تغییر دهد تا نمایش‌ها اصلاح شوند.

به زبان ساده، Triplet Loss مدل را مجبور می‌کند بردارهای مشابه نزدیک‌تر و بردارهای غیرمشابه دورتر باشند، با یک فاصله‌ی ایمن (margin) بین آن‌ها. این ویژگی در مسائل مثل تشخیص چهره، جستجوی تصویر، و یادگیری نمایش‌های معنایی بسیار کاربردی است.

Triplet Loss یک ابزار قدرتمند برای یادگیری نمایش‌های برداری است که روابط شباهت و تفاوت را به‌طور دقیق‌تر از Contrastive Loss مدل‌سازی می‌کند.

کاربرد: یادگیری نمایش‌های معنایی دقیق‌تر در وظایف جستجو و تطبیق.

Triplet Loss (Anchor, Positive, Negative)

import torch
import torch.nn as nn
import matplotlib.pyplot as plt

# فرض: بردارهای Anchor, Positive, Negative
anchor = torch.tensor([[1.0, 2.0]])
positive = torch.tensor([[1.2, 2.1]])
negative = torch.tensor([[3.0, 4.0]])

# تعریف TripletMarginLoss
loss_fn = nn.TripletMarginLoss(margin=1.0, p=2)
loss = loss_fn(anchor, positive, negative)

print("Triplet Loss:", loss.item())

# رسم نقاط Anchor, Positive, Negative
points = {
    'Anchor': anchor[0].numpy(),
    'Positive': positive[0].numpy(),
    'Negative': negative[0].numpy()
}

colors = {'Anchor':'blue','Positive':'green','Negative':'red'}

plt.figure(figsize=(6,6))
for label, coord in points.items():
    plt.scatter(coord[0], coord[1], color=colors[label], s=100, label=label)
    plt.text(coord[0]+0.05, coord[1]+0.05, label, fontsize=12)

# رسم خطوط بین Anchor-Positive و Anchor-Negative
plt.plot([anchor[0][0], positive[0][0]], [anchor[0][1], positive[0][1]], 'g--')
plt.plot([anchor[0][0], negative[0][0]], [anchor[0][1], negative[0][1]], 'r--')

plt.title(f"Triplet Loss Example (Loss={loss.item():.4f})")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.grid(True)
plt.show()

نقاط Anchor (آبی)، Positive (سبز) و Negative (قرمز) روی نمودار دوبعدی رسم می‌شوند.
خط سبز فاصله Anchor تا Positive را نشان می‌دهد.
خط قرمز فاصله Anchor تا Negative را نشان می‌دهد.
تابع Triplet Loss تلاش می‌کند فاصله Anchor-Positive را کمتر از فاصله Anchor-Negative کند (با در نظر گرفتن margin).

جدول مقایسه توابع ضرر

تابع ضرر	فرمول	کاربرد اصلی	نکته کلیدی
Cross-Entropy Loss	(- \sum y_i \cdot \log(p_i))	طبقه‌بندی چندکلاسه	مدل را مجبور می‌کند احتمال کلاس درست را بالا ببرد
MSE Loss	(\frac{1}{n} \sum (y_i - \hat{y}_i)^2)	رگرسیون	به خطاهای بزرگ حساس است و میانگین فاصله پیش‌بینی‌ها را نشان می‌دهد
Binary Cross-Entropy (BCE)	(- \frac{1}{n} \sum [y_i \log(p_i) + (1-y_i)\log(1-p_i)])	طبقه‌بندی دودویی	بررسی می‌کند که مدل برای مثبت‌ها احتمال نزدیک ۱ و برای منفی‌ها احتمال نزدیک ۰ بدهد
Contrastive Loss	(\frac{1}{2n} \sum [y_i D_i^2 + (1-y_i)\max(0, m-D_i)^2])	یادگیری شباهت/عدم شباهت	نمونه‌های مشابه را نزدیک و غیرمشابه‌ها را دور نگه می‌دارد
Triplet Loss	(\frac{1}{n} \sum \max(0, D(a,p) - D(a,n) + m))	یادگیری نمایش‌های برداری	Anchor-Positive باید نزدیک‌تر از Anchor-Negative باشد با فاصله‌ی margin

منابع

موضوع	منبع	لینک
معماری ترنسفورمر	Vaswani et al. (2017). Attention Is All You Need. NeurIPS	Paper
مبانی توابع ضرر (Cross-Entropy, MSE)	Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press	Book
Cross-Entropy در ترنسفورمرها	Hackernoon. (2023). Cross-Entropy Loss Analysis in Transformer Networks	Article
Binary Cross-Entropy	Towards Data Science. (2023). Understanding Binary Cross-Entropy in Machine Learning	Article
Contrastive Loss	Hadsell, R., Chopra, S., & LeCun, Y. (2006). Dimensionality Reduction by Learning an Invariant Mapping. CVPR	Paper
Triplet Loss	Schroff, F., Kalenichenko, D., & Philbin, J. (2015). FaceNet: A Unified Embedding for Face Recognition and Clustering. CVPR	Paper

آشنایی با توابع ضرر استفاده شده در ترنسفورمر ها

Hadi Sadoghi Yazdi

آشنایی با توابع ضرر استفاده شده در ترنسفورمر ها

مقدمه

مروری بر معماری ترنسفورمر

اجزای اصلی ترنسفورمر

1. Encoder

2. Decoder

3. Self-Attention

4. Feed-Forward Networks

5. Position Encoding

ارتباط با تابع ضرر

نقش تابع ضرر در آموزش ترنسفورمر

انواع توابع ضرر در ترنسفورمرها

1. Cross-Entropy Loss (مدل‌های زبانی)

فرمول:

مفهوم اصلی

چرا مهم است؟

مثال ساده

نکته

Cross-Entropy Loss (طبقه‌بندی چندکلاسه)

2. Mean Squared Error (MSE)

فرمول:

پارامترها

توضیح

Mean Squared Error (MSE)

3. Binary Cross-Entropy (BCE)

فرمول:

پارامترها

توضیح

Binary Cross-Entropy (BCE)

4. Contrastive Loss

فرمول:

پارامترها

توضیح

Contrastive Loss (نمایش‌های برداری)

5. Triplet Loss

فرمول:

پارامترها

توضیح

Triplet Loss (Anchor, Positive, Negative)

جدول مقایسه توابع ضرر

منابع