مولف-دکتر علیرضا مهرابی
صورت مسئله
میخواهیم نسبت زیر را محاسبه کنیم:
\[\frac{ \int_{-\infty}^{\infty} \mu \, f(\mu \mid x_1,x_2,\dots,x_N)\, d\mu }{ \int_{-\infty}^{\infty} f(\mu \mid x_1,x_2,\dots,x_N)\, d\mu }\]فرض میکنیم:
\[\mu \sim \mathcal{N}(\mu_0,\sigma_0^2)\]و دادهها مستقل بوده و
\[x_i = \mu + \eta\]که در آن
\[\eta \sim \mathcal{N}(0,\sigma_n^2)\]در نتیجه
\[x_i \mid \mu \sim \mathcal{N}(\mu,\sigma_n^2)\]محاسبه انتگرال صورت
داریم
\[A = \int_{-\infty}^{\infty} \mu \frac{1}{(\sqrt{2\pi}\sigma_n)^N} e^{-\frac{\sum_{i=1}^N(\mu-x_i)^2}{2\sigma_n^2}} \frac{1}{\sqrt{2\pi}\sigma_0} e^{-\frac{(\mu-\mu_0)^2}{2\sigma_0^2}} d\mu\]ابتدا ثابتها را خارج میکنیم:
\[A = \frac{1}{(\sqrt{2\pi}\sigma_n)^N \sqrt{2\pi}\sigma_0} \int_{-\infty}^{\infty} \mu \exp\left( -\frac{\sum_{i=1}^N(\mu-x_i)^2}{2\sigma_n^2} -\frac{(\mu-\mu_0)^2}{2\sigma_0^2} \right) d\mu\]بسط مجموع مربعات
\[\sum_{i=1}^N (\mu-x_i)^2 = \sum_{i=1}^N (\mu^2 - 2\mu x_i + x_i^2) = N\mu^2 - 2\mu \sum x_i + \sum x_i^2\]جایگذاری:
\[A = \gamma \int \mu \exp\left( -\alpha \mu^2 + \beta \mu - \text{const} \right) d\mu\]تعریف ضرایب
تعریف میکنیم
\[\gamma = \frac{1}{(\sqrt{2\pi}\sigma_n)^N \sqrt{2\pi}\sigma_0} \exp\left( -\frac{\sigma_0^2\sum x_i^2 + \sigma_n^2\mu_0^2}{2\sigma_n^2\sigma_0^2} \right)\] \[\alpha = \frac{1}{2} \left( \frac{N}{\sigma_n^2} + \frac{1}{\sigma_0^2} \right)\] \[\beta = \frac{\sum x_i}{\sigma_n^2} + \frac{\mu_0}{\sigma_0^2}\]پس
\[A = \gamma \int_{-\infty}^{\infty} \mu e^{-\alpha \mu^2 + \beta \mu} d\mu\]کامل کردن مربع
\[-\alpha \mu^2 + \beta \mu = -\alpha \left( \mu^2 - \frac{\beta}{\alpha}\mu \right)\]$$
-\alpha \left( (\mu-\frac{\beta}{2\alpha})^2 - \frac{\beta^2}{4\alpha^2} \right) $$
$$
-\alpha(\mu-\frac{\beta}{2\alpha})^2 + \frac{\beta^2}{4\alpha} $$
پس
\[A = \gamma e^{\frac{\beta^2}{4\alpha}} \int \mu e^{-\alpha(\mu-\frac{\beta}{2\alpha})^2} d\mu\]تغییر متغیر
\[u = \mu - \frac{\beta}{2\alpha}\] \[\mu = u + \frac{\beta}{2\alpha}\]جایگذاری:
\[A = \gamma e^{\frac{\beta^2}{4\alpha}} \int \left(u + \frac{\beta}{2\alpha}\right) e^{-\alpha u^2} du\]تجزیه انتگرال
\[A = \gamma e^{\frac{\beta^2}{4\alpha}} \left[ \int u e^{-\alpha u^2} du + \frac{\beta}{2\alpha} \int e^{-\alpha u^2} du \right]\]تابع اول فرد است:
\[\int_{-\infty}^{\infty} u e^{-\alpha u^2} du = 0\]پس
\[A = \gamma e^{\frac{\beta^2}{4\alpha}} \frac{\beta}{2\alpha} \int_{-\infty}^{\infty} e^{-\alpha u^2} du\]انتگرال گاوسی
میدانیم:
\[\int_{-\infty}^{\infty} e^{-\alpha u^2} du = \sqrt{\frac{\pi}{\alpha}}\]پس
\[A = \gamma e^{\frac{\beta^2}{4\alpha}} \frac{\beta}{2\alpha} \sqrt{\frac{\pi}{\alpha}}\]محاسبه مخرج
مشابه قبل:
\[C = \gamma e^{\frac{\beta^2}{4\alpha}} \int_{-\infty}^{\infty} e^{-\alpha u^2} du\] \[C = \gamma e^{\frac{\beta^2}{4\alpha}} \sqrt{\frac{\pi}{\alpha}}\]نسبت نهایی
\[\frac{A}{C} = \frac{ \gamma e^{\frac{\beta^2}{4\alpha}} \frac{\beta}{2\alpha} \sqrt{\frac{\pi}{\alpha}} }{ \gamma e^{\frac{\beta^2}{4\alpha}} \sqrt{\frac{\pi}{\alpha}} }\]سادهسازی:
\[\boxed{ \frac{A}{C} = \frac{\beta}{2\alpha} }\]جایگذاری ضرایب
\[\frac{A}{C} = \frac{ \frac{\sum x_i}{\sigma_n^2} + \frac{\mu_0}{\sigma_0^2} }{ \frac{N}{\sigma_n^2} + \frac{1}{\sigma_0^2} }\]فرم نهایی ساده
اگر
\[\bar{x} = \frac1N \sum x_i\]آنگاه
\[\boxed{ \frac{A}{C} = \frac{ \frac{N}{\sigma_n^2}\bar{x} + \frac{1}{\sigma_0^2}\mu_0 }{ \frac{N}{\sigma_n^2} + \frac{1}{\sigma_0^2} } }\]نتیجه
این مقدار دقیقاً میانگین توزیع پسین است:
\[\frac{A}{C} = \mathbb{E}[\mu \mid x]\]تحلیلهای علمی تکمیلی و تفسیر آماری
در این بخش، نتایج بهدستآمده را از دیدگاه بیزی، آماری و یادگیری ماشین تفسیر میکنیم تا درک عمیقتری از فرمول نهایی حاصل شود.
۱) بازنویسی تخمین پسین به صورت ترکیب وزندار (Shrinkage Form)
میانگین پسین را به دست آوردیم:
\[\mathbb{E}[\mu \mid x] = \frac{\frac{N}{\sigma_n^2}\bar{x} + \frac{1}{\sigma_0^2}\mu_0} {\frac{N}{\sigma_n^2} + \frac{1}{\sigma_0^2}}\]این رابطه را میتوان به شکل زیر نوشت:
\[\mathbb{E}[\mu \mid x] = w\,\bar{x} + (1-w)\mu_0\]که در آن
\[w = \frac{N\sigma_0^2}{N\sigma_0^2 + \sigma_n^2}\]تفسیر
- اگر دادهها زیاد باشند → وزن دادهها بیشتر میشود
- اگر نویز زیاد باشد → وزن پیشین بیشتر میشود
بنابراین:
تخمین بیزی میانگین، ترکیبی وزندار از «میانگین نمونه» و «اطلاعات پیشین» است.
این نوع تخمین در آمار با نام
Shrinkage Estimator
شناخته میشود.
۲) بررسی حالات حدی (Limiting Cases)
بررسی رفتار فرمول در شرایط مرزی، صحت فیزیکی و آماری آن را تأیید میکند.
حالت اول — تعداد داده زیاد
\[N \to \infty\]آنگاه
\[w \to 1 \quad \Rightarrow \quad \mathbb{E}[\mu|x] \to \bar{x}\]یعنی پیشین بیاثر میشود.
این نتیجه مطابق قانون اعداد بزرگ است.
حالت دوم — نویز بسیار زیاد
\[\sigma_n^2 \to \infty\] \[w \to 0 \quad \Rightarrow \quad \mathbb{E}[\mu|x] \to \mu_0\]یعنی دادهها غیرقابل اعتماد شده و تخمین فقط بر اساس prior انجام میشود.
حالت سوم — پیشین ضعیف (Non-informative prior)
\[\sigma_0^2 \to \infty\] \[\mathbb{E}[\mu|x] = \bar{x}\]که دقیقاً همان تخمین کلاسیک Maximum Likelihood (MLE) است.
۳) توزیع کامل پسین (نه فقط میانگین)
توزیع پسین همچنان گاوسی است:
\[p(\mu|x) = \mathcal{N}(\mu_{\text{post}}, \sigma_{\text{post}}^2)\]واریانس پسین
\[\sigma_{\text{post}}^2 = \left( \frac{N}{\sigma_n^2} + \frac{1}{\sigma_0^2} \right)^{-1}\]تفسیر
- با افزایش تعداد دادهها → واریانس کاهش مییابد
- عدم قطعیت تقریباً متناسب با $1/N$ کاهش مییابد
یعنی:
هرچه داده بیشتر، اطمینان آماری بیشتر
۴) فرم بهینهسازی معادل (دیدگاه Regularization)
بیشینهسازی پسین معادل کمینهسازی عبارت زیر است:
\[\sum_{i=1}^N (x_i-\mu)^2 + \lambda (\mu-\mu_0)^2\]که در آن
\[\lambda = \frac{\sigma_n^2}{\sigma_0^2}\]نتیجه مهم
این دقیقاً همان:
- Ridge Regression
- L2 Regularization
- Tikhonov Regularization
است.
بنابراین:
Gaussian prior ⇔ L2 penalty
این ارتباط یکی از اصول بنیادی یادگیری ماشین بیزی است.
۵) بازنویسی با مفهوم Precision
تعریف میکنیم:
\[\tau = \frac{1}{\sigma^2}\]که به آن Precision (دقت آماری) میگویند.
میانگین پسین
\[\mu_{\text{post}} = \frac{\tau_n N \bar{x} + \tau_0 \mu_0} {\tau_n N + \tau_0}\]واریانس پسین
\[\tau_{\text{post}} = \tau_n N + \tau_0\]تفسیر مهم
\[\text{posterior precision} = \text{prior precision} + \text{data precision}\]یعنی:
اطلاعات آماری جمع میشود.
این ویژگی پایهٔ نظری بسیاری از الگوریتمهای بیزی است.
۶) ارتباط با مدلهای پیشرفتهتر
همین نتیجهٔ ساده، پایهٔ ریاضی بسیاری از روشهای پیشرفته است:
- Bayesian Linear Regression
- Kalman Filter
- MAP Estimation
- Gaussian Processes
در واقع:
مسئلهٔ حاضر سادهترین نمونهٔ استنتاج بیزی پیوسته است.
جمعبندی
نتیجهٔ اصلی ما:
\[\mathbb{E}[\mu|x] = w\bar{x} + (1-w)\mu_0\]نشان میدهد که تخمین بیزی:
- داده و پیشین را ترکیب میکند
- دارای regularization طبیعی است
- عدم قطعیت را کمیسازی میکند
- و تعمیم مستقیم به مدلهای پیچیدهتر دارد
بنابراین این چارچوب از نظر آماری و یادگیری ماشین بسیار قدرتمندتر از تخمین کلاسیک میانگین است.