بینایی–کنش؛ داستان دو مسیر در مغز


STFT-overview
va_1

نویسنده: مهدیه ارغوانی

ایمیل : arghavany.ma@gmail.com

دانشگاه فردوسی مشهد دانشکده مهندسی گروه کامپیوتر


دانشجوی ارشد هوش‌ مصنوعی دانشگاه فردوسی مشهد
بینایی کامپیوتر دکتر هادی صدوقی یزدی


بینایی–کنش؛ داستان دو مسیر در مغز


va_2
مغز برای دیدن و عمل، دو مسیر جدا دارد

مسیرجدا در مغز

مغز انسان همیشه ساده‌تر از چیزی بوده که فکر می‌کردیم.ما گاهی سادگی‌اش، ما را گول می‌زند. وقتی یک لیوان آب را برمی‌داری، فکر می‌کنی یک کار ساده انجام داده‌ای:دیدى، دستت را حرکت دادی، برداشتی.اما در عمق مغزت دو جهان موازی در حال کار هستند.جهان اول مدام تکرار می‌کند: (این چیه؟ این چیه؟ این چیه؟) جهان دوم مدام تکرار می‌کند: (کجاست؟ چطور بردارمش؟ چطور بگیرمش؟) و تو هیچ‌کدام را نمی‌فهمی. فقط لیوان را برمی‌داری.

مردی که می دید ولی نمی فهمید

او می‌توانست عمل کند، اما نمی‌توانست تشخیص دهد. انگار دو بخش از مغزش از هم جدا شده بودند: یکی برای «دیدن و حرکت» ، یکی برای «دیدن و فهمیدن» .

این اولین جرقه بود: در مغز دو مسیر وجود دارد.

داستان از جایی شروع شد که هیچ‌کس انتظارش را نداشت. مردی که ضربهٔ محکمی به پشت سرش خورده بود، بعد از به‌هوش‌آمدن با یک جهان عجیب روبه‌رو شد.او می‌دید.رنگ‌ها را می‌دید، شکل‌ها را می‌دید، مسیر دستش را تنظیم می‌کرد و دقیقاً به سمت شیء می‌رفت. اگر یک لیوان جلویش می‌گذاشتی، آن را برمی‌داشت. اما وقتی می‌پرسیدی: «چی برداشتی؟» مکث می‌کرد.نگاه می‌کرد و آرام می‌گفت: «نمی‌دونم… فقط می‌دونم اینجاست.»

va_3
اون وسیله چیه

آزمایش ماکاک‌ها؛ جایی که مغز خودش را لو داد

وقتی بخش مربوط به «عمل» خاموش می‌شد: میمون می‌دانست موز چیست، اما نمی‌توانست دستش را درست ببرد. زاویه را گم می‌کرد، فاصله را اشتباه می‌زد.

دو تصویر کنار هم قرار گرفتند: یک‌بار معنا بدون عمل، یک‌بار عمل بدون معنا.

این یعنی: مغز دو مسیر دارد یکی برای فهمیدن، یکی برای عمل.

va_4
میمون ماکاک

چطور فهمیدند این دو مسیر واقعاً جدا هستند؟

دانشمندان رفتار مرد حادثه‌دیده،ماکاک‌هایی که معنا داشتند اما عمل نه، و ماکاک‌هایی که عمل داشتند اما معنا نه. را کنار هم گذاشتند. اگر فقط یک مسیر وجود داشت، همه‌چیز باید با هم خراب می‌شد.اما این‌طور نبود. در یک حالت، «فهمیدن» خاموش بود و «عمل» زنده. در حالت دیگر، «عمل» خاموش بود و «فهمیدن» زنده. این تضاد، این دو نوع خاموشی، مثل دو چراغ بودند که مسیرها را روشن کردند.

دومسیر مغز

ساختار این دو مسیر در مغز

همه‌چیز از V1 شروع می‌شود؛ جایی که مغز فقط خطوط و لبه‌ها را می‌بیند.از این نقطه، تصویر به دو مسیر جدا می‌رود:

مسیر شکمی – مسیر معنا

حرکت به سمت پایین و جلو. اینجا مغز مرحله‌به‌مرحله جهان را می‌سازد: خط → شکل → شیء → مفهوم → شناخت. این مسیر می‌گوید: «این چیه؟»

va_5
مسیر شکمی

مسیر پشتی – مسیر عمل

حرکت به سمت بالا و بیرون.اینجا مغز یاد می‌گیرد: شیء کجاست؟ چطور باید دست را حرکت بدهم؟ چطور باید بگیرمش؟ این مسیر می‌گوید: «چطور باهاش کار کنم؟»

va_6
مسیر پشتی

دو مسیر جدا،اما همیشه کنار هم. تو فقط لیوان را برمی‌داری،اما در عمق مغز،دو جهان جدا با هم هماهنگ می‌شوند.

چرا مدل‌های هوش مصنوعی به یک معماری جدید نیاز داشتند؟

مدل‌های قدیمی فقط می‌دیدند.تصویر را می‌گرفتند و می‌گفتند: «این گربه است.» «این لیوان است.» اما هیچ‌وقت نمی‌توانستند بگویند: «چطور لیوان را بردارم؟»

وقتی فهمیدند مغز دو مسیر جدا دارد،یک سؤال مهم مطرح شد: اگر مغز این‌طور کار می‌کند،پس مدل‌های ما چرا فقط می‌بینند؟ اینجا بود که ایدهٔ معماری جدید شکل گرفت: مدلی که فقط «دیدن» را یاد نگیرد، بلکه دیدن را به عمل وصل کند.

مدل‌های قدیمی می‌دیدند، اما نمی‌فهمیدند چطور عمل کنند

va_7
چطور لیوان رو بردارم

معماری دیدن–عمل

پنج مرحلهٔ اصلی می‌خواهیم معماری بینایی–کنش را از لحاظ مفهومی بررسی کنیم. همان‌طور که مغز دو مسیر جدا دارد، این معماری هم دو مسیر مجزا اما هماهنگ دارد.

۱) رمزگذار بینایی – تبدیل پیکسل‌ها به نمایش اولیه

ربات روبه‌روی یک لیوان ایستاده است. آنچه می‌بیند فقط پیکسل‌های شیشه‌ای است. اما مدل باید بفهمد:

· لبه‌ها کجاست؟ · ارتفاع چقدر است؟ · موقعیت مکانی شیء کجاست؟

این مرحله، تصویر خام را به یک «نمایش میانی» تبدیل می‌کند؛ نمایشی که هم برای فهمیدن قابل استفاده است، هم برای عمل.

۲) مسیر فهمیدن – از نمایش تا شناخت

این مسیر همان مسیر شکمی مغز است.نمایش میانی را می‌گیرد و مرحله‌به‌مرحله به معنا تبدیل می‌کند: · شکل‌ها را تشخیص می‌دهد · اشیاء را دسته‌بندی می‌کند · مفاهیم را می‌سازد

نتیجه: «این یک لیوان است.» «این یک میز است.» «لیوان پر از آب است.»

va_8
لیوان پر از آب است

۳) مسیر عمل – از نمایش تا حرکت

این مسیر همان مسیر پشتی مغز است. نمایش میانی را می‌گیرد و برای عمل آماده می‌کند:

· موقعیت مکانی شیء را مشخص می‌کند · زاویهٔ دست را محاسبه می‌کند · فاصله را اندازه می‌گیرد · نیروی لازم را تخمین می‌زند

نتیجه: «لیوان ۳۰ سانت‌متر جلوتر است.» «باید دست را ۴۵ درجه بچرخانی.» «با این زاویه باید بگیری.»

۴) فضای میانی – جایی که دو مسیر به هم می‌رسند

مهم‌ترین بخش این معماری، «فضای میانی» است. جایی که:

· مسیر فهمیدن از آن تغذیه می‌کند · مسیر عمل از آن تغذیه می‌کند · هر دو مسیر روی یک نمایش مشترک کار می‌کنند

این فضا مثل یک نقشهٔ کامل از جهان است: هم معنا را دارد، هم مکان را. هم شناخت را دارد، هم امکان عمل را.

۵) پیش‌بینی آینده و تولید حرکت

حالا نوبت تصمیم‌گیری است. مدل باید پیش‌بینی کند:

· اگر دستم را این‌طور حرکت دهم، چه اتفاقی می‌افتد؟ · اگر لیوان را بگیرم، چطور جابه‌جا می‌شود؟ · چه توالی از حرکات به هدف می‌رسد؟

این مرحله، آینده را شبیه‌سازی می‌کند و بهترین مسیر حرکت را انتخاب می‌کند.

سپس حرکت واقعی تولید می‌شود: زاویهٔ مفصل‌ها، سرعت حرکت، ترتیب اقدامات.

va_9
مسیرهای بینایی در مغز

چرخهٔ کامل دیدن–عمل

این معماری یک چرخه است، نه یک خط مستقیم.

ربات عمل را انجام می‌دهد: دست را حرکت می‌دهد، لیوان را می‌گیرد.

اما کار تمام نمی‌شود. او دوباره محیط را می‌بیند:

· آیا لیوان را درست گرفتم؟ · آیا نزدیک‌تر شدم به هدف؟ · آیا باید حرکت بعدی را اصلاح کنم؟

این چرخه تا رسیدن به هدف ادامه پیدا می‌کند.

va_10
چرخهٔ ادراک–کنش: دیدن، عمل، دیدن دوباره

مثال ساده: ربات و لیوان

فرض کن یک ربات جلوی یک میز ایستاده و روی میز یک لیوان است.

مرحله ۱ – دیدن ربات به لیوان نگاه می‌کند. رمزگذار بینایی پیکسل‌ها را به نمایش میانی تبدیل می‌کند.

مرحله ۲ – فهمیدن مسیر فهمیدن می‌گوید: «این یک لیوان است. ارتفاعش ۱۵ سانت است.»

مرحله ۳ – مکان‌یابی برای عمل مسیر عمل می‌گوید: «لیوان ۳۰ سانت جلوتر است. دستگیره سمت راست است.»

مرحله ۴ – تصمیم‌گیری فضای میانی این دو را کنار هم می‌گذارد. مدل پیش‌بینی می‌کند: اگر دست را با زاویه ۴۰ درجه حرکت دهم، لیوان را می‌گیرم.

مرحله ۵ – عمل ربات دست را حرکت می‌دهد، لیوان را می‌گیرد.

مرحله ۶ – دیدن دوباره ربات نگاه می‌کند: «لیوان در دستم است. کار تمام شد.»

در ظاهر ساده است، اما در عمق مدل، دو مسیر جدا دو کار جدا در یک لحظه با هم هماهنگ شدند.

va_11
ربات لیوان را برمی‌دارد: یک چرخهٔ کامل دیدن–عمل

چرا این معماری مهم است؟

زیرا جهان واقعی فقط برای شناخت ساخته نشده. جهان برای عمل ساخته شده.ما اشیاء را نمی‌شناسیم فقط برای اینکه نامشان را بدانیم.ما می‌شناسیم تا بتوانیم با آنها کار کنیم.

مدل‌های قدیمی فقط نیمی از کار را انجام می‌دادند: نیمی از آنچه مغز انجام می‌دهد.

معماری دیدن–عمل،نیمهٔ گمشده را به هوش مصنوعی اضافه می‌کند: توانایی تبدیل دیدن به انجام دادن.

** واین آغاز به وجود آمدن vla است؟**

اگر می خواهید vla را یادبگیرید کلیک کنید </a

کاربردها: از ربات خانگی تا جراح رباتیک

هرجا لازم باشد:

· محیط دیده شود · و بر اساس دیدن، عمل مناسبی انجام شود

معماری دیدن–عمل می‌تواند نقش‌آفرینی کند.

ربات خانگی: اتاق را می‌بیند، اشیاء را تشخیص می‌دهد، آنها را مرتب می‌کند.

ربات کشاورزی: باغ را می‌بیند، میوه‌های رسیده را تشخیص می‌دهد، آنها را می‌چیند.

ربات جراح: تصویر را می‌بیند، بافت بیمار را تشخیص می‌دهد، ابزار را دقیق حرکت می‌دهد.

رباط امدادگر: محیط آتش‌گرفته را می‌بیند، انسان را تشخیص می‌دهد، مسیر امن را انتخاب می‌کند، او را نجات می‌دهد.

برای مطالعه بیشتر