بینایی–کنش؛ داستان دو مسیر در مغز
نویسنده: مهدیه ارغوانی
ایمیل : arghavany.ma@gmail.com
دانشگاه فردوسی مشهد دانشکده مهندسی گروه کامپیوتر
دانشجوی ارشد هوش مصنوعی دانشگاه فردوسی مشهد
بینایی کامپیوتر دکتر هادی صدوقی یزدی
بینایی–کنش؛ داستان دو مسیر در مغز
مسیرجدا در مغز
مغز انسان همیشه سادهتر از چیزی بوده که فکر میکردیم.ما گاهی سادگیاش، ما را گول میزند. وقتی یک لیوان آب را برمیداری، فکر میکنی یک کار ساده انجام دادهای:دیدى، دستت را حرکت دادی، برداشتی.اما در عمق مغزت دو جهان موازی در حال کار هستند.جهان اول مدام تکرار میکند: (این چیه؟ این چیه؟ این چیه؟) جهان دوم مدام تکرار میکند: (کجاست؟ چطور بردارمش؟ چطور بگیرمش؟) و تو هیچکدام را نمیفهمی. فقط لیوان را برمیداری.
مردی که می دید ولی نمی فهمید
او میتوانست عمل کند، اما نمیتوانست تشخیص دهد. انگار دو بخش از مغزش از هم جدا شده بودند: یکی برای «دیدن و حرکت» ، یکی برای «دیدن و فهمیدن» .
این اولین جرقه بود: در مغز دو مسیر وجود دارد.
داستان از جایی شروع شد که هیچکس انتظارش را نداشت. مردی که ضربهٔ محکمی به پشت سرش خورده بود، بعد از بههوشآمدن با یک جهان عجیب روبهرو شد.او میدید.رنگها را میدید، شکلها را میدید، مسیر دستش را تنظیم میکرد و دقیقاً به سمت شیء میرفت. اگر یک لیوان جلویش میگذاشتی، آن را برمیداشت. اما وقتی میپرسیدی: «چی برداشتی؟» مکث میکرد.نگاه میکرد و آرام میگفت: «نمیدونم… فقط میدونم اینجاست.»
آزمایش ماکاکها؛ جایی که مغز خودش را لو داد
وقتی بخش مربوط به «عمل» خاموش میشد: میمون میدانست موز چیست، اما نمیتوانست دستش را درست ببرد. زاویه را گم میکرد، فاصله را اشتباه میزد.
دو تصویر کنار هم قرار گرفتند: یکبار معنا بدون عمل، یکبار عمل بدون معنا.
این یعنی: مغز دو مسیر دارد یکی برای فهمیدن، یکی برای عمل.
چطور فهمیدند این دو مسیر واقعاً جدا هستند؟
دانشمندان رفتار مرد حادثهدیده،ماکاکهایی که معنا داشتند اما عمل نه، و ماکاکهایی که عمل داشتند اما معنا نه. را کنار هم گذاشتند. اگر فقط یک مسیر وجود داشت، همهچیز باید با هم خراب میشد.اما اینطور نبود. در یک حالت، «فهمیدن» خاموش بود و «عمل» زنده. در حالت دیگر، «عمل» خاموش بود و «فهمیدن» زنده. این تضاد، این دو نوع خاموشی، مثل دو چراغ بودند که مسیرها را روشن کردند.
دومسیر مغز
ساختار این دو مسیر در مغز
همهچیز از V1 شروع میشود؛ جایی که مغز فقط خطوط و لبهها را میبیند.از این نقطه، تصویر به دو مسیر جدا میرود:
مسیر شکمی – مسیر معنا
حرکت به سمت پایین و جلو. اینجا مغز مرحلهبهمرحله جهان را میسازد: خط → شکل → شیء → مفهوم → شناخت. این مسیر میگوید: «این چیه؟»
مسیر پشتی – مسیر عمل
حرکت به سمت بالا و بیرون.اینجا مغز یاد میگیرد: شیء کجاست؟ چطور باید دست را حرکت بدهم؟ چطور باید بگیرمش؟ این مسیر میگوید: «چطور باهاش کار کنم؟»
دو مسیر جدا،اما همیشه کنار هم. تو فقط لیوان را برمیداری،اما در عمق مغز،دو جهان جدا با هم هماهنگ میشوند.
چرا مدلهای هوش مصنوعی به یک معماری جدید نیاز داشتند؟
مدلهای قدیمی فقط میدیدند.تصویر را میگرفتند و میگفتند: «این گربه است.» «این لیوان است.» اما هیچوقت نمیتوانستند بگویند: «چطور لیوان را بردارم؟»
وقتی فهمیدند مغز دو مسیر جدا دارد،یک سؤال مهم مطرح شد: اگر مغز اینطور کار میکند،پس مدلهای ما چرا فقط میبینند؟ اینجا بود که ایدهٔ معماری جدید شکل گرفت: مدلی که فقط «دیدن» را یاد نگیرد، بلکه دیدن را به عمل وصل کند.
مدلهای قدیمی میدیدند، اما نمیفهمیدند چطور عمل کنند
معماری دیدن–عمل
پنج مرحلهٔ اصلی میخواهیم معماری بینایی–کنش را از لحاظ مفهومی بررسی کنیم. همانطور که مغز دو مسیر جدا دارد، این معماری هم دو مسیر مجزا اما هماهنگ دارد.
۱) رمزگذار بینایی – تبدیل پیکسلها به نمایش اولیه
ربات روبهروی یک لیوان ایستاده است. آنچه میبیند فقط پیکسلهای شیشهای است. اما مدل باید بفهمد:
· لبهها کجاست؟ · ارتفاع چقدر است؟ · موقعیت مکانی شیء کجاست؟
این مرحله، تصویر خام را به یک «نمایش میانی» تبدیل میکند؛ نمایشی که هم برای فهمیدن قابل استفاده است، هم برای عمل.
۲) مسیر فهمیدن – از نمایش تا شناخت
این مسیر همان مسیر شکمی مغز است.نمایش میانی را میگیرد و مرحلهبهمرحله به معنا تبدیل میکند: · شکلها را تشخیص میدهد · اشیاء را دستهبندی میکند · مفاهیم را میسازد
نتیجه: «این یک لیوان است.» «این یک میز است.» «لیوان پر از آب است.»
۳) مسیر عمل – از نمایش تا حرکت
این مسیر همان مسیر پشتی مغز است. نمایش میانی را میگیرد و برای عمل آماده میکند:
· موقعیت مکانی شیء را مشخص میکند · زاویهٔ دست را محاسبه میکند · فاصله را اندازه میگیرد · نیروی لازم را تخمین میزند
نتیجه: «لیوان ۳۰ سانتمتر جلوتر است.» «باید دست را ۴۵ درجه بچرخانی.» «با این زاویه باید بگیری.»
۴) فضای میانی – جایی که دو مسیر به هم میرسند
مهمترین بخش این معماری، «فضای میانی» است. جایی که:
· مسیر فهمیدن از آن تغذیه میکند · مسیر عمل از آن تغذیه میکند · هر دو مسیر روی یک نمایش مشترک کار میکنند
این فضا مثل یک نقشهٔ کامل از جهان است: هم معنا را دارد، هم مکان را. هم شناخت را دارد، هم امکان عمل را.
۵) پیشبینی آینده و تولید حرکت
حالا نوبت تصمیمگیری است. مدل باید پیشبینی کند:
· اگر دستم را اینطور حرکت دهم، چه اتفاقی میافتد؟ · اگر لیوان را بگیرم، چطور جابهجا میشود؟ · چه توالی از حرکات به هدف میرسد؟
این مرحله، آینده را شبیهسازی میکند و بهترین مسیر حرکت را انتخاب میکند.
سپس حرکت واقعی تولید میشود: زاویهٔ مفصلها، سرعت حرکت، ترتیب اقدامات.
چرخهٔ کامل دیدن–عمل
این معماری یک چرخه است، نه یک خط مستقیم.
ربات عمل را انجام میدهد: دست را حرکت میدهد، لیوان را میگیرد.
اما کار تمام نمیشود. او دوباره محیط را میبیند:
· آیا لیوان را درست گرفتم؟ · آیا نزدیکتر شدم به هدف؟ · آیا باید حرکت بعدی را اصلاح کنم؟
این چرخه تا رسیدن به هدف ادامه پیدا میکند.
مثال ساده: ربات و لیوان
فرض کن یک ربات جلوی یک میز ایستاده و روی میز یک لیوان است.
مرحله ۱ – دیدن ربات به لیوان نگاه میکند. رمزگذار بینایی پیکسلها را به نمایش میانی تبدیل میکند.
مرحله ۲ – فهمیدن مسیر فهمیدن میگوید: «این یک لیوان است. ارتفاعش ۱۵ سانت است.»
مرحله ۳ – مکانیابی برای عمل مسیر عمل میگوید: «لیوان ۳۰ سانت جلوتر است. دستگیره سمت راست است.»
مرحله ۴ – تصمیمگیری فضای میانی این دو را کنار هم میگذارد. مدل پیشبینی میکند: اگر دست را با زاویه ۴۰ درجه حرکت دهم، لیوان را میگیرم.
مرحله ۵ – عمل ربات دست را حرکت میدهد، لیوان را میگیرد.
مرحله ۶ – دیدن دوباره ربات نگاه میکند: «لیوان در دستم است. کار تمام شد.»
در ظاهر ساده است، اما در عمق مدل، دو مسیر جدا دو کار جدا در یک لحظه با هم هماهنگ شدند.
چرا این معماری مهم است؟
زیرا جهان واقعی فقط برای شناخت ساخته نشده. جهان برای عمل ساخته شده.ما اشیاء را نمیشناسیم فقط برای اینکه نامشان را بدانیم.ما میشناسیم تا بتوانیم با آنها کار کنیم.
مدلهای قدیمی فقط نیمی از کار را انجام میدادند: نیمی از آنچه مغز انجام میدهد.
معماری دیدن–عمل،نیمهٔ گمشده را به هوش مصنوعی اضافه میکند: توانایی تبدیل دیدن به انجام دادن.
** واین آغاز به وجود آمدن vla است؟**
اگر می خواهید vla را یادبگیرید کلیک کنید </a
کاربردها: از ربات خانگی تا جراح رباتیک
هرجا لازم باشد:
· محیط دیده شود · و بر اساس دیدن، عمل مناسبی انجام شود
معماری دیدن–عمل میتواند نقشآفرینی کند.
ربات خانگی: اتاق را میبیند، اشیاء را تشخیص میدهد، آنها را مرتب میکند.
ربات کشاورزی: باغ را میبیند، میوههای رسیده را تشخیص میدهد، آنها را میچیند.
ربات جراح: تصویر را میبیند، بافت بیمار را تشخیص میدهد، ابزار را دقیق حرکت میدهد.
رباط امدادگر: محیط آتشگرفته را میبیند، انسان را تشخیص میدهد، مسیر امن را انتخاب میکند، او را نجات میدهد.