داده‌ها تنها زمانی به «طلای دیجیتال» تبدیل می‌شوند که بتوانیم آن‌ها را اکتساب، پردازش و مدیریت کنیم. یک مهندس هوش مصنوعی باید بر کل چرخه داده مسلط باشد - از منبع تولید داده تا آماده‌سازی برای مدل‌سازی. این فصل، نقشه جامعی از این چرخه ارائه می‌دهد.

دسته‌بندی جامع و تفصیلی ابزارهای پردازش داده

اکتساب داده (Data Acquisition)

  • کراولینگ و اسکرپینگ وب
    • Scrapy: فریم‌ورک جامع و scalable برای کراولینگ
    • BeautifulSoup: ابزار ساده و سریع برای پارسینگ HTML
    • Selenium: اتوماسیون وب برای سایت‌های مبتنی بر JavaScript
    • Apify: پلتفرم ابری برای کراولینگ حرفه‌ای
  • دریافت داده از سنسورها و سخت‌افزار
    • سنسورها و انواع آنها
    • LoRaWAN: برای ارتباطات بردبلند و کم‌مصرف
    • MQTT: پروتکل سبک‌وزن برای IoT
    • ROS (Robot Operating System): فریم‌ورک برای داده‌های رباتیک
    • PySerial: ارتباط با دستگاه‌های سریال (Arduino, GPS)
  • اتصال به APIها و سرویس‌های ابری
    • Requests: استاندارد طلایی برای درخواست‌های HTTP
    • Apache NiFi: اتوماسیون جریان‌های داده
    • Airbyte: پلتفرم متن‌باز ETL
  • ذخیره‌سازی داده (Data Storage) - بخش جدید
    • پایگاه‌های داده رابطه‌ای
    • PostgreSQL: پایگاه‌داده رابطه‌ای پیشرفته
    • SQLite: پایگاه‌داده سبک برای پروژه‌های کوچک
    • پایگاه‌های داده NoSQL
    • MongoDB: داکیومنت استور
    • Redis: پایگاه‌داده درون‌حافظه‌ای
  • Elasticsearch: موتور جستجو و تحلیل
    • ذخیره‌سازی ابری و فایل‌سیستم‌ها
    • AWS S3 / Google Cloud Storage
    • HDFS: برای داده‌های بسیار حجیم
    • Apache Iceberg: فرمت جدولی برای داده‌های حجیم

۱. ابزارهای محاسبات عددی و کار با آرایه‌ها

NumPy (پایه‌ای اساسی)

  • کاربرد اصلی: انجام عملیات ریاضی بر روی آرایه‌های n-بعدی
  • مزایا: جامعه بزرگ کاربری، یکپارچگی عالی با دیگر کتابخانه‌ها
  • معایب: محدود به پردازش CPU
Numpy subsection

بخش Numpy

JAX (محاسبات پیشرفته)

  • ویژگی‌های کلیدی:
    • تفکیک خودکار (Autograd)
    • کامپایل JIT (Just-In-Time)
    • پشتیبانی از TPU/GPU
  • کاربرد: پژوهش‌های پیشرفته، مدل‌های پیچیده

CuPy (شتاب GPU)

  • سینتکس مشابه NumPy
  • کارایی: سرعت 10-100 برابری در محاسبات ماتریسی
  • کاربرد: پردازش تصویر، شبکه‌های عصبی

۲. ابزارهای مدیریت و تحلیل داده‌های ساختاریافته

Pandas (استاندارد صنعتی)

  • ساختارهای داده: DataFrame, Series
  • قابلیت‌های کلیدی:
    • گروه‌بندی و تجمیع
    • مدیریت داده‌های گمشده
    • ادغام و اتصال داده‌ها
  • کاربرد: تحلیل اکتشافی داده (EDA)

Polars (جایگزین سریع)

  • معماری: اجرای موازی از ابتدا طراحی شده
  • مزیت: عملکرد برتر روی مجموعه داده‌های حجیم
  • سینتکس: مشابه Pandas با بهینه‌سازی‌های بیشتر

DuckDB (پایگاه داده درون‌حافظه‌ای)

  • ویژگی: اجرای مستقیم SQL روی DataFrameها
  • کاربرد: تحلیل تعاملی، جایگزین سبک‌وزن برای PostgreSQL

۳. ابزارهای استریمینگ و پردازش بلادرنگ

Apache Kafka (پلتفرم توزیع‌شده)

  • معماری: Publisher-Subscriber
  • مولفه‌ها: Producer, Consumer, Broker, Topic
  • کاربرد: سیستم‌های بلادرنگ، جمع‌آوری لاگ

Apache Pulsar (جایگزین مدرن)

  • مزایا نسبت به Kafka:
    • تأخیر کمتر
    • مدیریت ساده‌تر کلاستر
    • قابلیت geo-replication

Redis Streams (راه‌حل سبک‌وزن)

  • کاربرد: استریمینگ با حجم متوسط
  • مزیت: سادگی در راه‌اندازی و مدیریت

۴. ابزارهای ذخیره‌سازی و بازیابی بهینه

FAISS (جستجوی شباهت)

  • الگوریتم‌های پشتیبانی شده:
    • جستجوی k-NN
    • خوشه‌بندی
    • فشرده‌سازی بردار
  • کاربرد: سیستم‌های توصیه‌گر، جستجوی تصویر

Apache Arrow (فرمت حافظه‌ای)

  • هدف: حذف سربار سریال‌سازی
  • مزیت: اشتراک‌گذاری بدون کپی داده بین ابزارها

Apache Parquet (ذخیره‌سازی ستونی)

  • بهینه‌سازی: فشرده‌سازی عالی، بازیابی سریع ستون‌ها
  • کاربرد: داده‌های تحلیلی حجیم

۶. ابزارهای مصورسازی و گزارش‌گیری

Matplotlib (پایه‌ای)

  • انعطاف‌پذیری: کنترل کامل بر تمام عناصر نمودار
  • کاربرد: تولید publication-quality plots

Plotly (تعاملی)

  • مزیت: نمودارهای واکنش‌گرا، خروجی وب
  • کاربرد: داشبوردهای تعاملی

Seaborn (آماری)

  • تخصص: مصورسازی روابط آماری
  • مزیت: سینتکس ساده‌تر، ظاهر حرفه‌ای پیش‌فرض

    مانیتورینگ و observability

  • Prometheus: جمع‌آوری متریک
  • Grafana: نمایش و مانیتورینگ
  • ELK Stack: مانیتورینگ لاگ‌ها

کیفیت داده و اعتبارسنجی (Data Quality & Validation)

  • Great Expectations: اعتبارسنجی خودکار کیفیت داده
  • Pandas Schema: validation ساختار داده
  • Apache Griffin: پلتفرم سنجش کیفیت داده

متادیتا و Lineage (Metadata & Data Lineage)

  • Apache Atlas: مدیریت متادیتا و lineage
  • DataHub: پلتفرم catalog داده
  • MLflow: رهگیری آزمایش‌های ML

امنیت و حریم خصوصی (Data Security & Privacy)

  • PyCryptodome: رمزنگاری داده‌ها
  • Apache Ranger: مدیریت دسترسی
  • Presidio: anonymization داده‌های حساس