تمرین پایتون
کاهش بُعد (Dimension Reduction) در یادگیری ماشین: PCA و LDA
وقتی دادههای زیادی داریم با ویژگیهای فراوان، پردازش و یادگیری مدلها سخت و زمانبر میشود. علاوه بر آن، ویژگیهای زیاد میتوانند باعث کاهش دقت مدل و ایجاد سر و صدا (نویز) شوند. برای رفع این مشکل از روش کاهش بُعد استفاده میکنیم، یعنی سعی میکنیم دادهها را به شکل خلاصهتر و با تعداد ویژگیهای کمتر اما اطلاعات مهم حفظ شده، نمایش دهیم.
دو روش مشهور برای این کار در یادگیری ماشین وجود دارد: تحلیل مؤلفههای اصلی (PCA) و تحلیل تفکیکی خطی (LDA).
تحلیل مؤلفههای اصلی (PCA)
PCA یک روش بدون نظارت است که فقط به دادهها نگاه میکند، بدون توجه به اینکه هر داده متعلق به کدام دسته است.
نحوه کار PCA:
فرض کن دادهها در یک فضای چندبعدی قرار دارند. PCA سعی میکند جهتهایی را پیدا کند که بیشترین پراکندگی یا واریانس دادهها در آنها باشد. این جهتها به صورت مؤلفههای اصلی معرفی میشوند. سپس دادهها به این مؤلفهها نگاشت میشوند تا ابعادشان کاهش یابد.
مثلاً در تحلیل عکسهای چهره، هر تصویر هزاران پیکسل دارد. PCA میتواند این هزاران ویژگی را به چند صد مؤلفه تبدیل کند که بیشترین اطلاعات تصویر را حفظ میکنند. به این روش میتوان تصاویر را فشرده و قابل مدیریتتر کرد.
مزایای PCA:
- ساده و سریع اجرا میشود.
- نویز و دادههای غیرضروری را تا حد زیادی حذف میکند.
- درک بهتری از ساختار دادهها فراهم میکند.
- امکان کاهش ابعاد به شکل خطی و حفظ واریانس را دارد.
معایب PCA:
- به برچسب دادهها توجه نمیکند، بنابراین ویژگیهایی که برای طبقهبندی مهم هستند ممکن است حذف شوند.
- فقط روابط خطی بین ویژگیها را در نظر میگیرد و قادر به مدلکردن روابط پیچیدهتر نیست.
- ممکن است بعد از کاهش ابعاد، تفسیر ویژگیهای جدید دشوار شود.