Data Preprocessing এবং Feature Engineering

Machine Learning - মেশিন লার্নিং (Machine Learning)

379

ডেটা প্রক্রিয়াকরণ এবং বৈশিষ্ট্য প্রকৌশল মেশিন লার্নিং প্রক্রিয়ার গুরুত্বপূর্ণ ধাপ। একটি মডেল তৈরি করার আগে, সঠিকভাবে ডেটা প্রস্তুত করা এবং প্রয়োজনীয় বৈশিষ্ট্য তৈরি করা অত্যন্ত জরুরি। এটি মডেলটিকে আরও কার্যকরী এবং নির্ভুলভাবে কাজ করতে সাহায্য করে।

১. ডেটা প্রক্রিয়াকরণ (Data Preprocessing)

ডেটা প্রক্রিয়াকরণ হলো সেই প্রক্রিয়া যেখানে কাঁচা ডেটাকে বিশ্লেষণযোগ্য এবং মডেল প্রশিক্ষণের জন্য উপযুক্ত করা হয়। ডেটার গুণগত মান উন্নত করতে এটি বিভিন্ন পদক্ষেপের মাধ্যমে সম্পন্ন করা হয়।

ডেটা প্রক্রিয়াকরণের প্রধান ধাপ:

ডেটা ক্লিনিং (Data Cleaning):
- অনুপস্থিত ডেটা (Missing Data): অনেক সময় ডেটাতে কিছু মান অনুপস্থিত থাকতে পারে। এটি মডেল প্রশিক্ষণের জন্য সমস্যা সৃষ্টি করতে পারে। অনুপস্থিত ডেটা পূরণ (Imputation) করা যেতে পারে বা ওই রেকর্ডগুলো বাদ দেওয়া যেতে পারে।
  - পদ্ধতি: গড়, মধ্যম মান বা অন্যান্য তথ্যের ভিত্তিতে পূরণ করা।
- আউটলায়ার (Outliers): কিছু ডেটা অস্বাভাবিকভাবে উচ্চ বা কম হতে পারে, যা মডেলকে বিভ্রান্ত করতে পারে। আউটলায়ারগুলি চিহ্নিত করে সেগুলি বাদ দেয়া বা সংশোধন করা যেতে পারে।
ডেটার মান প্রস্তাবনা (Data Standardization or Normalization):
- ডেটার পরিসর বা স্কেল অনেকটাই বিভিন্ন হতে পারে। একে মানকরণ (Standardization) বা সাধারণীকরণ (Normalization) করা হয় যাতে সব বৈশিষ্ট্য একটি সাধারণ পরিসরে আসে।
  - Normalization: সাধারণত 0 এবং 1 এর মধ্যে স্কেলিং করা হয়।
  - Standardization: ডেটার গড় মান ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১ করার মাধ্যমে স্কেল করা হয়।
ক্যাটেগরিক্যাল ডেটা হ্যান্ডলিং (Handling Categorical Data):
- কিছু বৈশিষ্ট্য ক্যাটেগরিক্যাল বা শ্রেণীভিত্তিক হতে পারে, যেমন "হ্যাঁ" বা "না", "পুরুষ" বা "মহিলা" ইত্যাদি। এই ধরনের ডেটা সংখ্যায় পরিণত করতে হয়, যেটি মডেল গ্রহণ করতে পারে। এই প্রক্রিয়ায় ওয়ান-হট এনকোডিং (One-hot Encoding) বা লেবেল এনকোডিং (Label Encoding) ব্যবহার করা হয়।
ডুপ্লিকেট ডেটা অপসারণ (Removing Duplicates):
- একই তথ্য একাধিকবার থাকতে পারে, যা মডেলকে বিভ্রান্ত করতে পারে। ডুপ্লিকেট রেকর্ডগুলো সরানো প্রয়োজন।
ডেটা রূপান্তর (Data Transformation):
- ডেটার নতুন রূপ তৈরি করতে যেমন লগ ট্রান্সফরমেশন বা পলিনোমিয়াল ট্রান্সফর্মেশন ব্যবহার করা হতে পারে। এটি ডেটাকে সঠিকভাবে মডেল প্রশিক্ষণের জন্য তৈরি করতে সহায়ক হতে পারে।

২. বৈশিষ্ট্য প্রকৌশল (Feature Engineering)

বৈশিষ্ট্য প্রকৌশল হলো এমন একটি প্রক্রিয়া, যার মাধ্যমে নতুন বৈশিষ্ট্য তৈরি করা হয় বা পুরনো বৈশিষ্ট্যগুলিকে রূপান্তরিত করা হয় যাতে মডেলটি আরও ভালো ফলাফল দিতে পারে। এটি মডেলের কার্যকারিতা বাড়ানোর জন্য অত্যন্ত গুরুত্বপূর্ণ।

বৈশিষ্ট্য প্রকৌশলের প্রধান পদক্ষেপ:

নতুন বৈশিষ্ট্য তৈরি (Feature Creation):
- কিছু ক্ষেত্রে নতুন বৈশিষ্ট্য তৈরি করা প্রয়োজন, যা মডেলটিকে সমস্যার আরও ভালো সমাধান দিতে সাহায্য করতে পারে।
  - উদাহরণ: বয়স এবং আয় থেকে বয়সের আয়ের অনুপাত তৈরি করা।
বৈশিষ্ট্য নির্বাচন (Feature Selection):
- কিছু বৈশিষ্ট্য মডেলের জন্য প্রাসঙ্গিক নয় বা অত্যন্ত কম তথ্য প্রদান করতে পারে। এই ধরনের বৈশিষ্ট্যগুলি বাদ দেয়া হয়, যা মডেলকে অপ্রয়োজনীয় জটিলতা তৈরি করতে পারে।
  - পদ্ধতি: করেলেশন ম্যাট্রিক্স (Correlation Matrix) ব্যবহার করে সম্পর্কহীন বৈশিষ্ট্য অপসারণ, গ্রেডিয়েন্ট বুস্টিং (Gradient Boosting) বা এলসটিক নেট (Elastic Net)।
বৈশিষ্ট্য রূপান্তর (Feature Transformation):
- বৈশিষ্ট্যগুলির স্কেল বা পরিসীমা পরিবর্তন করতে হয় যাতে মডেলটি তাদের থেকে ভাল ফলাফল পেতে পারে।
  - উদাহরণ: লগ ট্রান্সফরমেশন (যেমন, আয় বা দাম) অথবা পলিনোমিয়াল বৈশিষ্ট্য।
বৈশিষ্ট্য কোডিং (Feature Encoding):
- ওয়ান-হট এনকোডিং (One-hot Encoding): ক্যাটেগরিক্যাল বৈশিষ্ট্যকে সংখ্যায় রূপান্তর করা। যেমন, "পুরুষ" এবং "মহিলা" কে 0 এবং 1 এ রূপান্তর করা।
- লেবেল এনকোডিং (Label Encoding): ক্যাটেগরিক্যাল বৈশিষ্ট্যকে সংখ্যায় রূপান্তর করা, তবে একে একাধিক শ্রেণীতে কোড করা হয়।
বৈশিষ্ট্য স্কেলিং (Feature Scaling):
- কিছু বৈশিষ্ট্যের স্কেল খুব বড় হতে পারে যা মডেল প্রশিক্ষণের সময় সমস্যা সৃষ্টি করতে পারে। স্কেলিং করার মাধ্যমে সমস্ত বৈশিষ্ট্য একই স্কেলে নিয়ে আসা হয়।
  - পদ্ধতি: StandardScaler এবং MinMaxScaler।
বৈশিষ্ট্য ইন্টারঅ্যাকশন (Feature Interaction):
- কখনও কখনও বৈশিষ্ট্যগুলির মধ্যে সম্পর্ক বা ইন্টারঅ্যাকশন গুরুত্বপূর্ণ হতে পারে। বৈশিষ্ট্য ইন্টারঅ্যাকশন দ্বারা এই সম্পর্কগুলি তৈরি করা যেতে পারে।
  - উদাহরণ: "বয়স" এবং "আয়" এর ইন্টারঅ্যাকশন তৈরি করা।

সারাংশ

ডেটা প্রক্রিয়াকরণ ডেটার গুণগত মান বাড়াতে সাহায্য করে এবং এটি মডেলটিকে আরও কার্যকরীভাবে কাজ করতে সক্ষম করে।
বৈশিষ্ট্য প্রকৌশল একটি কৌশল যার মাধ্যমে ডেটার নতুন বৈশিষ্ট্য তৈরি করা হয় বা পুরনো বৈশিষ্ট্যগুলিকে পরিবর্তন করা হয় যাতে মডেল আরও ভালো পারফর্ম করতে পারে।

এই দুটি পদক্ষেপ মেশিন লার্নিং প্রক্রিয়ায় অত্যন্ত গুরুত্বপূর্ণ, কারণ সঠিকভাবে প্রক্রিয়াজাত ডেটা এবং বৈশিষ্ট্যগুলো মডেলের দক্ষতা এবং নির্ভুলতা বৃদ্ধিতে সহায়ক হতে পারে।

Content added By

SATT Academy

Data Collection এবং Cleaning Techniques

326

ডেটা সংগ্রহ এবং পরিস্কার (Data Collection and Cleaning) হল মেশিন লার্নিং বা ডেটা অ্যানালিটিক্সের প্রথম গুরুত্বপূর্ণ ধাপ। সঠিক ডেটা সংগ্রহ এবং পরিষ্কার করা না হলে, মডেল প্রশিক্ষণের জন্য ডেটার গুণগত মান কমে যেতে পারে, যা ফলস্বরূপ কম কার্যকরী মডেল তৈরি করে।

১. ডেটা সংগ্রহ (Data Collection)

ডেটা সংগ্রহ হল যে প্রক্রিয়ায় ডেটা বিভিন্ন উৎস থেকে একত্রিত করা হয়। সঠিকভাবে ডেটা সংগ্রহ করা খুবই গুরুত্বপূর্ণ, কারণ এটি মডেল প্রশিক্ষণের জন্য একটি শক্তিশালী ভিত্তি তৈরি করে।

ডেটা সংগ্রহের উৎস:

প্রথমিক উৎস (Primary Data):
- সোর্স: সার্ভে, প্রশ্নাবলী, সাক্ষাৎকার, সমীক্ষা ইত্যাদি।
- ব্যবহার: যখন নির্দিষ্ট তথ্য প্রাপ্তি প্রয়োজন এবং কোনো পূর্ববর্তী ডেটা নেই।
দ্বিতীয়ক উৎস (Secondary Data):
- সোর্স: বিদ্যমান ডেটাবেস, রিপোর্ট, গবেষণা পেপার, ওয়েবসাইট, পাবলিক ডেটা।
- ব্যবহার: যখন পূর্ববর্তী প্রাপ্ত ডেটা বা প্রকাশিত রিপোর্টগুলি ব্যবহার করা যায়।
ওয়েব স্ক্র্যাপিং (Web Scraping):
- সোর্স: ওয়েবসাইট থেকে স্বয়ংক্রিয়ভাবে ডেটা সংগ্রহ করা।
- ব্যবহার: যখন ওয়েবসাইটে থাকা তথ্য সংগৃহীত করতে হয়।
এপিআই (API):
- সোর্স: বিভিন্ন এপিআই থেকে ডেটা সংগ্রহ করা, যেমন: গুগল ম্যাপস, সোশ্যাল মিডিয়া প্ল্যাটফর্ম।
- ব্যবহার: ওয়েব অ্যাপ্লিকেশন বা মোবাইল অ্যাপ্লিকেশন থেকে ডেটা সংগ্রহ করা।

ডেটা সংগ্রহের চ্যালেঞ্জ:

ডেটার সঠিকতা: ডেটা সঠিক এবং পূর্ণাঙ্গ হতে হবে।
ডেটার অখণ্ডতা: সংগ্রহকৃত ডেটার মধ্যে কোন অপ্রয়োজনীয় বা ভুল তথ্য না থাকা উচিত।
ডেটার প্রবাহ: ডেটার গতিপথে বা উৎসে সমস্যা দেখা দিলে তা ডেটা সংগ্রহ প্রক্রিয়ায় বাধা সৃষ্টি করতে পারে।

২. ডেটা পরিস্কার (Data Cleaning)

ডেটা পরিস্কার হল এমন একটি প্রক্রিয়া, যেখানে সংগ্রহকৃত ডেটা থেকে অবাঞ্ছিত, অপ্রয়োজনীয় বা ভুল তথ্য সরানো হয়, যাতে এটি পরবর্তী বিশ্লেষণ বা মডেল প্রশিক্ষণের জন্য উপযুক্ত হয়।

ডেটা পরিস্কারের প্রধান কাজ:

অনুপস্থিত বা মিসিং ডেটা (Missing Data):
- অনেক সময় ডেটা সংগ্রহের সময়ে কিছু তথ্য অনুপস্থিত থাকতে পারে।
- সমাধান:
  - ইম্পুটেশন (Imputation): মিসিং ডেটার জন্য নির্দিষ্ট মান ব্যবহার করা (গড়, মধ্যম, পূর্বের মান ইত্যাদি)।
  - ড্রপ (Drop): যদি মিসিং ডেটার পরিমাণ বেশি হয়, তাহলে ওই রেকর্ডগুলো বাদ দেওয়া।
ডুপ্লিকেট রেকর্ড (Duplicate Records):
- কখনও কখনও একই রেকর্ড একাধিকবার থাকে।
- সমাধান: ডুপ্লিকেট রেকর্ডগুলো চিহ্নিত করে এবং সরিয়ে ফেলতে হবে।
আউটলিয়ার (Outliers):
- কিছু রেকর্ড অন্যান্য ডেটার তুলনায় খুবই বিচিত্র বা অস্বাভাবিক হতে পারে।
- সমাধান:
  - আউটলিয়ার শনাক্তকরণ: Box plot, Z-Score বা IQR ব্যবহার করে আউটলিয়ার শনাক্ত করা।
  - ড্রপ বা সংশোধন: আউটলিয়ার যদি ডেটার জন্য অযৌক্তিক হয়, তবে সেগুলো ড্রপ করা হয়।
ফরম্যাট সমস্যা (Format Issues):
- ডেটার ফরম্যাট একরকম না হলে (যেমন তারিখের ভিন্ন ভিন্ন ফরম্যাট), পরিস্কার করা প্রয়োজন।
- সমাধান: ডেটার ফরম্যাটগুলো একীভূত করতে হবে। যেমন, তারিখের সমস্ত ফরম্যাটকে একই স্টাইল (YYYY-MM-DD) এ রূপান্তরিত করা।
নতুন বৈশিষ্ট্য তৈরি (Feature Engineering):
- নতুন এবং কার্যকরী বৈশিষ্ট্য তৈরি করা যা মডেলকে আরও কার্যকরী করতে সাহায্য করবে।
- উদাহরণ: গ্রাহকের বয়স, লিঙ্গ, আয়ের শ্রেণী ইত্যাদি থেকে নতুন বৈশিষ্ট্য তৈরি করা।
টেক্সট ডেটা ক্লিনিং (Text Data Cleaning):
- যদি ডেটা টেক্সট ফরম্যাটে থাকে, তবে স্টপওয়ার্ড (Stopwords), পাংচুয়েশন, অপ্রয়োজনীয় স্পেস ইত্যাদি সরাতে হয়।
- সমাধান: টেক্সট ক্লিনিং টুল বা লাইব্রেরি (যেমন, NLTK বা spaCy) ব্যবহার করে এই প্রক্রিয়া করা হয়।

৩. ডেটা পরিস্কারের প্রক্রিয়া

ডেটা পরিস্কার করার জন্য কিছু জনপ্রিয় টুল এবং পদ্ধতি রয়েছে, যা সহজে এবং কার্যকরভাবে ডেটা পরিস্কার করতে সহায়তা করে।

টুলস এবং লাইব্রেরি:

পান্ডাস (Pandas): Python এর জনপ্রিয় লাইব্রেরি যা ডেটা ফ্রেম পরিচালনা এবং পরিস্কার করতে ব্যবহৃত হয়।
নামপাই (NumPy): মেট্রিক্স এবং অ্যারে পরিচালনার জন্য ব্যবহৃত একটি লাইব্রেরি।
OpenRefine: ওপেন সোর্স টুল যা ডেটা পরিস্কার এবং বিশ্লেষণে সাহায্য করে।
Trifacta: একটি ডেটা পরিস্কারের জন্য জনপ্রিয় টুল, বিশেষত ডেটা অ্যানালিস্টদের জন্য।

৪. ডেটা পরিস্কারের চ্যালেঞ্জ

বিভিন্ন উৎস থেকে ডেটা সংগ্রহের সময় অমিল: একাধিক উৎস থেকে ডেটা সংগ্রহের ফলে ডেটার মধ্যে অমিল (inconsistency) আসতে পারে।
বড় পরিমাণে ডেটা পরিস্কার: বিশাল ডেটাসেট পরিস্কার করতে অনেক সময় এবং শক্তি প্রয়োজন।
মানের ডেটা: সঠিক ডেটার অভাব এবং ভুয়া বা ভুল ডেটার উপস্থিতি ডেটা পরিস্কারের প্রধান সমস্যা।

উপসংহার

ডেটা সংগ্রহ এবং পরিস্কার মেশিন লার্নিং এবং ডেটা সায়েন্স প্রকল্পের গুরুত্বপূর্ণ অংশ। একটি ভালো মডেল তৈরি করতে প্রথমে সঠিক এবং পরিষ্কার ডেটা প্রয়োজন। তাই ডেটা সংগ্রহের পদ্ধতি এবং ডেটা পরিস্কারের কৌশলগুলো অবশ্যই সচেতনভাবে প্রয়োগ করতে হবে।

Content added By

SATT Academy

Missing Data Handle করা (Mean, Median, Mode Imputation)

296

মেশিন লার্নিং এবং ডেটা সায়েন্সে মিসিং ডেটা বা অনুপস্থিত ডেটা একটি সাধারণ সমস্যা। যেহেতু ডেটা বিশ্লেষণ বা মডেল ট্রেনিংয়ের জন্য পূর্ণাঙ্গ এবং বিশুদ্ধ ডেটা প্রয়োজন, মিসিং ডেটা ঠিক করা অত্যন্ত গুরুত্বপূর্ণ। মিসিং ডেটা হ্যান্ডল করার জন্য বিভিন্ন কৌশল ব্যবহৃত হয়, তার মধ্যে Mean Imputation, Median Imputation, এবং Mode Imputation অন্যতম।

এই কৌশলগুলি মূলত ঐ কলামের মিসিং ভ্যালুগুলিকে সঠিকভাবে পূর্ণ করতে ব্যবহৃত হয়।

১. Mean Imputation (গড় দ্বারা পূর্ণ করা)

Mean Imputation হল মিসিং ভ্যালু গুলিকে ঐ কলামের গড় (Mean) দিয়ে পূর্ণ করার পদ্ধতি। এটি সবচেয়ে সহজ এবং প্রচলিত পদ্ধতি যেখানে, মিসিং ডেটার জন্য ঐ কলামের গড় মান ব্যবহার করা হয়।

কিভাবে কাজ করে:

ঐ কলামের সমস্ত মানের যোগফল বের করা হয়।
তারপর সংখ্যার মোট পরিমাণ দ্বারা যোগফল ভাগ করা হয় (এটা কলামের গড় বের করার পদ্ধতি)।
এরপর, মিসিং ভ্যালুগুলি গড় মান দিয়ে প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [1, 2, 3, 4, NaN, 6]
এখানে NaN হল মিসিং মান।
এখন, গড় মান হবে: (1 + 2 + 3 + 4 + 6) / 5 = 3.2
তাহলে, NaN ভ্যালুটির পরিবর্তে 3.2 রাখা হবে।

সুবিধা:

খুবই সহজ এবং দ্রুত পদ্ধতি।
সংখ্যাসূচক ডেটার জন্য কার্যকরী।

অসুবিধা:

যদি ডেটা সিমেট্রিক না হয়, বা আউটলাইয়ার (Outliers) থাকলে গড় মান খুব নির্ভরযোগ্য নাও হতে পারে।
এটি মূল বৈচিত্র্য বা প্যাটার্ন হারাতে পারে।

২. Median Imputation (মধ্যম দ্বারা পূর্ণ করা)

Median Imputation হল মিসিং ভ্যালুগুলিকে ঐ কলামের মধ্যম (Median) মান দিয়ে পূর্ণ করার পদ্ধতি। এটি গড়ের তুলনায় বেশ কার্যকরী যখন ডেটা অনেকটাই স্কewed (বাঁকা) বা আউটলাইয়ার থাকে।

কিভাবে কাজ করে:

ঐ কলামের সমস্ত মান সাজানো হয়।
তারপর, কলামের মাঝের মান (Median) বের করা হয়।
মিসিং ভ্যালু গুলি ঐ মধ্যম মান দ্বারা প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [1, 2, 3, 4, NaN, 6]
এখানে NaN হল মিসিং মান।
এই ডেটা সাজানো হলে: [1, 2, 3, 4, 6]
এখানে মধ্যম মান হল 3।
তাহলে, NaN ভ্যালুটির পরিবর্তে 3 রাখা হবে।

সুবিধা:

স্কিউড বা আউটলাইয়ার-ভিত্তিক ডেটাতে কার্যকরী।
গড়ের তুলনায় মধ্যম মান ডেটার বৈচিত্র্য বেশি রাখে।

অসুবিধা:

কিছু পরিস্থিতিতে গড়ের চেয়ে কম তথ্যপূর্ণ হতে পারে।
খুব ছোট ডেটাসেটে এটি ব্যবহার করা কঠিন হতে পারে।

৩. Mode Imputation (ফ্রিকোয়েন্ট মান দ্বারা পূর্ণ করা)

Mode Imputation হল মিসিং ভ্যালুগুলিকে ঐ কলামের Mode (সবচেয়ে সাধারণ বা প্রায়ই আসা মান) দিয়ে পূর্ণ করার পদ্ধতি। এটি সাধারণত ক্যাটেগোরিকাল (Categorical) ডেটার জন্য ব্যবহৃত হয়, যেখানে সংখ্যা বা লেবেল পুনরায় আসতে থাকে।

কিভাবে কাজ করে:

ঐ কলামের মানগুলির মধ্যে যে মানটি সবচেয়ে বেশি বার আসে, সেটিই Mode হিসেবে নির্বাচিত হয়।
মিসিং ভ্যালুগুলি Mode দ্বারা প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [Red, Blue, Green, Green, NaN, Green]
এখানে NaN হল মিসিং মান।
এখানে Mode হচ্ছে Green, কারণ এটি সবচেয়ে বেশি বার এসেছে।
তাহলে, NaN ভ্যালুটির পরিবর্তে Green রাখা হবে।

সুবিধা:

ক্যাটেগোরিকাল ডেটার জন্য খুবই কার্যকরী।
আউটলাইয়ারের প্রভাব কম হয়।

অসুবিধা:

যদি অনেক ভিন্ন ভিন্ন মান থাকে এবং কোন স্পষ্ট Mode না থাকে, তাহলে এটি ঠিকভাবে কাজ নাও করতে পারে।
Mode তেমন বৈচিত্র্যপূর্ণ তথ্য দিতে নাও পারে।

সারসংক্ষেপ

মিসিং ডেটা হ্যান্ডলিংয়ের তিনটি সাধারণ পদ্ধতি:

Mean Imputation: গড় মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি সংখ্যাসূচক ডেটার জন্য কার্যকরী, তবে আউটলাইয়ার বা স্কিউড ডেটার ক্ষেত্রে ফলস্বরূপ সঠিক নাও হতে পারে।
Median Imputation: মধ্যম মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি স্কিউড বা আউটলাইয়ার ডেটা বিশ্লেষণে কার্যকর।
Mode Imputation: ফ্রিকোয়েন্ট মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি ক্যাটেগোরিকাল ডেটার জন্য উপযুক্ত।

মিসিং ডেটা হ্যান্ডলিংয়ের জন্য যে পদ্ধতিটি ব্যবহার করবেন, তা নির্ভর করবে ডেটার প্রকৃতি (সংখ্যাসূচক, ক্যাটেগোরিকাল) এবং ডেটার বিভাজন (স্কিউড, আউটলাইয়ারস ইত্যাদি) এর উপর।

Content added By

SATT Academy

Feature Scaling (Normalization, Standardization)

322

ফিচার স্কেলিং হল একটি গুরুত্বপূর্ণ প্রক্রিয়া যা মেশিন লার্নিং মডেলগুলির জন্য প্রাসঙ্গিক ডেটা প্রসেসিং স্টেপ। এটি ডেটার ফিচারগুলির মধ্যে স্কেল বা পরিসরের পার্থক্য দূর করার জন্য ব্যবহৃত হয়, যাতে মডেলটি সঠিকভাবে কাজ করতে পারে। বিশেষত, বিভিন্ন মডেল যেমন লিনিয়ার রিগ্রেশন, কন্টিনিউয়াস ডেটা নিয়ে কাজ করে, যখন ফিচারের স্কেল একে অপর থেকে অনেক বেশি ভিন্ন হয়, তখন মডেলটি ঠিকভাবে শেখা বা ভবিষ্যদ্বাণী করতে পারে না।

ফিচার স্কেলিং দুটি প্রধান পদ্ধতিতে বিভক্ত:

১. নর্মালাইজেশন (Normalization)

নর্মালাইজেশন (বা Min-Max স্কেলিং) হল একটি পদ্ধতি যা ডেটার প্রতিটি ফিচারকে একটি নির্দিষ্ট পরিসরে (সাধারণত ০ থেকে ১ এর মধ্যে) নিয়ে আসে। এই পদ্ধতিতে, প্রতিটি মানকে তার বর্তমান পরিসরের সর্বনিম্ন মান থেকে সর্বোচ্চ মানের মধ্যে স্কেল করা হয়।

কিভাবে কাজ করে:

নর্মালাইজেশন করার জন্য প্রতিটি ফিচারের মানকে নিচের ফর্মুলা অনুযায়ী ক্যালকুলেট করা হয়:

$X_{\text{norm}} = \frac{X - \min(X)}{\max(X) - \min(X)}$

এখানে,

$X$ হল ফিচারের মৌলিক মান।
$\min(X)$ হল ঐ ফিচারের সর্বনিম্ন মান।
$\max(X)$ হল ঐ ফিচারের সর্বোচ্চ মান।
$X_{\text{norm}}$ হল স্কেল করা মান।

যখন ব্যবহার করবেন:

যখন ফিচারের মানের পরিসর অনেক বেশি ভিন্ন হতে পারে (যেমন, 1 থেকে 1000 পর্যন্ত)।
যখন আপনি একটি মডেল ব্যবহার করছেন যা সেন্ট্রাল টেনডেন্স (Mean) বা ভারিয়েন্সের উপর নির্ভরশীল নয়, যেমন Neural Networks, K-Nearest Neighbors (KNN) এবং Support Vector Machines (SVM)।

উদাহরণ:

ধরা যাক, আমরা একটি ডেটাসেটের মধ্যে একটির মধ্যে বয়সের মান ১৮ থেকে ৭০ এবং অন্যটির মধ্যে ইনকাম ১০০০ থেকে ১,০০,০০০ পর্যন্ত। এমন পরিস্থিতিতে নর্মালাইজেশন ব্যবহারের মাধ্যমে স্কেল করে এই মানগুলিকে ০ এবং ১ এর মধ্যে নিয়ে আসা হবে।

২. স্ট্যান্ডার্ডাইজেশন (Standardization)

স্ট্যান্ডার্ডাইজেশন বা Z-score স্কেলিং হল এমন একটি পদ্ধতি যা ডেটাকে এমনভাবে স্কেল করে যে তার মানের গড় (mean) ০ এবং স্ট্যান্ডার্ড ডিভিয়েশন (standard deviation) ১ হয়। এটি ডেটার সেন্ট্রালাইজেশন এবং স্কেলিং উভয়কে একসাথে করে।

কিভাবে কাজ করে:

স্ট্যান্ডার্ডাইজেশন করার জন্য প্রতিটি ফিচারের মানকে নিচের ফর্মুলা অনুযায়ী ক্যালকুলেট করা হয়:

$X_{\text{std}} = \frac{X - \mu}{\sigma}$

এখানে,

$X$ হল ফিচারের মৌলিক মান।
$\mu$ হল ফিচারের গড় (Mean)।
$\sigma$ হল ফিচারের স্ট্যান্ডার্ড ডিভিয়েশন (Standard Deviation)।
$X_{\text{std}}$ হল স্ট্যান্ডার্ডাইজড মান।

যখন ব্যবহার করবেন:

যখন আপনার ডেটার গড় এবং বৈচিত্র্য (variance) জানা থাকে এবং আপনি মডেলকে স্কেলিংয়ের জন্য একটি নির্দিষ্ট পদ্ধতির প্রয়োজন, যেমন Logistic Regression, Linear Regression, Principal Component Analysis (PCA) এবং Support Vector Machines (SVM)।
যখন ডেটার মধ্যে কিছু বড় বৈচিত্র্য (outliers) থাকতে পারে এবং আপনি তাদের প্রভাব কমাতে চান।

উদাহরণ:

ধরা যাক, বয়সের গড় ৪০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১৫, যদি একটি ব্যক্তি ৫৫ বছর বয়সী হন, তাহলে তার স্ট্যান্ডার্ডাইজড মান হবে:

$X_{\text{std}} = \frac{55 - 40}{15} = 1$

কীভাবে নির্বাচিত করবেন - Normalization vs Standardization

Normalization: যদি আপনি জানেন যে ডেটার ফিচারগুলির মধ্যে বড় পার্থক্য থাকতে পারে এবং আপনার মডেল দ্রুত শিখবে বা নতুন ফিচারের উপর নির্ভরশীল হবে (যেমন KNN, Neural Networks), তবে নর্মালাইজেশন ব্যবহার করা ভালো।
Standardization: যদি আপনার ডেটা গড় এবং বৈচিত্র্য নির্ভরশীল থাকে, এবং আপনি একটি মডেল ব্যবহার করছেন যা গড় ও স্ট্যান্ডার্ড ডেভিয়েশনের উপর নির্ভরশীল (যেমন Linear Regression বা PCA), তাহলে স্ট্যান্ডার্ডাইজেশন বেশি উপযুক্ত।

উপসংহার

ফিচার স্কেলিং মেশিন লার্নিং মডেলকে আরও কার্যকর এবং দ্রুতগতির কাজ করার জন্য গুরুত্বপূর্ণ। নর্মালাইজেশন একটি নির্দিষ্ট সীমার মধ্যে ডেটাকে নিয়ে আসে, যখন স্ট্যান্ডার্ডাইজেশন ডেটার গড় এবং স্ট্যান্ডার্ড ডিভিয়েশন ব্যবহার করে। মডেল এবং ডেটার ধরণ অনুযায়ী ফিচার স্কেলিংয়ের সঠিক পদ্ধতি নির্বাচন করা উচিত।

Content added By

SATT Academy

Feature Encoding (One-Hot Encoding, Label Encoding)

307

ফিচার এনকোডিং (Feature Encoding) হলো সেই প্রক্রিয়া, যেখানে ক্যাটেগোরিক্যাল (Categorical) ডেটাকে সংখ্যাগত (Numerical) আকারে রূপান্তর করা হয়, যাতে এটি মেশিন লার্নিং অ্যালগরিদম দ্বারা ব্যবহৃত হতে পারে। মেশিন লার্নিং মডেলগুলি সাধারণত শুধুমাত্র সংখ্যামূলক ডেটা প্রক্রিয়া করতে পারে, তাই ক্যাটেগোরিক্যাল ডেটা সঠিকভাবে এনকোড করা খুবই গুরুত্বপূর্ণ।

ফিচার এনকোডিং-এর দুটি জনপ্রিয় পদ্ধতি হলো:

ওয়ান-হট এনকোডিং (One-Hot Encoding)
লেবেল এনকোডিং (Label Encoding)

এই দুটি পদ্ধতি ব্যবহৃত হয় বিভিন্ন ধরনের ক্যাটেগোরিক্যাল ফিচারের জন্য। নিচে প্রতিটি পদ্ধতির বিস্তারিত ব্যাখ্যা দেয়া হলো।

১. ওয়ান-হট এনকোডিং (One-Hot Encoding)

ওয়ান-হট এনকোডিং হল একটি পদ্ধতি, যেখানে ক্যাটেগোরিক্যাল ভ্যালুকে বাইনারি (0 অথবা 1) ভ্যালুতে রূপান্তর করা হয়। প্রতিটি ক্যাটেগোরিক্যাল ভ্যালুর জন্য একটি নতুন কলাম তৈরি করা হয়, এবং যদি কোনো রেকর্ড সেই ক্যাটেগরি সম্পর্কিত হয়, তবে সেই কলামে '1' থাকবে, অন্যথায় '0' থাকবে।

উদাহরণ:

ধরা যাক, আমাদের একটি কলাম আছে যার নাম "Color" এবং এতে ৩টি ভ্যালু: "Red", "Green", এবং "Blue"।

Color
Red
Green
Blue
Green
Red

ওয়ান-হট এনকোডিং প্রয়োগ করার পর, এটি হবে:

Color_Red	Color_Green	Color_Blue
1	0	0
0	1	0
0	0	1
0	1	0
1	0	0

এখানে, "Red" এর জন্য Color_Red কলামে '1' এবং অন্য কলামগুলোতে '0' থাকবে, এবং একইভাবে অন্য ক্যাটেগোরি গুলোর জন্যও হবে।

সুবিধা:

এই পদ্ধতিটি মডেলকে ভ্যালুর মধ্যে কোনো অর্ডার বা পার্থক্য দেখতে দেয় না, কারণ প্রতিটি ক্যাটেগোরি আলাদা কলামে রূপান্তরিত হয়।

অসুবিধা:

যদি ক্যাটেগোরির সংখ্যা অনেক বড় হয় (যেমন হাজার হাজার ক্যাটেগোরি), তবে এটি অনেক বেশি ফিচার তৈরি করতে পারে, যা মডেলকে জটিল ও ধীর গতির করতে পারে।

২. লেবেল এনকোডিং (Label Encoding)

লেবেল এনকোডিং হল একটি পদ্ধতি যেখানে ক্যাটেগোরিক্যাল ভ্যালুগুলিকে একটি ইউনিক সংখ্যা দিয়ে রূপান্তর করা হয়। এখানে, প্রতিটি ভ্যালু একটি নির্দিষ্ট সংখ্যা দ্বারা প্রতিনিধিত্ব করা হয়। সাধারণত, এটি অর্ডারড বা রাঙ্কড ক্যাটেগোরি ফিচারের জন্য ব্যবহৃত হয়।

উদাহরণ:

ধরা যাক, আমাদের একই "Color" কলামটি আছে, যেখানে ভ্যালুগুলি "Red", "Green", এবং "Blue"। লেবেল এনকোডিং প্রয়োগ করার পর:

Color	Encoded Color
Red	0
Green	1
Blue	2
Green	1
Red	0

এখানে, "Red"-কে 0, "Green"-কে 1, এবং "Blue"-কে 2 দ্বারা প্রতিনিধিত্ব করা হয়েছে।

সুবিধা:

লেবেল এনকোডিং সাধারণত কম স্পেস নেয়, কারণ এটি সংখ্যামূলক কোডের মাধ্যমে প্রতিটি ক্যাটেগোরি প্রতিনিধিত্ব করে।

অসুবিধা:

এটি ব্যবহারের ক্ষেত্রে যদি ক্যাটেগোরিগুলোর মধ্যে কোন প্রাকৃতিক অর্ডার না থাকে, তবে মডেলটি ভুলভাবে তাদের মধ্যে সম্পর্ক গড়ে তুলতে পারে। উদাহরণস্বরূপ, এখানে "Red" (0), "Green" (1), এবং "Blue" (2) এর মধ্যে কোনো স্বাভাবিক ক্রম নেই, কিন্তু লেবেল এনকোডিং মডেলটি এগুলোর মধ্যে একটি নির্দিষ্ট রাঙ্কিং বা ক্রম অনুমান করতে পারে, যা ভুল ফলাফল দিতে পারে।

সারসংক্ষেপ (Summary)

পদ্ধতি	বিবরণ	সুবিধা	অসুবিধা
ওয়ান-হট এনকোডিং	প্রতিটি ক্যাটেগরি ভ্যালুর জন্য একটি নতুন কলাম তৈরি করে, এবং সেখানে '1' বা '0' থাকবে।	ক্যাটেগোরি মধ্যে কোন অর্ডার বা পার্থক্য ধরা হয় না, সঠিক মডেল প্রশিক্ষণ।	অনেক ক্যাটেগরি থাকলে অনেক ফিচার তৈরি হতে পারে, যা মডেলকে ধীর করে তুলতে পারে।
লেবেল এনকোডিং	প্রতিটি ক্যাটেগরি ভ্যালুকে একটি ইউনিক সংখ্যা দিয়ে এনকোড করা হয়।	কম স্পেস নেয় এবং দ্রুত মডেল প্রশিক্ষণ।	অর্ডারড ক্যাটেগরি না থাকলে মডেল ভুলভাবে সম্পর্ক নির্ধারণ করতে পারে।

প্রত্যেক পদ্ধতির নিজস্ব সুবিধা এবং অসুবিধা আছে, এবং আপনার ডেটার ধরণ এবং মডেলিং উদ্দেশ্যের ওপর ভিত্তি করে সঠিক পদ্ধতি নির্বাচন করা উচিত।

Content added By

SATT Academy

Machine Learning পরিচিতি Machine Learning এর মৌলিক ধারণা Supervised Learning এর বেসিক ধারণা Linear Regression Logistic Regression

Data Preprocessing এবং Feature Engineering

১. ডেটা প্রক্রিয়াকরণ (Data Preprocessing)

ডেটা প্রক্রিয়াকরণের প্রধান ধাপ:

২. বৈশিষ্ট্য প্রকৌশল (Feature Engineering)

বৈশিষ্ট্য প্রকৌশলের প্রধান পদক্ষেপ:

সারাংশ

Data Collection এবং Cleaning Techniques

১. ডেটা সংগ্রহ (Data Collection)

ডেটা সংগ্রহের উৎস:

ডেটা সংগ্রহের চ্যালেঞ্জ:

২. ডেটা পরিস্কার (Data Cleaning)

ডেটা পরিস্কারের প্রধান কাজ:

৩. ডেটা পরিস্কারের প্রক্রিয়া

টুলস এবং লাইব্রেরি:

৪. ডেটা পরিস্কারের চ্যালেঞ্জ

উপসংহার

Missing Data Handle করা (Mean, Median, Mode Imputation)

১. Mean Imputation (গড় দ্বারা পূর্ণ করা)

কিভাবে কাজ করে:

উদাহরণ:

সুবিধা:

অসুবিধা:

২. Median Imputation (মধ্যম দ্বারা পূর্ণ করা)

কিভাবে কাজ করে:

উদাহরণ:

সুবিধা:

অসুবিধা:

৩. Mode Imputation (ফ্রিকোয়েন্ট মান দ্বারা পূর্ণ করা)

কিভাবে কাজ করে:

উদাহরণ:

সুবিধা:

অসুবিধা:

সারসংক্ষেপ

Feature Scaling (Normalization, Standardization)

১. নর্মালাইজেশন (Normalization)

কিভাবে কাজ করে:

যখন ব্যবহার করবেন:

উদাহরণ:

২. স্ট্যান্ডার্ডাইজেশন (Standardization)

কিভাবে কাজ করে:

যখন ব্যবহার করবেন:

উদাহরণ:

কীভাবে নির্বাচিত করবেন - Normalization vs Standardization

উপসংহার

Feature Encoding (One-Hot Encoding, Label Encoding)

১. ওয়ান-হট এনকোডিং (One-Hot Encoding)

উদাহরণ:

সুবিধা:

অসুবিধা:

২. লেবেল এনকোডিং (Label Encoding)

উদাহরণ:

সুবিধা:

অসুবিধা:

সারসংক্ষেপ (Summary)

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!