Data Preprocessing এবং Feature Engineering

Machine Learning - মেশিন লার্নিং (Machine Learning)
379

ডেটা প্রক্রিয়াকরণ এবং বৈশিষ্ট্য প্রকৌশল মেশিন লার্নিং প্রক্রিয়ার গুরুত্বপূর্ণ ধাপ। একটি মডেল তৈরি করার আগে, সঠিকভাবে ডেটা প্রস্তুত করা এবং প্রয়োজনীয় বৈশিষ্ট্য তৈরি করা অত্যন্ত জরুরি। এটি মডেলটিকে আরও কার্যকরী এবং নির্ভুলভাবে কাজ করতে সাহায্য করে।


১. ডেটা প্রক্রিয়াকরণ (Data Preprocessing)

ডেটা প্রক্রিয়াকরণ হলো সেই প্রক্রিয়া যেখানে কাঁচা ডেটাকে বিশ্লেষণযোগ্য এবং মডেল প্রশিক্ষণের জন্য উপযুক্ত করা হয়। ডেটার গুণগত মান উন্নত করতে এটি বিভিন্ন পদক্ষেপের মাধ্যমে সম্পন্ন করা হয়।

ডেটা প্রক্রিয়াকরণের প্রধান ধাপ:

  1. ডেটা ক্লিনিং (Data Cleaning):
    • অনুপস্থিত ডেটা (Missing Data): অনেক সময় ডেটাতে কিছু মান অনুপস্থিত থাকতে পারে। এটি মডেল প্রশিক্ষণের জন্য সমস্যা সৃষ্টি করতে পারে। অনুপস্থিত ডেটা পূরণ (Imputation) করা যেতে পারে বা ওই রেকর্ডগুলো বাদ দেওয়া যেতে পারে।
      • পদ্ধতি: গড়, মধ্যম মান বা অন্যান্য তথ্যের ভিত্তিতে পূরণ করা।
    • আউটলায়ার (Outliers): কিছু ডেটা অস্বাভাবিকভাবে উচ্চ বা কম হতে পারে, যা মডেলকে বিভ্রান্ত করতে পারে। আউটলায়ারগুলি চিহ্নিত করে সেগুলি বাদ দেয়া বা সংশোধন করা যেতে পারে।
  2. ডেটার মান প্রস্তাবনা (Data Standardization or Normalization):
    • ডেটার পরিসর বা স্কেল অনেকটাই বিভিন্ন হতে পারে। একে মানকরণ (Standardization) বা সাধারণীকরণ (Normalization) করা হয় যাতে সব বৈশিষ্ট্য একটি সাধারণ পরিসরে আসে।
      • Normalization: সাধারণত 0 এবং 1 এর মধ্যে স্কেলিং করা হয়।
      • Standardization: ডেটার গড় মান ০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১ করার মাধ্যমে স্কেল করা হয়।
  3. ক্যাটেগরিক্যাল ডেটা হ্যান্ডলিং (Handling Categorical Data):
    • কিছু বৈশিষ্ট্য ক্যাটেগরিক্যাল বা শ্রেণীভিত্তিক হতে পারে, যেমন "হ্যাঁ" বা "না", "পুরুষ" বা "মহিলা" ইত্যাদি। এই ধরনের ডেটা সংখ্যায় পরিণত করতে হয়, যেটি মডেল গ্রহণ করতে পারে। এই প্রক্রিয়ায় ওয়ান-হট এনকোডিং (One-hot Encoding) বা লেবেল এনকোডিং (Label Encoding) ব্যবহার করা হয়।
  4. ডুপ্লিকেট ডেটা অপসারণ (Removing Duplicates):
    • একই তথ্য একাধিকবার থাকতে পারে, যা মডেলকে বিভ্রান্ত করতে পারে। ডুপ্লিকেট রেকর্ডগুলো সরানো প্রয়োজন।
  5. ডেটা রূপান্তর (Data Transformation):
    • ডেটার নতুন রূপ তৈরি করতে যেমন লগ ট্রান্সফরমেশন বা পলিনোমিয়াল ট্রান্সফর্মেশন ব্যবহার করা হতে পারে। এটি ডেটাকে সঠিকভাবে মডেল প্রশিক্ষণের জন্য তৈরি করতে সহায়ক হতে পারে।

২. বৈশিষ্ট্য প্রকৌশল (Feature Engineering)

বৈশিষ্ট্য প্রকৌশল হলো এমন একটি প্রক্রিয়া, যার মাধ্যমে নতুন বৈশিষ্ট্য তৈরি করা হয় বা পুরনো বৈশিষ্ট্যগুলিকে রূপান্তরিত করা হয় যাতে মডেলটি আরও ভালো ফলাফল দিতে পারে। এটি মডেলের কার্যকারিতা বাড়ানোর জন্য অত্যন্ত গুরুত্বপূর্ণ।

বৈশিষ্ট্য প্রকৌশলের প্রধান পদক্ষেপ:

  1. নতুন বৈশিষ্ট্য তৈরি (Feature Creation):
    • কিছু ক্ষেত্রে নতুন বৈশিষ্ট্য তৈরি করা প্রয়োজন, যা মডেলটিকে সমস্যার আরও ভালো সমাধান দিতে সাহায্য করতে পারে।
      • উদাহরণ: বয়স এবং আয় থেকে বয়সের আয়ের অনুপাত তৈরি করা।
  2. বৈশিষ্ট্য নির্বাচন (Feature Selection):
    • কিছু বৈশিষ্ট্য মডেলের জন্য প্রাসঙ্গিক নয় বা অত্যন্ত কম তথ্য প্রদান করতে পারে। এই ধরনের বৈশিষ্ট্যগুলি বাদ দেয়া হয়, যা মডেলকে অপ্রয়োজনীয় জটিলতা তৈরি করতে পারে।
      • পদ্ধতি: করেলেশন ম্যাট্রিক্স (Correlation Matrix) ব্যবহার করে সম্পর্কহীন বৈশিষ্ট্য অপসারণ, গ্রেডিয়েন্ট বুস্টিং (Gradient Boosting) বা এলসটিক নেট (Elastic Net)
  3. বৈশিষ্ট্য রূপান্তর (Feature Transformation):
    • বৈশিষ্ট্যগুলির স্কেল বা পরিসীমা পরিবর্তন করতে হয় যাতে মডেলটি তাদের থেকে ভাল ফলাফল পেতে পারে।
      • উদাহরণ: লগ ট্রান্সফরমেশন (যেমন, আয় বা দাম) অথবা পলিনোমিয়াল বৈশিষ্ট্য
  4. বৈশিষ্ট্য কোডিং (Feature Encoding):
    • ওয়ান-হট এনকোডিং (One-hot Encoding): ক্যাটেগরিক্যাল বৈশিষ্ট্যকে সংখ্যায় রূপান্তর করা। যেমন, "পুরুষ" এবং "মহিলা" কে 0 এবং 1 এ রূপান্তর করা।
    • লেবেল এনকোডিং (Label Encoding): ক্যাটেগরিক্যাল বৈশিষ্ট্যকে সংখ্যায় রূপান্তর করা, তবে একে একাধিক শ্রেণীতে কোড করা হয়।
  5. বৈশিষ্ট্য স্কেলিং (Feature Scaling):
    • কিছু বৈশিষ্ট্যের স্কেল খুব বড় হতে পারে যা মডেল প্রশিক্ষণের সময় সমস্যা সৃষ্টি করতে পারে। স্কেলিং করার মাধ্যমে সমস্ত বৈশিষ্ট্য একই স্কেলে নিয়ে আসা হয়।
      • পদ্ধতি: StandardScaler এবং MinMaxScaler
  6. বৈশিষ্ট্য ইন্টারঅ্যাকশন (Feature Interaction):
    • কখনও কখনও বৈশিষ্ট্যগুলির মধ্যে সম্পর্ক বা ইন্টারঅ্যাকশন গুরুত্বপূর্ণ হতে পারে। বৈশিষ্ট্য ইন্টারঅ্যাকশন দ্বারা এই সম্পর্কগুলি তৈরি করা যেতে পারে।
      • উদাহরণ: "বয়স" এবং "আয়" এর ইন্টারঅ্যাকশন তৈরি করা।

সারাংশ

  • ডেটা প্রক্রিয়াকরণ ডেটার গুণগত মান বাড়াতে সাহায্য করে এবং এটি মডেলটিকে আরও কার্যকরীভাবে কাজ করতে সক্ষম করে।
  • বৈশিষ্ট্য প্রকৌশল একটি কৌশল যার মাধ্যমে ডেটার নতুন বৈশিষ্ট্য তৈরি করা হয় বা পুরনো বৈশিষ্ট্যগুলিকে পরিবর্তন করা হয় যাতে মডেল আরও ভালো পারফর্ম করতে পারে।

এই দুটি পদক্ষেপ মেশিন লার্নিং প্রক্রিয়ায় অত্যন্ত গুরুত্বপূর্ণ, কারণ সঠিকভাবে প্রক্রিয়াজাত ডেটা এবং বৈশিষ্ট্যগুলো মডেলের দক্ষতা এবং নির্ভুলতা বৃদ্ধিতে সহায়ক হতে পারে।

Content added By

Data Collection এবং Cleaning Techniques

326

ডেটা সংগ্রহ এবং পরিস্কার (Data Collection and Cleaning) হল মেশিন লার্নিং বা ডেটা অ্যানালিটিক্সের প্রথম গুরুত্বপূর্ণ ধাপ। সঠিক ডেটা সংগ্রহ এবং পরিষ্কার করা না হলে, মডেল প্রশিক্ষণের জন্য ডেটার গুণগত মান কমে যেতে পারে, যা ফলস্বরূপ কম কার্যকরী মডেল তৈরি করে।


১. ডেটা সংগ্রহ (Data Collection)

ডেটা সংগ্রহ হল যে প্রক্রিয়ায় ডেটা বিভিন্ন উৎস থেকে একত্রিত করা হয়। সঠিকভাবে ডেটা সংগ্রহ করা খুবই গুরুত্বপূর্ণ, কারণ এটি মডেল প্রশিক্ষণের জন্য একটি শক্তিশালী ভিত্তি তৈরি করে।

ডেটা সংগ্রহের উৎস:

  1. প্রথমিক উৎস (Primary Data):
    • সোর্স: সার্ভে, প্রশ্নাবলী, সাক্ষাৎকার, সমীক্ষা ইত্যাদি।
    • ব্যবহার: যখন নির্দিষ্ট তথ্য প্রাপ্তি প্রয়োজন এবং কোনো পূর্ববর্তী ডেটা নেই।
  2. দ্বিতীয়ক উৎস (Secondary Data):
    • সোর্স: বিদ্যমান ডেটাবেস, রিপোর্ট, গবেষণা পেপার, ওয়েবসাইট, পাবলিক ডেটা।
    • ব্যবহার: যখন পূর্ববর্তী প্রাপ্ত ডেটা বা প্রকাশিত রিপোর্টগুলি ব্যবহার করা যায়।
  3. ওয়েব স্ক্র্যাপিং (Web Scraping):
    • সোর্স: ওয়েবসাইট থেকে স্বয়ংক্রিয়ভাবে ডেটা সংগ্রহ করা।
    • ব্যবহার: যখন ওয়েবসাইটে থাকা তথ্য সংগৃহীত করতে হয়।
  4. এপিআই (API):
    • সোর্স: বিভিন্ন এপিআই থেকে ডেটা সংগ্রহ করা, যেমন: গুগল ম্যাপস, সোশ্যাল মিডিয়া প্ল্যাটফর্ম।
    • ব্যবহার: ওয়েব অ্যাপ্লিকেশন বা মোবাইল অ্যাপ্লিকেশন থেকে ডেটা সংগ্রহ করা।

ডেটা সংগ্রহের চ্যালেঞ্জ:

  • ডেটার সঠিকতা: ডেটা সঠিক এবং পূর্ণাঙ্গ হতে হবে।
  • ডেটার অখণ্ডতা: সংগ্রহকৃত ডেটার মধ্যে কোন অপ্রয়োজনীয় বা ভুল তথ্য না থাকা উচিত।
  • ডেটার প্রবাহ: ডেটার গতিপথে বা উৎসে সমস্যা দেখা দিলে তা ডেটা সংগ্রহ প্রক্রিয়ায় বাধা সৃষ্টি করতে পারে।

২. ডেটা পরিস্কার (Data Cleaning)

ডেটা পরিস্কার হল এমন একটি প্রক্রিয়া, যেখানে সংগ্রহকৃত ডেটা থেকে অবাঞ্ছিত, অপ্রয়োজনীয় বা ভুল তথ্য সরানো হয়, যাতে এটি পরবর্তী বিশ্লেষণ বা মডেল প্রশিক্ষণের জন্য উপযুক্ত হয়।

ডেটা পরিস্কারের প্রধান কাজ:

  1. অনুপস্থিত বা মিসিং ডেটা (Missing Data):
    • অনেক সময় ডেটা সংগ্রহের সময়ে কিছু তথ্য অনুপস্থিত থাকতে পারে।
    • সমাধান:
      • ইম্পুটেশন (Imputation): মিসিং ডেটার জন্য নির্দিষ্ট মান ব্যবহার করা (গড়, মধ্যম, পূর্বের মান ইত্যাদি)।
      • ড্রপ (Drop): যদি মিসিং ডেটার পরিমাণ বেশি হয়, তাহলে ওই রেকর্ডগুলো বাদ দেওয়া।
  2. ডুপ্লিকেট রেকর্ড (Duplicate Records):
    • কখনও কখনও একই রেকর্ড একাধিকবার থাকে।
    • সমাধান: ডুপ্লিকেট রেকর্ডগুলো চিহ্নিত করে এবং সরিয়ে ফেলতে হবে।
  3. আউটলিয়ার (Outliers):
    • কিছু রেকর্ড অন্যান্য ডেটার তুলনায় খুবই বিচিত্র বা অস্বাভাবিক হতে পারে।
    • সমাধান:
      • আউটলিয়ার শনাক্তকরণ: Box plot, Z-Score বা IQR ব্যবহার করে আউটলিয়ার শনাক্ত করা।
      • ড্রপ বা সংশোধন: আউটলিয়ার যদি ডেটার জন্য অযৌক্তিক হয়, তবে সেগুলো ড্রপ করা হয়।
  4. ফরম্যাট সমস্যা (Format Issues):
    • ডেটার ফরম্যাট একরকম না হলে (যেমন তারিখের ভিন্ন ভিন্ন ফরম্যাট), পরিস্কার করা প্রয়োজন।
    • সমাধান: ডেটার ফরম্যাটগুলো একীভূত করতে হবে। যেমন, তারিখের সমস্ত ফরম্যাটকে একই স্টাইল (YYYY-MM-DD) এ রূপান্তরিত করা।
  5. নতুন বৈশিষ্ট্য তৈরি (Feature Engineering):
    • নতুন এবং কার্যকরী বৈশিষ্ট্য তৈরি করা যা মডেলকে আরও কার্যকরী করতে সাহায্য করবে।
    • উদাহরণ: গ্রাহকের বয়স, লিঙ্গ, আয়ের শ্রেণী ইত্যাদি থেকে নতুন বৈশিষ্ট্য তৈরি করা।
  6. টেক্সট ডেটা ক্লিনিং (Text Data Cleaning):
    • যদি ডেটা টেক্সট ফরম্যাটে থাকে, তবে স্টপওয়ার্ড (Stopwords), পাংচুয়েশন, অপ্রয়োজনীয় স্পেস ইত্যাদি সরাতে হয়।
    • সমাধান: টেক্সট ক্লিনিং টুল বা লাইব্রেরি (যেমন, NLTK বা spaCy) ব্যবহার করে এই প্রক্রিয়া করা হয়।

৩. ডেটা পরিস্কারের প্রক্রিয়া

ডেটা পরিস্কার করার জন্য কিছু জনপ্রিয় টুল এবং পদ্ধতি রয়েছে, যা সহজে এবং কার্যকরভাবে ডেটা পরিস্কার করতে সহায়তা করে।

টুলস এবং লাইব্রেরি:

  • পান্ডাস (Pandas): Python এর জনপ্রিয় লাইব্রেরি যা ডেটা ফ্রেম পরিচালনা এবং পরিস্কার করতে ব্যবহৃত হয়।
  • নামপাই (NumPy): মেট্রিক্স এবং অ্যারে পরিচালনার জন্য ব্যবহৃত একটি লাইব্রেরি।
  • OpenRefine: ওপেন সোর্স টুল যা ডেটা পরিস্কার এবং বিশ্লেষণে সাহায্য করে।
  • Trifacta: একটি ডেটা পরিস্কারের জন্য জনপ্রিয় টুল, বিশেষত ডেটা অ্যানালিস্টদের জন্য।

৪. ডেটা পরিস্কারের চ্যালেঞ্জ

  • বিভিন্ন উৎস থেকে ডেটা সংগ্রহের সময় অমিল: একাধিক উৎস থেকে ডেটা সংগ্রহের ফলে ডেটার মধ্যে অমিল (inconsistency) আসতে পারে।
  • বড় পরিমাণে ডেটা পরিস্কার: বিশাল ডেটাসেট পরিস্কার করতে অনেক সময় এবং শক্তি প্রয়োজন।
  • মানের ডেটা: সঠিক ডেটার অভাব এবং ভুয়া বা ভুল ডেটার উপস্থিতি ডেটা পরিস্কারের প্রধান সমস্যা।

উপসংহার

ডেটা সংগ্রহ এবং পরিস্কার মেশিন লার্নিং এবং ডেটা সায়েন্স প্রকল্পের গুরুত্বপূর্ণ অংশ। একটি ভালো মডেল তৈরি করতে প্রথমে সঠিক এবং পরিষ্কার ডেটা প্রয়োজন। তাই ডেটা সংগ্রহের পদ্ধতি এবং ডেটা পরিস্কারের কৌশলগুলো অবশ্যই সচেতনভাবে প্রয়োগ করতে হবে।

Content added By

Missing Data Handle করা (Mean, Median, Mode Imputation)

296

মেশিন লার্নিং এবং ডেটা সায়েন্সে মিসিং ডেটা বা অনুপস্থিত ডেটা একটি সাধারণ সমস্যা। যেহেতু ডেটা বিশ্লেষণ বা মডেল ট্রেনিংয়ের জন্য পূর্ণাঙ্গ এবং বিশুদ্ধ ডেটা প্রয়োজন, মিসিং ডেটা ঠিক করা অত্যন্ত গুরুত্বপূর্ণ। মিসিং ডেটা হ্যান্ডল করার জন্য বিভিন্ন কৌশল ব্যবহৃত হয়, তার মধ্যে Mean Imputation, Median Imputation, এবং Mode Imputation অন্যতম।

এই কৌশলগুলি মূলত ঐ কলামের মিসিং ভ্যালুগুলিকে সঠিকভাবে পূর্ণ করতে ব্যবহৃত হয়।


১. Mean Imputation (গড় দ্বারা পূর্ণ করা)

Mean Imputation হল মিসিং ভ্যালু গুলিকে ঐ কলামের গড় (Mean) দিয়ে পূর্ণ করার পদ্ধতি। এটি সবচেয়ে সহজ এবং প্রচলিত পদ্ধতি যেখানে, মিসিং ডেটার জন্য ঐ কলামের গড় মান ব্যবহার করা হয়।

কিভাবে কাজ করে:

  • ঐ কলামের সমস্ত মানের যোগফল বের করা হয়।
  • তারপর সংখ্যার মোট পরিমাণ দ্বারা যোগফল ভাগ করা হয় (এটা কলামের গড় বের করার পদ্ধতি)।
  • এরপর, মিসিং ভ্যালুগুলি গড় মান দিয়ে প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [1, 2, 3, 4, NaN, 6]
এখানে NaN হল মিসিং মান।
এখন, গড় মান হবে: (1 + 2 + 3 + 4 + 6) / 5 = 3.2
তাহলে, NaN ভ্যালুটির পরিবর্তে 3.2 রাখা হবে।

সুবিধা:

  • খুবই সহজ এবং দ্রুত পদ্ধতি।
  • সংখ্যাসূচক ডেটার জন্য কার্যকরী।

অসুবিধা:

  • যদি ডেটা সিমেট্রিক না হয়, বা আউটলাইয়ার (Outliers) থাকলে গড় মান খুব নির্ভরযোগ্য নাও হতে পারে।
  • এটি মূল বৈচিত্র্য বা প্যাটার্ন হারাতে পারে।

২. Median Imputation (মধ্যম দ্বারা পূর্ণ করা)

Median Imputation হল মিসিং ভ্যালুগুলিকে ঐ কলামের মধ্যম (Median) মান দিয়ে পূর্ণ করার পদ্ধতি। এটি গড়ের তুলনায় বেশ কার্যকরী যখন ডেটা অনেকটাই স্কewed (বাঁকা) বা আউটলাইয়ার থাকে।

কিভাবে কাজ করে:

  • ঐ কলামের সমস্ত মান সাজানো হয়।
  • তারপর, কলামের মাঝের মান (Median) বের করা হয়।
  • মিসিং ভ্যালু গুলি ঐ মধ্যম মান দ্বারা প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [1, 2, 3, 4, NaN, 6]
এখানে NaN হল মিসিং মান।
এই ডেটা সাজানো হলে: [1, 2, 3, 4, 6]
এখানে মধ্যম মান হল 3।
তাহলে, NaN ভ্যালুটির পরিবর্তে 3 রাখা হবে।

সুবিধা:

  • স্কিউড বা আউটলাইয়ার-ভিত্তিক ডেটাতে কার্যকরী।
  • গড়ের তুলনায় মধ্যম মান ডেটার বৈচিত্র্য বেশি রাখে।

অসুবিধা:

  • কিছু পরিস্থিতিতে গড়ের চেয়ে কম তথ্যপূর্ণ হতে পারে।
  • খুব ছোট ডেটাসেটে এটি ব্যবহার করা কঠিন হতে পারে।

৩. Mode Imputation (ফ্রিকোয়েন্ট মান দ্বারা পূর্ণ করা)

Mode Imputation হল মিসিং ভ্যালুগুলিকে ঐ কলামের Mode (সবচেয়ে সাধারণ বা প্রায়ই আসা মান) দিয়ে পূর্ণ করার পদ্ধতি। এটি সাধারণত ক্যাটেগোরিকাল (Categorical) ডেটার জন্য ব্যবহৃত হয়, যেখানে সংখ্যা বা লেবেল পুনরায় আসতে থাকে।

কিভাবে কাজ করে:

  • ঐ কলামের মানগুলির মধ্যে যে মানটি সবচেয়ে বেশি বার আসে, সেটিই Mode হিসেবে নির্বাচিত হয়।
  • মিসিং ভ্যালুগুলি Mode দ্বারা প্রতিস্থাপিত হয়।

উদাহরণ:

ধরা যাক, একটি কলামে এই মানগুলি আছে: [Red, Blue, Green, Green, NaN, Green]
এখানে NaN হল মিসিং মান।
এখানে Mode হচ্ছে Green, কারণ এটি সবচেয়ে বেশি বার এসেছে।
তাহলে, NaN ভ্যালুটির পরিবর্তে Green রাখা হবে।

সুবিধা:

  • ক্যাটেগোরিকাল ডেটার জন্য খুবই কার্যকরী।
  • আউটলাইয়ারের প্রভাব কম হয়।

অসুবিধা:

  • যদি অনেক ভিন্ন ভিন্ন মান থাকে এবং কোন স্পষ্ট Mode না থাকে, তাহলে এটি ঠিকভাবে কাজ নাও করতে পারে।
  • Mode তেমন বৈচিত্র্যপূর্ণ তথ্য দিতে নাও পারে।

সারসংক্ষেপ

মিসিং ডেটা হ্যান্ডলিংয়ের তিনটি সাধারণ পদ্ধতি:

  • Mean Imputation: গড় মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি সংখ্যাসূচক ডেটার জন্য কার্যকরী, তবে আউটলাইয়ার বা স্কিউড ডেটার ক্ষেত্রে ফলস্বরূপ সঠিক নাও হতে পারে।
  • Median Imputation: মধ্যম মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি স্কিউড বা আউটলাইয়ার ডেটা বিশ্লেষণে কার্যকর।
  • Mode Imputation: ফ্রিকোয়েন্ট মান ব্যবহার করে মিসিং ডেটা পূর্ণ করা। এটি ক্যাটেগোরিকাল ডেটার জন্য উপযুক্ত।

মিসিং ডেটা হ্যান্ডলিংয়ের জন্য যে পদ্ধতিটি ব্যবহার করবেন, তা নির্ভর করবে ডেটার প্রকৃতি (সংখ্যাসূচক, ক্যাটেগোরিকাল) এবং ডেটার বিভাজন (স্কিউড, আউটলাইয়ারস ইত্যাদি) এর উপর।

Content added By

Feature Scaling (Normalization, Standardization)

322

ফিচার স্কেলিং হল একটি গুরুত্বপূর্ণ প্রক্রিয়া যা মেশিন লার্নিং মডেলগুলির জন্য প্রাসঙ্গিক ডেটা প্রসেসিং স্টেপ। এটি ডেটার ফিচারগুলির মধ্যে স্কেল বা পরিসরের পার্থক্য দূর করার জন্য ব্যবহৃত হয়, যাতে মডেলটি সঠিকভাবে কাজ করতে পারে। বিশেষত, বিভিন্ন মডেল যেমন লিনিয়ার রিগ্রেশন, কন্টিনিউয়াস ডেটা নিয়ে কাজ করে, যখন ফিচারের স্কেল একে অপর থেকে অনেক বেশি ভিন্ন হয়, তখন মডেলটি ঠিকভাবে শেখা বা ভবিষ্যদ্বাণী করতে পারে না।

ফিচার স্কেলিং দুটি প্রধান পদ্ধতিতে বিভক্ত:

১. নর্মালাইজেশন (Normalization)

নর্মালাইজেশন (বা Min-Max স্কেলিং) হল একটি পদ্ধতি যা ডেটার প্রতিটি ফিচারকে একটি নির্দিষ্ট পরিসরে (সাধারণত ০ থেকে ১ এর মধ্যে) নিয়ে আসে। এই পদ্ধতিতে, প্রতিটি মানকে তার বর্তমান পরিসরের সর্বনিম্ন মান থেকে সর্বোচ্চ মানের মধ্যে স্কেল করা হয়।

কিভাবে কাজ করে:

নর্মালাইজেশন করার জন্য প্রতিটি ফিচারের মানকে নিচের ফর্মুলা অনুযায়ী ক্যালকুলেট করা হয়:

Xnorm=Xmin(X)max(X)min(X)X_{\text{norm}} = \frac{X - \min(X)}{\max(X) - \min(X)}

এখানে,

  • XX হল ফিচারের মৌলিক মান।
  • min(X)\min(X) হল ঐ ফিচারের সর্বনিম্ন মান।
  • max(X)\max(X) হল ঐ ফিচারের সর্বোচ্চ মান।
  • XnormX_{\text{norm}} হল স্কেল করা মান।

যখন ব্যবহার করবেন:

  • যখন ফিচারের মানের পরিসর অনেক বেশি ভিন্ন হতে পারে (যেমন, 1 থেকে 1000 পর্যন্ত)।
  • যখন আপনি একটি মডেল ব্যবহার করছেন যা সেন্ট্রাল টেনডেন্স (Mean) বা ভারিয়েন্সের উপর নির্ভরশীল নয়, যেমন Neural Networks, K-Nearest Neighbors (KNN) এবং Support Vector Machines (SVM)

উদাহরণ:

ধরা যাক, আমরা একটি ডেটাসেটের মধ্যে একটির মধ্যে বয়সের মান ১৮ থেকে ৭০ এবং অন্যটির মধ্যে ইনকাম ১০০০ থেকে ১,০০,০০০ পর্যন্ত। এমন পরিস্থিতিতে নর্মালাইজেশন ব্যবহারের মাধ্যমে স্কেল করে এই মানগুলিকে ০ এবং ১ এর মধ্যে নিয়ে আসা হবে।


২. স্ট্যান্ডার্ডাইজেশন (Standardization)

স্ট্যান্ডার্ডাইজেশন বা Z-score স্কেলিং হল এমন একটি পদ্ধতি যা ডেটাকে এমনভাবে স্কেল করে যে তার মানের গড় (mean) ০ এবং স্ট্যান্ডার্ড ডিভিয়েশন (standard deviation) ১ হয়। এটি ডেটার সেন্ট্রালাইজেশন এবং স্কেলিং উভয়কে একসাথে করে।

কিভাবে কাজ করে:

স্ট্যান্ডার্ডাইজেশন করার জন্য প্রতিটি ফিচারের মানকে নিচের ফর্মুলা অনুযায়ী ক্যালকুলেট করা হয়:

Xstd=XμσX_{\text{std}} = \frac{X - \mu}{\sigma}

এখানে,

  • XX হল ফিচারের মৌলিক মান।
  • μ\mu হল ফিচারের গড় (Mean)।
  • σ\sigma হল ফিচারের স্ট্যান্ডার্ড ডিভিয়েশন (Standard Deviation)।
  • XstdX_{\text{std}} হল স্ট্যান্ডার্ডাইজড মান।

যখন ব্যবহার করবেন:

  • যখন আপনার ডেটার গড় এবং বৈচিত্র্য (variance) জানা থাকে এবং আপনি মডেলকে স্কেলিংয়ের জন্য একটি নির্দিষ্ট পদ্ধতির প্রয়োজন, যেমন Logistic Regression, Linear Regression, Principal Component Analysis (PCA) এবং Support Vector Machines (SVM)
  • যখন ডেটার মধ্যে কিছু বড় বৈচিত্র্য (outliers) থাকতে পারে এবং আপনি তাদের প্রভাব কমাতে চান।

উদাহরণ:

ধরা যাক, বয়সের গড় ৪০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১৫, যদি একটি ব্যক্তি ৫৫ বছর বয়সী হন, তাহলে তার স্ট্যান্ডার্ডাইজড মান হবে:

Xstd=554015=1X_{\text{std}} = \frac{55 - 40}{15} = 1


কীভাবে নির্বাচিত করবেন - Normalization vs Standardization

  • Normalization: যদি আপনি জানেন যে ডেটার ফিচারগুলির মধ্যে বড় পার্থক্য থাকতে পারে এবং আপনার মডেল দ্রুত শিখবে বা নতুন ফিচারের উপর নির্ভরশীল হবে (যেমন KNN, Neural Networks), তবে নর্মালাইজেশন ব্যবহার করা ভালো।
  • Standardization: যদি আপনার ডেটা গড় এবং বৈচিত্র্য নির্ভরশীল থাকে, এবং আপনি একটি মডেল ব্যবহার করছেন যা গড় ও স্ট্যান্ডার্ড ডেভিয়েশনের উপর নির্ভরশীল (যেমন Linear Regression বা PCA), তাহলে স্ট্যান্ডার্ডাইজেশন বেশি উপযুক্ত।

উপসংহার

ফিচার স্কেলিং মেশিন লার্নিং মডেলকে আরও কার্যকর এবং দ্রুতগতির কাজ করার জন্য গুরুত্বপূর্ণ। নর্মালাইজেশন একটি নির্দিষ্ট সীমার মধ্যে ডেটাকে নিয়ে আসে, যখন স্ট্যান্ডার্ডাইজেশন ডেটার গড় এবং স্ট্যান্ডার্ড ডিভিয়েশন ব্যবহার করে। মডেল এবং ডেটার ধরণ অনুযায়ী ফিচার স্কেলিংয়ের সঠিক পদ্ধতি নির্বাচন করা উচিত।

Content added By

Feature Encoding (One-Hot Encoding, Label Encoding)

307

ফিচার এনকোডিং (Feature Encoding) হলো সেই প্রক্রিয়া, যেখানে ক্যাটেগোরিক্যাল (Categorical) ডেটাকে সংখ্যাগত (Numerical) আকারে রূপান্তর করা হয়, যাতে এটি মেশিন লার্নিং অ্যালগরিদম দ্বারা ব্যবহৃত হতে পারে। মেশিন লার্নিং মডেলগুলি সাধারণত শুধুমাত্র সংখ্যামূলক ডেটা প্রক্রিয়া করতে পারে, তাই ক্যাটেগোরিক্যাল ডেটা সঠিকভাবে এনকোড করা খুবই গুরুত্বপূর্ণ।

ফিচার এনকোডিং-এর দুটি জনপ্রিয় পদ্ধতি হলো:

  • ওয়ান-হট এনকোডিং (One-Hot Encoding)
  • লেবেল এনকোডিং (Label Encoding)

এই দুটি পদ্ধতি ব্যবহৃত হয় বিভিন্ন ধরনের ক্যাটেগোরিক্যাল ফিচারের জন্য। নিচে প্রতিটি পদ্ধতির বিস্তারিত ব্যাখ্যা দেয়া হলো।


১. ওয়ান-হট এনকোডিং (One-Hot Encoding)

ওয়ান-হট এনকোডিং হল একটি পদ্ধতি, যেখানে ক্যাটেগোরিক্যাল ভ্যালুকে বাইনারি (0 অথবা 1) ভ্যালুতে রূপান্তর করা হয়। প্রতিটি ক্যাটেগোরিক্যাল ভ্যালুর জন্য একটি নতুন কলাম তৈরি করা হয়, এবং যদি কোনো রেকর্ড সেই ক্যাটেগরি সম্পর্কিত হয়, তবে সেই কলামে '1' থাকবে, অন্যথায় '0' থাকবে।

উদাহরণ:

ধরা যাক, আমাদের একটি কলাম আছে যার নাম "Color" এবং এতে ৩টি ভ্যালু: "Red", "Green", এবং "Blue"

Color
Red
Green
Blue
Green
Red

ওয়ান-হট এনকোডিং প্রয়োগ করার পর, এটি হবে:

Color_RedColor_GreenColor_Blue
100
010
001
010
100

এখানে, "Red" এর জন্য Color_Red কলামে '1' এবং অন্য কলামগুলোতে '0' থাকবে, এবং একইভাবে অন্য ক্যাটেগোরি গুলোর জন্যও হবে।

সুবিধা:

  • এই পদ্ধতিটি মডেলকে ভ্যালুর মধ্যে কোনো অর্ডার বা পার্থক্য দেখতে দেয় না, কারণ প্রতিটি ক্যাটেগোরি আলাদা কলামে রূপান্তরিত হয়।

অসুবিধা:

  • যদি ক্যাটেগোরির সংখ্যা অনেক বড় হয় (যেমন হাজার হাজার ক্যাটেগোরি), তবে এটি অনেক বেশি ফিচার তৈরি করতে পারে, যা মডেলকে জটিল ও ধীর গতির করতে পারে।

২. লেবেল এনকোডিং (Label Encoding)

লেবেল এনকোডিং হল একটি পদ্ধতি যেখানে ক্যাটেগোরিক্যাল ভ্যালুগুলিকে একটি ইউনিক সংখ্যা দিয়ে রূপান্তর করা হয়। এখানে, প্রতিটি ভ্যালু একটি নির্দিষ্ট সংখ্যা দ্বারা প্রতিনিধিত্ব করা হয়। সাধারণত, এটি অর্ডারড বা রাঙ্কড ক্যাটেগোরি ফিচারের জন্য ব্যবহৃত হয়।

উদাহরণ:

ধরা যাক, আমাদের একই "Color" কলামটি আছে, যেখানে ভ্যালুগুলি "Red", "Green", এবং "Blue"। লেবেল এনকোডিং প্রয়োগ করার পর:

ColorEncoded Color
Red0
Green1
Blue2
Green1
Red0

এখানে, "Red"-কে 0, "Green"-কে 1, এবং "Blue"-কে 2 দ্বারা প্রতিনিধিত্ব করা হয়েছে।

সুবিধা:

  • লেবেল এনকোডিং সাধারণত কম স্পেস নেয়, কারণ এটি সংখ্যামূলক কোডের মাধ্যমে প্রতিটি ক্যাটেগোরি প্রতিনিধিত্ব করে।

অসুবিধা:

  • এটি ব্যবহারের ক্ষেত্রে যদি ক্যাটেগোরিগুলোর মধ্যে কোন প্রাকৃতিক অর্ডার না থাকে, তবে মডেলটি ভুলভাবে তাদের মধ্যে সম্পর্ক গড়ে তুলতে পারে। উদাহরণস্বরূপ, এখানে "Red" (0), "Green" (1), এবং "Blue" (2) এর মধ্যে কোনো স্বাভাবিক ক্রম নেই, কিন্তু লেবেল এনকোডিং মডেলটি এগুলোর মধ্যে একটি নির্দিষ্ট রাঙ্কিং বা ক্রম অনুমান করতে পারে, যা ভুল ফলাফল দিতে পারে।

সারসংক্ষেপ (Summary)

পদ্ধতিবিবরণসুবিধাঅসুবিধা
ওয়ান-হট এনকোডিংপ্রতিটি ক্যাটেগরি ভ্যালুর জন্য একটি নতুন কলাম তৈরি করে, এবং সেখানে '1' বা '0' থাকবে।ক্যাটেগোরি মধ্যে কোন অর্ডার বা পার্থক্য ধরা হয় না, সঠিক মডেল প্রশিক্ষণ।অনেক ক্যাটেগরি থাকলে অনেক ফিচার তৈরি হতে পারে, যা মডেলকে ধীর করে তুলতে পারে।
লেবেল এনকোডিংপ্রতিটি ক্যাটেগরি ভ্যালুকে একটি ইউনিক সংখ্যা দিয়ে এনকোড করা হয়।কম স্পেস নেয় এবং দ্রুত মডেল প্রশিক্ষণ।অর্ডারড ক্যাটেগরি না থাকলে মডেল ভুলভাবে সম্পর্ক নির্ধারণ করতে পারে।

প্রত্যেক পদ্ধতির নিজস্ব সুবিধা এবং অসুবিধা আছে, এবং আপনার ডেটার ধরণ এবং মডেলিং উদ্দেশ্যের ওপর ভিত্তি করে সঠিক পদ্ধতি নির্বাচন করা উচিত।

Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...