Skill

ডেটা প্রিপারেশন এবং SageMaker

Latest Technologies - সেইজমেকার (SageMaker)
61
61

ডেটা প্রস্তুতি (Data Preparation) মেশিন লার্নিং প্রকল্পের একটি অত্যন্ত গুরুত্বপূর্ণ ধাপ। এটি ডেটাকে বিশ্লেষণ করার জন্য উপযোগী করার প্রক্রিয়া, যা মডেল প্রশিক্ষণের গুণমানকে প্রভাবিত করে। Amazon SageMaker ডেটা প্রস্তুতির জন্য বিভিন্ন টুল এবং ফিচার প্রদান করে, যা ডেটা বিজ্ঞানীদের কাজকে সহজ করে তোলে। নিচে SageMaker-এ ডেটা প্রস্তুতির প্রক্রিয়া এবং এর প্রধান উপাদানগুলি উল্লেখ করা হলো:

ডেটা প্রস্তুতি ধাপ

১. ডেটা সংগ্রহ

  • উপাদান: ডেটা বিভিন্ন উৎস থেকে সংগ্রহ করা হয়, যেমন CSV ফাইল, ডেটাবেস, APIs, বা AWS S3।
  • SageMaker Integration: SageMaker S3 বাকি একটি শক্তিশালী সংরক্ষণাগার, যেখানে ডেটা স্টোরেজ করা হয়।

২. ডেটা বিশ্লেষণ

  • Exploratory Data Analysis (EDA): ডেটার বৈশিষ্ট্য বোঝার জন্য বিভিন্ন বিশ্লেষণমূলক টুল ব্যবহার করা হয়।
  • SageMaker Notebooks: Jupyter Notebooks ব্যবহার করে ডেটা বিশ্লেষণ করা হয়, যা গ্রাফ এবং চার্টের মাধ্যমে ডেটার ধারণা প্রদান করে।

৩. ডেটা পরিষ্কার করা

  • Missing Values: অনুপস্থিত ডেটা চিহ্নিত করা এবং পূরণ বা বাদ দেওয়া।
  • Outliers: অস্বাভাবিক বা বিরল ডেটা পয়েন্ট চিহ্নিত করা এবং প্রয়োজন অনুযায়ী পরিচালনা করা।

৪. ডেটা রূপান্তর

  • Normalization: ডেটাকে সাধারণ মানদণ্ডে রূপান্তর করা, যাতে এটি মডেলের জন্য প্রস্তুত হয়।
  • Encoding: ক্যাটাগোরিকাল ডেটাকে সংখ্যায় রূপান্তর করা (যেমন One-hot encoding)।

৫. ডেটা বিভাজন

  • Training, Validation, Test Set: ডেটাকে প্রশিক্ষণ, বৈধকরণ এবং পরীক্ষার জন্য বিভক্ত করা।
  • SageMaker: SageMaker ডেটা স্লাইসিং ও ডেটা প্রস্তুতির জন্য বিভিন্ন টুল প্রদান করে, যাতে এই কাজটি সহজ হয়।

SageMaker-এ ডেটা প্রস্তুতির উপাদানগুলি

১. SageMaker Data Wrangler

  • বর্ণনা: ডেটা প্রস্তুতির জন্য একটি টুল যা ব্যবহারকারীদের ডেটা ইমপোর্ট, বিশ্লেষণ এবং প্রক্রিয়াকরণের প্রক্রিয়াটি সহজ করে।
  • ফিচার: এটি বিভিন্ন প্রক্রিয়াকরণ পদ্ধতি (যেমন ক্লিনিং, রূপান্তর, এবং বৈশিষ্ট্য নির্মাণ) সরাসরি ক্লিকের মাধ্যমে সম্পন্ন করতে সক্ষম।

২. SageMaker Ground Truth

  • বর্ণনা: এটি একটি ডেটা লেবেলিং সেবা, যা ডেটাকে সঠিকভাবে লেবেল করতে সহায়তা করে। এটি স্বয়ংক্রিয় এবং ম্যানুয়াল উভয় লেবেলিং মেথড সমর্থন করে।
  • ফিচার: লেবেলিংয়ের জন্য সঠিকতা বৃদ্ধি এবং সময় সাশ্রয়।

৩. SageMaker Pipelines

  • বর্ণনা: এটি একটি সম্পূর্ণ ডেটা প্রক্রিয়াকরণ ওয়ার্কফ্লো তৈরি করতে সহায়তা করে, যেখানে ডেটা প্রস্তুতি, মডেল প্রশিক্ষণ এবং মূল্যায়ন সম্পন্ন হয়।
  • ফিচার: সম্পূর্ণ মেশিন লার্নিং পদ্ধতিকে স্বয়ংক্রিয় করা এবং পরিচালনা করা সহজ করে।

কেন ডেটা প্রস্তুতি গুরুত্বপূর্ণ

  • মডেল গুণমান: ডেটা যত ভালো হবে, মডেলের গুণমান তত উন্নত হবে।
  • প্রশিক্ষণ সময়: সঠিকভাবে প্রস্তুত ডেটা প্রশিক্ষণ সময় এবং সম্পদ সাশ্রয় করে।
  • নির্ভুলতা: প্রক্রিয়া সঠিক ডেটা নিশ্চিত করে, যা ভবিষ্যদ্বাণীর সঠিকতা বাড়ায়।

উপসংহার

Amazon SageMaker ডেটা প্রস্তুতির জন্য শক্তিশালী টুল এবং ফিচার প্রদান করে, যা ডেটা বিজ্ঞানীদের কাজকে সহজ এবং কার্যকর করে তোলে। SageMaker-এর ডেটা প্রস্তুতির বিভিন্ন উপাদানগুলি ব্যবহার করে, আপনি মডেল প্রশিক্ষণের জন্য প্রস্তুত ডেটা তৈরি করতে পারবেন, যা শেষ ফলাফলের গুণমানকে প্রভাবিত করে।

Data Wrangling এবং Preprocessing এর প্রয়োজনীয়তা

67
67

Data Wrangling এবং Preprocessing হলো ডেটা বিজ্ঞান ও মেশিন লার্নিং প্রক্রিয়ার গুরুত্বপূর্ণ পদক্ষেপ। এগুলো ডেটাকে বিশ্লেষণযোগ্য এবং মডেল প্রশিক্ষণের জন্য প্রস্তুত করতে সহায়ক। নিচে এই দুটি প্রক্রিয়ার প্রয়োজনীয়তা এবং গুরুত্ব উল্লেখ করা হলো।

Data Wrangling

Data Wrangling (বা Data Munging) হলো ডেটাকে সংগঠিত এবং সঠিকভাবে প্রস্তুত করার প্রক্রিয়া, যাতে এটি আরও বিশ্লেষণযোগ্য হয়ে ওঠে। এটি সাধারণত বিভিন্ন উৎস থেকে ডেটা সংগ্রহ, পরিষ্কার করা এবং একটি কাঠামোবদ্ধ ফরম্যাটে রূপান্তর করার প্রক্রিয়া অন্তর্ভুক্ত করে।

প্রয়োজনীয়তা:

ডেটার গুণগত মান:

  • ডেটার অখণ্ডতা এবং সঠিকতা নিশ্চিত করতে Data Wrangling অত্যন্ত গুরুত্বপূর্ণ। এটি ডেটার ভুল এবং অনুপস্থিত মানগুলি সংশোধন করতে সাহায্য করে।

ডেটা সংগ্রহ:

  • বিভিন্ন উৎস থেকে ডেটা সংগ্রহ করার প্রয়োজনীয়তা থাকে। Data Wrangling প্রক্রিয়ার মাধ্যমে এই সংগ্রহ করা ডেটা একত্রিত করা হয়।

ডেটা সংগঠন:

  • বিভিন্ন ধরণের ডেটা (যেমন: টেক্সট, সংখ্যা, সময়, ক্যাটেগরিক্যাল) একটি কাঠামোবদ্ধ ফরম্যাটে রূপান্তর করা হয়, যাতে এটি সহজে বিশ্লেষণ করা যায়।

ডেটা বৈচিত্র্য:

  • বিভিন্ন ডেটার উৎস, ফরম্যাট এবং টাইপের কারণে ডেটা বৈচিত্র্য বাড়াতে সাহায্য করে।

Preprocessing

Preprocessing হলো ডেটার প্রস্তুতির পরবর্তী ধাপ, যা ডেটাকে মডেল প্রশিক্ষণের জন্য উপযুক্ত করে তোলে। এতে ডেটা পরিবর্তন এবং ট্রান্সফরমেশন অন্তর্ভুক্ত হয়।

প্রয়োজনীয়তা:

ডেটার স্কেলিং:

  • বিভিন্ন ফিচারের স্কেল যদি ভিন্ন হয়, তবে মডেলটি সঠিকভাবে কাজ নাও করতে পারে। তাই স্কেলিং এবং নরমালাইজেশন গুরুত্বপূর্ণ।

ডেটার ফিচার ইঞ্জিনিয়ারিং:

  • নতুন ফিচার তৈরি করা বা অপ্রয়োজনীয় ফিচার বাদ দেওয়া, যা মডেলের পারফরম্যান্স উন্নত করতে সহায়ক।

ডেটার ক্লিনিং:

  • অনুপস্থিত মান, আউটলায়ার, এবং ত্রুটিপূর্ণ তথ্য দূর করা, যাতে মডেলটি সঠিকভাবে প্রশিক্ষিত হতে পারে।

ক্যাটেগরিক্যাল ডেটার এনকোডিং:

  • ক্যাটেগরিক্যাল ডেটা সংখ্যা বা অন্য ফরম্যাটে রূপান্তর করা হয়, যাতে এটি মডেলে ব্যবহার করা যায়।

ডেটা বিভাজন:

  • ডেটাকে প্রশিক্ষণ, যাচাইকরণ এবং পরীক্ষার সেটে বিভক্ত করা, যাতে মডেলের কার্যকারিতা সঠিকভাবে মূল্যায়ন করা যায়।

উপসংহার

Data Wrangling এবং Preprocessing হল ডেটা বিজ্ঞান এবং মেশিন লার্নিং প্রক্রিয়ার অঙ্গ। সঠিকভাবে এই ধাপগুলো সম্পন্ন করা মডেলের কার্যকারিতা এবং গুণগত মান নিশ্চিত করে। ডেটা ক্লিনিং, বৈচিত্র্য, স্কেলিং এবং ফিচার ইঞ্জিনিয়ারিং এর মাধ্যমে ডেটাকে কার্যকরভাবে প্রস্তুত করা হয়, যা শেষ পর্যন্ত আরও সঠিক ফলাফল এবং অন্তর্দৃষ্টি প্রদান করে।

SageMaker Data Wrangler ব্যবহার করে ডেটা প্রিপারেশন

59
59

Amazon SageMaker Data Wrangler হল একটি শক্তিশালী টুল যা ডেটা বিজ্ঞানীদের এবং ডেভেলপারদের জন্য ডেটা প্রস্তুতির প্রক্রিয়াকে সহজতর করে। এটি বিভিন্ন ডেটা সোর্স থেকে ডেটা সংগ্রহ, পরিষ্কার, বিশ্লেষণ এবং প্রক্রিয়া করার জন্য ব্যবহার করা হয়। এখানে SageMaker Data Wrangler ব্যবহার করে ডেটা প্রিপারেশন করার ধাপে ধাপে গাইড দেওয়া হলো:

ধাপ ১: SageMaker Studio খুলুন

  1. AWS Management Console: আপনার AWS অ্যাকাউন্টে লগ ইন করুন এবং AWS Management Console এ প্রবেশ করুন।
  2. SageMaker নির্বাচন করুন: সার্চ বারে "SageMaker" লিখুন এবং SageMaker পরিষেবাটি নির্বাচন করুন।
  3. SageMaker Studio খুলুন: SageMaker Studio-তে প্রবেশ করুন।

ধাপ ২: Data Wrangler অ্যাক্সেস করুন

  1. Data Wrangler খুঁজুন: SageMaker Studio ড্যাশবোর্ড থেকে "Data Wrangler" নির্বাচন করুন।
  2. নতুন Data Wrangler প্রজেক্ট তৈরি করুন: "Create new flow" অথবা "Start from scratch" ক্লিক করুন।

ধাপ ৩: ডেটা সোর্স যোগ করুন

  1. ডেটা সোর্স নির্বাচন করুন: Data Wrangler আপনার ডেটা সোর্স (যেমন S3, Redshift, RDS, বা স্থানীয় ফাইল) থেকে ডেটা আমদানি করার অপশন দেয়।
  2. ডেটা সোর্স যুক্ত করুন: আপনার পছন্দের সোর্স নির্বাচন করুন এবং প্রয়োজনীয় তথ্য প্রদান করুন (যেমন S3 URI)।
  3. ডেটা লোড করুন: সোর্স যুক্ত করার পরে, Data Wrangler স্বয়ংক্রিয়ভাবে ডেটা লোড করবে এবং একটি প্রিভিউ প্রদর্শন করবে।

ধাপ ৪: ডেটা পরিষ্কার এবং প্রক্রিয়া করুন

  1. ডেটা ক্লিনিং টুলস: Data Wrangler বিভিন্ন ক্লিনিং এবং প্রিপ্রসেসিং টুলস সরবরাহ করে, যেমন:
    • Missing Value Handling: মিসিং ভ্যালু বা অনুপস্থিত ডেটা মুছে ফেলা বা পূরণ করা।
    • Feature Engineering: নতুন ফিচার তৈরি করা এবং বিদ্যমান ফিচারগুলির পরিবর্তন করা।
    • Data Transformation: ডেটা পরিবর্তনের জন্য বিভিন্ন অপশন যেমন স্কেলিং, এনকোডিং ইত্যাদি।
  2. কৌশল নির্বাচন: প্রতিটি ফিচারের জন্য পরিষ্কার করার কৌশল নির্বাচন করুন এবং পরিবর্তনগুলি প্রিভিউ করুন।

ধাপ ৫: ডেটা বিশ্লেষণ করুন

  1. বিশ্লেষণ টুলস: Data Wrangler বিভিন্ন গ্রাফিকাল বিশ্লেষণ সরঞ্জাম সরবরাহ করে, যা ব্যবহারকারীদের ডেটার প্রবণতা এবং সম্পর্ক বিশ্লেষণ করতে সহায়তা করে।
  2. ভিজ্যুয়ালাইজেশন: বিভিন্ন ভিজ্যুয়ালাইজেশন তৈরি করুন, যেমন হিস্টোগ্রাম, স্ক্যাটার প্লট, এবং বক্স প্লট, যাতে ডেটার বিশ্লেষণ সহজ হয়।

ধাপ ৬: ডেটা এক্সপোর্ট করুন

  1. ডেটা সংরক্ষণ করুন: প্রিপ্রসেসড ডেটা S3 তে সংরক্ষণ করুন বা SageMaker Training Job এ পাঠান।
  2. অ্যাকশন মেনু: "Export" অপশনে ক্লিক করে ডেটা ফাইল হিসেবে ডাউনলোড করতে পারেন অথবা প্রশিক্ষণের জন্য SageMaker Training Job শুরু করতে পারেন।

উপসংহার

Amazon SageMaker Data Wrangler ব্যবহার করে ডেটা প্রিপারেশন একটি দ্রুত এবং কার্যকরী প্রক্রিয়া। এটি ডেটা সংগ্রহ, পরিষ্কার এবং বিশ্লেষণের কাজগুলোকে সহজ করে, যা পরবর্তী পর্যায়ে মেশিন লার্নিং মডেল তৈরির জন্য প্রস্তুতি নিতে সহায়ক।

Feature Engineering এবং Data Cleaning

84
84

Feature Engineering এবং Data Cleaning হল মেশিন লার্নিং প্রক্রিয়ার দুটি গুরুত্বপূর্ণ পর্যায়, যা ডেটা বিশ্লেষণ এবং মডেল প্রশিক্ষণের জন্য অপরিহার্য। নিচে এই দুটি প্রক্রিয়া সম্পর্কে বিস্তারিত আলোচনা করা হলো:

১. Feature Engineering

Feature Engineering হল একটি প্রক্রিয়া যা ডেটা থেকে নতুন বৈশিষ্ট্য (features) তৈরি করে, যা মডেলের কার্যকারিতা এবং সঠিকতা উন্নত করতে সাহায্য করে। এটি ডেটার গুণমান বৃদ্ধি করে এবং মডেলের জন্য গুরুত্বপূর্ণ তথ্য প্রকাশ করে।

ধাপগুলো:

ডেটা বোঝা:

  • প্রথমে, আপনার ডেটাসেটটি বোঝা গুরুত্বপূর্ণ। কোন কোন বৈশিষ্ট্যগুলি বিদ্যমান, এবং সেগুলি কীভাবে সংজ্ঞায়িত হয়।

নতুন বৈশিষ্ট্য তৈরি:

  • বিদ্যমান বৈশিষ্ট্যগুলি ব্যবহার করে নতুন বৈশিষ্ট্য তৈরি করা। উদাহরণস্বরূপ, একটি তারিখের বৈশিষ্ট্য থেকে "দিন", "মাস", এবং "বছর" আলাদা বৈশিষ্ট্য তৈরি করা।

বৈশিষ্ট্য নির্বাচন:

  • সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি নির্বাচন করা। এটি মডেলের সঠিকতা বাড়াতে সাহায্য করে এবং অতিরিক্ত জটিলতা কমায়। বৈশিষ্ট্য নির্বাচন করতে বিভিন্ন অ্যালগরিদম (যেমন, Recursive Feature Elimination) ব্যবহার করা যেতে পারে।

বৈশিষ্ট্য স্কেলিং:

  • বিভিন্ন স্কেলের বৈশিষ্ট্যগুলিকে একটি সাধারণ স্কেলে নিয়ে আসা, যেমন Min-Max Scaling বা Standardization, যাতে মডেলটি সঠিকভাবে কাজ করে।

বৈশিষ্ট্য রূপান্তর:

  • যেমন লগ পরিবর্তন, বক্স-কক্স পরিবর্তন, ইত্যাদি, বৈশিষ্ট্যগুলিকে রূপান্তর করা যাতে তারা মডেলের জন্য আরও উপযুক্ত হয়।

উদাহরণ:

  • একটি বাড়ির দাম পূর্বাভাস করার মডেলের জন্য, "বাড়ির আয়তন", "কক্ষের সংখ্যা", এবং "বাড়ির বয়স" থেকে নতুন বৈশিষ্ট্য তৈরি করা, যেমন "বাড়ির দাম প্রতি বর্গফুট"।

২. Data Cleaning

Data Cleaning হল একটি প্রক্রিয়া যা ডেটাসেট থেকে অপ্রয়োজনীয়, ভুল, এবং অসম্পূর্ণ ডেটা সরিয়ে ফেলে। এটি ডেটার গুণমান নিশ্চিত করতে সাহায্য করে, যাতে মডেল প্রশিক্ষণের সময় সঠিক ফলাফল পাওয়া যায়।

ধাপগুলো:

ডেটা সনাক্তকরণ:

  • ডেটা সেটে সমস্যা চিহ্নিত করা, যেমন:
    • মিসিং মান (missing values)
    • অযৌক্তিক মান (outliers)
    • পুনরাবৃত্তি (duplicates)

মিসিং ভ্যালু পূরণ:

  • মিসিং মানগুলিকে পূরণ করার বিভিন্ন কৌশল ব্যবহার করা:
    • গড়, মধ্যম, বা সর্বাধিক মান দ্বারা পূরণ করা।
    • পূর্ববর্তী বা পরবর্তী মান দ্বারা পূরণ করা (forward/backward fill)।

অযৌক্তিক মান অপসারণ:

  • অযৌক্তিক বা অস্বাভাবিক মানগুলো সরিয়ে ফেলা বা সংশোধন করা। উদাহরণস্বরূপ, "বয়স" বৈশিষ্ট্যে 150 বছরের বেশি মানগুলি বাদ দেওয়া।

ডুপ্লিকেট ডেটা মুছে ফেলা:

  • একাধিকবার উপস্থিত থাকা ডেটা সরিয়ে ফেলা।

ডেটা রূপান্তর:

  • ডেটা টাইপ সঠিক করা, যেমন সংখ্যা থেকে ক্যাটেগরিক টাইপে রূপান্তর করা বা তারিখের ফরম্যাট পরিবর্তন করা।

উদাহরণ:

  • একটি সেলস ডেটাসেটে, মিসিং মানগুলি পূরণ করা এবং অযৌক্তিক বিক্রয় পরিমাণগুলি সরিয়ে ফেলা।

উপসংহার

Feature Engineering এবং Data Cleaning হল ডেটা প্রক্রিয়াকরণের দুটি অপরিহার্য ধাপ। Data Cleaning নিশ্চিত করে যে ডেটা সঠিক এবং বিশুদ্ধ, যেখানে Feature Engineering নতুন বৈশিষ্ট্য তৈরি করে, যা মডেলের সঠিকতা এবং কার্যকারিতা বাড়ায়। এই দুটি প্রক্রিয়া সঠিকভাবে সম্পন্ন হলে, মেশিন লার্নিং মডেলের গুণমান এবং পারফরম্যান্স উল্লেখযোগ্যভাবে উন্নত হয়।

উদাহরণসহ ডেটা প্রিপারেশন প্রক্রিয়া

55
55

ডেটা প্রিপারেশন হল মেশিন লার্নিং প্রক্রিয়ার একটি গুরুত্বপূর্ণ অংশ, কারণ সঠিক এবং পরিষ্কার ডেটা মডেলের কার্যকারিতা উন্নত করতে সাহায্য করে। নিচে Amazon SageMaker ব্যবহার করে ডেটা প্রিপারেশন প্রক্রিয়া উদাহরণসহ আলোচনা করা হলো:

ধাপ ১: ডেটা সংগ্রহ

ডেটা সংগ্রহের জন্য বিভিন্ন উৎস ব্যবহার করা যেতে পারে। এটি CSV ফাইল, Excel স্প্রেডশীট, বা ডাটাবেস থেকেও হতে পারে।

উদাহরণ:

  • ধরুন, আপনি একটি CSV ফাইল ব্যবহার করছেন যেখানে আপনার বৈশিষ্ট্য এবং লক্ষ্য পরিবর্তনশীলগুলি রয়েছে, যেমন house_prices.csv

ধাপ ২: ডেটা লোড করা

SageMaker-এ ডেটা লোড করার জন্য, প্রথমে আপনাকে Amazon S3 (Simple Storage Service) ব্যবহার করে ডেটা আপলোড করতে হবে।

২.১. S3 বালতিতে ডেটা আপলোড

  1. S3 Console-এ যান: AWS Management Console থেকে S3 সেবা নির্বাচন করুন।
  2. নতুন বালতি তৈরি করুন: "Create bucket" বাটনে ক্লিক করে একটি নতুন বালতি তৈরি করুন (যেমন my-ml-data নামে)।
  3. CSV ফাইল আপলোড করুন: তৈরি করা বালতিতে house_prices.csv ফাইল আপলোড করুন।

ধাপ ৩: SageMaker-এ ডেটা লোড করা

৩.১. SageMaker নোটবুক খুলুন

  1. SageMaker কনসোল থেকে আপনার নোটবুক ইন্সট্যান্স খুলুন।
  2. Jupyter নোটবুক UI-তে একটি নতুন Python 3 নোটবুক তৈরি করুন।

৩.২. প্রয়োজনীয় লাইব্রেরি ইনস্টল করুন

import boto3
import pandas as pd

# S3 থেকে ডেটা লোড করার জন্য boto3 এবং pandas ব্যবহার করুন

৩.৩. S3 থেকে ডেটা লোড করা

# S3 থেকে CSV ফাইল লোড করুন
s3_bucket = 'my-ml-data'
file_name = 'house_prices.csv'

# S3 থেকে ডেটা লোড করা
s3_client = boto3.client('s3')
data = s3_client.get_object(Bucket=s3_bucket, Key=file_name)

# Pandas DataFrame এ ডেটা পড়ুন
df = pd.read_csv(data['Body'])
print(df.head())  # ডেটার প্রথম ৫টি সারি দেখুন

ধাপ ৪: ডেটা ক্লিনিং

ডেটা ক্লিনিং হল ডেটা থেকে অপ্রয়োজনীয় বা ভুল তথ্য সরানোর প্রক্রিয়া। এখানে কিছু সাধারণ কাজ রয়েছে:

৪.১. মিসিং ভ্যালু চেক করা

# মিসিং ভ্যালু চেক করা
print(df.isnull().sum())

৪.২. মিসিং ভ্যালু পূরণ করা

# মিসিং ভ্যালু পূরণ করা (যেমন, গড়ের মাধ্যমে)
df.fillna(df.mean(), inplace=True)

৪.৩. ডেটা টাইপ পরিবর্তন করা

# ডেটা টাইপ পরিবর্তন করা (যেমন, 'price' কলামের ডেটা টাইপ পরিবর্তন)
df['price'] = df['price'].astype(float)

ধাপ ৫: ফিচার ইঞ্জিনিয়ারিং

ফিচার ইঞ্জিনিয়ারিং হল নতুন বৈশিষ্ট্য তৈরি করা, যা মডেলের কার্যকারিতা উন্নত করতে সাহায্য করে।

৫.১. নতুন বৈশিষ্ট্য তৈরি করা

# নতুন বৈশিষ্ট্য তৈরি করুন (যেমন, 'price_per_sqft')
df['price_per_sqft'] = df['price'] / df['sqft_living']

ধাপ ৬: ডেটা ভাগ করা

মডেলের প্রশিক্ষণ এবং পরীক্ষার জন্য ডেটা ভাগ করা অপরিহার্য।

from sklearn.model_selection import train_test_split

# ডেটা ভাগ করা (৮০% প্রশিক্ষণের জন্য, ২০% পরীক্ষণের জন্য)
train_df, test_df = train_test_split(df, test_size=0.2, random_state=42)

ধাপ ৭: ডেটা সেভ করা

প্রস্তুত ডেটা S3 তে আবার আপলোড করা যেতে পারে।

# প্রশিক্ষণের জন্য প্রস্তুত ডেটা S3 তে আপলোড করা
train_df.to_csv('s3://my-ml-data/train_data.csv', index=False)
test_df.to_csv('s3://my-ml-data/test_data.csv', index=False)

উপসংহার

ডেটা প্রিপারেশন প্রক্রিয়া মেশিন লার্নিং মডেল তৈরির একটি গুরুত্বপূর্ণ পদক্ষেপ। এই প্রক্রিয়াগুলি অনুসরণ করে, আপনি ডেটা পরিষ্কার এবং প্রস্তুত করতে পারবেন, যা মডেলের কার্যকারিতা উন্নত করতে সহায়ক। 

টপ রেটেড অ্যাপ

স্যাট অ্যাকাডেমী অ্যাপ

আমাদের অল-ইন-ওয়ান মোবাইল অ্যাপের মাধ্যমে সীমাহীন শেখার সুযোগ উপভোগ করুন।

ভিডিও
লাইভ ক্লাস
এক্সাম
ডাউনলোড করুন
Promotion