Data Manipulation এবং Cleaning Techniques

আর প্রোগ্রামিং (R Programming) - Big Data and Analytics

445

ডেটা ম্যানিপুলেশন (Data Manipulation) এবং ডেটা ক্লিনিং (Data Cleaning) হচ্ছে ডেটা সায়েন্সের অত্যন্ত গুরুত্বপূর্ণ ধাপ। ডেটা ম্যানিপুলেশন দিয়ে ডেটাকে সহজে ব্যবহারযোগ্য ফরম্যাটে রূপান্তর করা হয়, এবং ডেটা ক্লিনিং দিয়ে অযাচিত বা ভুল ডেটা দূর করা হয়। আর প্রোগ্রামিং ভাষা বিভিন্ন শক্তিশালী টুল এবং প্যাকেজ সরবরাহ করে, যা এই কাজগুলো সহজ ও কার্যকরভাবে করার জন্য ব্যবহার করা হয়। এখানে ডেটা ম্যানিপুলেশন এবং ক্লিনিংয়ের কিছু গুরুত্বপূর্ণ কৌশল নিয়ে আলোচনা করা হবে।

ডেটা ম্যানিপুলেশন (Data Manipulation) Techniques

১. ডেটা ফ্রেম তৈরি করা

আর-এ ডেটা ফ্রেম হল সবচেয়ে সাধারণ ডেটা স্ট্রাকচার, যা টেবিলের মতো ডেটা সংরক্ষণ করে। আপনি data.frame() ফাংশন ব্যবহার করে একটি ডেটা ফ্রেম তৈরি করতে পারেন।

# ডেটা ফ্রেম তৈরি করা
df <- data.frame(
  Name = c("John", "Jane", "Mike"),
  Age = c(25, 28, 22),
  Score = c(90, 85, 88)
)
print(df)

এখানে, একটি ডেটা ফ্রেম তৈরি করা হয়েছে যেখানে "Name", "Age", এবং "Score" কলাম রয়েছে।

২. ডেটা ম্যানিপুলেশনের জন্য `dplyr` প্যাকেজ ব্যবহার করা

আর-এ ডেটা ম্যানিপুলেশনের জন্য dplyr প্যাকেজ একটি অত্যন্ত জনপ্রিয় টুল। এটি ডেটা ফিল্টারিং, রূপান্তর, এবং গ্রুপিংয়ের জন্য অনেক কার্যকরী ফাংশন সরবরাহ করে।

২.১. `filter()` ফাংশন

filter() ফাংশন ব্যবহার করে আপনি ডেটা ফ্রেম থেকে নির্দিষ্ট শর্ত অনুযায়ী রো (row) বাছাই করতে পারেন।

library(dplyr)
filtered_data <- filter(df, Age > 25)
print(filtered_data)

এখানে, Age > 25 শর্ত অনুযায়ী ডেটা ফিল্টার করা হয়েছে, অর্থাৎ ২৫ এর বেশি বয়সের রো নির্বাচন করা হয়েছে।

২.২. `select()` ফাংশন

select() ফাংশন ব্যবহার করে আপনি নির্দিষ্ট কলাম (column) নির্বাচন করতে পারেন।

selected_data <- select(df, Name, Score)
print(selected_data)

এখানে, শুধুমাত্র "Name" এবং "Score" কলাম নির্বাচন করা হয়েছে।

২.৩. `mutate()` ফাংশন

mutate() ফাংশন ব্যবহার করে নতুন কলাম তৈরি করা যায় বা পুরনো কলামের মান পরিবর্তন করা যায়।

df <- mutate(df, Age_in_5_years = Age + 5)
print(df)

এখানে, "Age_in_5_years" নামে একটি নতুন কলাম তৈরি করা হয়েছে, যেখানে বর্তমান বয়সের উপর ৫ বছর যোগ করা হয়েছে।

২.৪. `arrange()` ফাংশন

arrange() ফাংশন ব্যবহার করে ডেটা ফ্রেমের রো গুলিকে সাজানো যায়।

arranged_data <- arrange(df, desc(Score))
print(arranged_data)

এখানে, "Score" কলাম অনুযায়ী ডেটা ডিক্রিসিং অর্ডারে সাজানো হয়েছে।

ডেটা ক্লিনিং (Data Cleaning) Techniques

১. মিসিং ডেটা (Missing Data) হ্যান্ডলিং

ডেটা ক্লিনিংয়ের একটি গুরুত্বপূর্ণ অংশ হল মিসিং বা নাল ডেটা হ্যান্ডলিং। আর-এ মিসিং ডেটা চিহ্নিত করতে এবং সেটি পরিবর্তন করতে কিছু সাধারণ ফাংশন রয়েছে।

১.১. `is.na()` ফাংশন

is.na() ফাংশন দিয়ে আপনি একটি ডেটা ফ্রেমে মিসিং (NA) মান খুঁজে পেতে পারেন।

# মিসিং ডেটা খোঁজা
is.na(df)

১.২. মিসিং ডেটা প্রতিস্থাপন

আপনি মিসিং ডেটা replace() ফাংশন ব্যবহার করে প্রতিস্থাপন করতে পারেন।

df$Score[is.na(df$Score)] <- mean(df$Score, na.rm = TRUE)
print(df)

এখানে, যেকোনো মিসিং Score কলামের মান গড়ে (mean) দিয়ে প্রতিস্থাপন করা হয়েছে।

১.৩. মিসিং ডেটা মুছে ফেলা

na.omit() ফাংশন ব্যবহার করে আপনি মিসিং ডেটার রো গুলি মুছে ফেলতে পারেন।

cleaned_df <- na.omit(df)
print(cleaned_df)

এখানে, ডেটা ফ্রেম থেকে মিসিং ডেটা সম্বলিত রো মুছে ফেলা হয়েছে।

২. আউটলায়ার (Outlier) হ্যান্ডলিং

আউটলায়ার বা অস্বাভাবিক মান ক্লিনিংয়ের একটি অংশ, যা ডেটার গুণমান এবং বিশ্লেষণের উপর প্রভাব ফেলতে পারে। সাধারণত, আউটলায়ারগুলি যথাযথ গণনা বা পরিসংখ্যান পদ্ধতি ব্যবহার করে চিহ্নিত এবং সংশোধন করা হয়।

২.১. আউটলায়ার চিহ্নিত করা

আপনি boxplot() বা IQR (Interquartile Range) ব্যবহার করে আউটলায়ার চিহ্নিত করতে পারেন।

boxplot(df$Score)

এটি স্কোর কলামের জন্য একটি বক্সপ্লট তৈরি করবে, এবং আউটলায়ারগুলি চিহ্নিত হবে।

২.২. আউটলায়ার দূর করা

আউটলায়ারগুলি দূর করার জন্য IQR পদ্ধতি ব্যবহার করা যেতে পারে:

Q1 <- quantile(df$Score, 0.25)
Q3 <- quantile(df$Score, 0.75)
IQR <- Q3 - Q1
df_cleaned <- df[df$Score >= (Q1 - 1.5 * IQR) & df$Score <= (Q3 + 1.5 * IQR), ]
print(df_cleaned)

এখানে, IQR পদ্ধতি ব্যবহার করে আউটলায়ার দূর করা হয়েছে।

৩. ডেটা ফরম্যাটিং (Data Formatting)

ডেটার সঠিক ফরম্যাট নিশ্চিত করা ক্লিনিংয়ের আরেকটি গুরুত্বপূর্ণ অংশ। ডেটা ফরম্যাটিংয়ের জন্য as.Date(), as.factor(), ইত্যাদি ফাংশন ব্যবহার করা হয়।

৩.১. ডেটা ফরম্যাটে রূপান্তর

df$Date <- as.Date(df$Date, format = "%Y-%m-%d")

এখানে, "Date" কলামের ডেটা ফরম্যাট YYYY-MM-DD-এ রূপান্তরিত করা হয়েছে।

৩.২. ফ্যাক্টর ভ্যালু চেক করা

df$Category <- as.factor(df$Category)

এখানে, "Category" কলামকে ফ্যাক্টর হিসেবে রূপান্তর করা হয়েছে।

সারাংশ

ডেটা ম্যানিপুলেশন এবং ক্লিনিং আর প্রোগ্রামিংয়ের গুরুত্বপূর্ণ অংশ। dplyr প্যাকেজের মাধ্যমে ডেটা ম্যানিপুলেশন যেমন ফিল্টার, সিলেক্ট, অর্গানাইজ, এবং মিউটেট করা যায়। ডেটা ক্লিনিংয়ের জন্য মিসিং ডেটা হ্যান্ডলিং, আউটলায়ার চিহ্নিতকরণ এবং ফরম্যাটিং গুরুত্বপূর্ণ। ডেটা ম্যানিপুলেশন ও ক্লিনিংয়ের সঠিক কৌশলগুলো ব্যবহার করে বিশ্লেষণের জন্য সঠিক এবং পরিষ্কার ডেটা প্রস্তুত করা যায়, যা পরবর্তী পদক্ষেপগুলো আরও কার্যকরী ও নির্ভুল করে তোলে।

Content added By

Rezwan Siddiki Tamim

Data Cleaning এর জন্য Techniques (Missing Values, Outliers)

483

ডেটা ক্লিনিং (Data Cleaning) হল ডেটাকে বিশুদ্ধ ও কার্যকরী করার একটি গুরুত্বপূর্ণ প্রক্রিয়া। ডেটা ক্লিনিং-এর মাধ্যমে আমরা ভুল বা অনুপস্থিত (missing) মান, অস্বাভাবিক মান (outliers), এবং অন্যান্য সমস্যাগুলি সনাক্ত করে সেগুলি সংশোধন বা সরিয়ে ফেলি, যাতে ডেটার বিশ্লেষণ সঠিক এবং অর্থপূর্ণ হয়। এই প্রক্রিয়া ডেটা সায়েন্স এবং পরিসংখ্যান বিশ্লেষণের ক্ষেত্রে অত্যন্ত গুরুত্বপূর্ণ।

এখানে আমরা আলোচনা করব Missing Values এবং Outliers এর সাথে সম্পর্কিত কিছু ডেটা ক্লিনিং টেকনিকের বিষয়ে।

Missing Values (অনুপস্থিত মান)

Missing values বলতে বোঝায়, যখন ডেটা সেটের কোনো নির্দিষ্ট মান অনুপস্থিত থাকে বা পাওয়া যায় না। এগুলি সাধারণত NA বা NULL হিসেবে রেকর্ড করা হয়। অনুপস্থিত মান ডেটার বিশ্লেষণে সমস্যার সৃষ্টি করতে পারে, তাই এগুলিকে সঠিকভাবে পরিচালনা করা খুবই গুরুত্বপূর্ণ।

Missing Values চেক করা

আর-এ, ডেটা সেটে মিসিং ভ্যালু চেক করার জন্য কিছু ফাংশন রয়েছে:

১. `is.na()` ফাংশন

এই ফাংশনটি ডেটা সেটের প্রতিটি উপাদান চেক করে, এবং যদি মানটি মিসিং হয়, তাহলে TRUE রিটার্ন করে, অন্যথায় FALSE।

# মিসিং ভ্যালু চেক করা
data <- c(1, 2, NA, 4, 5)
is.na(data)  # আউটপুট: FALSE FALSE TRUE FALSE FALSE

২. `sum(is.na())` ফাংশন

এটি পুরো ডেটা সেটে মোট কতটি মিসিং ভ্যালু আছে তা নির্ধারণ করতে ব্যবহার করা হয়।

# মিসিং ভ্যালুর সংখ্যা গণনা করা
sum(is.na(data))  # আউটপুট: 1 (এখানে ১টি NA রয়েছে)

Missing Values পরিচালনা (Handling Missing Values)

১. মিসিং ভ্যালু ইমপিউটেশন (Imputation)

ইমপিউটেশন হলো একটি সাধারণ কৌশল, যেখানে মিসিং ভ্যালু পূর্ণ করার জন্য অন্য কোনো উপযুক্ত মান ব্যবহার করা হয়। এখানে সাধারণত গড় (mean), মধ্যম (median), বা অন্য কোনো পদ্ধতি ব্যবহার করা হয়।

# গড় দিয়ে মিসিং ভ্যালু পূর্ণ করা
data[is.na(data)] <- mean(data, na.rm = TRUE)

২. মিসিং ভ্যালু সরিয়ে ফেলা (Removing Missing Values)

আপনি যদি মিসিং ভ্যালুগুলো সরিয়ে দিতে চান, তবে na.omit() ফাংশন ব্যবহার করতে পারেন।

# মিসিং ভ্যালু সরিয়ে ফেলা
clean_data <- na.omit(data)

৩. অন্য ধরণের ইমপিউটেশন

মডেল ব্যবহার করে বা কাস্টমাইজড ইমপিউটেশন মেথড ব্যবহার করেও মিসিং ভ্যালু পূর্ণ করা যেতে পারে, যেমন কনফিউশন ম্যাট্রিক্স বা কনভোলিউশনাল নেটওয়ার্ক।

Outliers (অস্বাভাবিক মান)

Outliers হল এমন ডেটা পয়েন্ট যা ডেটা সেটের সাধারণ প্রবণতা থেকে খুব দূরে থাকে। এগুলি সাধারণত খুব ছোট বা বড় মানের সংখ্যা হতে পারে এবং এর ফলে বিশ্লেষণের ফলাফল বিকৃত হতে পারে। Outliers চিহ্নিত এবং পরিচালনা করা ডেটা ক্লিনিংয়ের আরেকটি গুরুত্বপূর্ণ অংশ।

Outliers চেক করা

১. বক্সপ্লট (Boxplot)

বক্সপ্লট ব্যবহার করে খুব সহজেই আউটলিয়ার সনাক্ত করা যায়। আউটলিয়ারগুলো বক্সপ্লটের বাহিরে পয়েন্ট হিসেবে চিহ্নিত হয়।

# বক্সপ্লট তৈরি করা
boxplot(data)

২. Z-score

Z-score একটি পরিমাপ যা আউটলিয়ার সনাক্ত করতে ব্যবহৃত হয়। এটি ডেটা পয়েন্টের গড় থেকে কতটি স্ট্যান্ডার্ড ডিভিয়েশন দূরে রয়েছে তা বলে। সাধারণত, যদি Z-score ৩ এর বেশি বা কম হয়, তাহলে সেটি আউটলিয়ার হিসেবে বিবেচনা করা হয়।

# Z-score গণনা করা
z_scores <- scale(data)

Outliers পরিচালনা (Handling Outliers)

১. আউটলিয়ার সরানো

আউটলিয়ার সরাতে, আপনি সাধারণত ডেটা সেট থেকে অস্বাভাবিক মানগুলো ফিল্টার করে ফেলতে পারেন।

# আউটলিয়ার সরানো (Z-score এর মাধ্যমে)
data_cleaned <- data[abs(z_scores) < 3]

২. আউটলিয়ার ইমপিউটেশন

আউটলিয়ারের মান অন্য মান দ্বারা পূর্ণ করার জন্য ইমপিউটেশন ব্যবহার করা যেতে পারে। যেমন, আউটলিয়ারের পরিবর্তে আপনি গড় বা মিডিয়ান মান ব্যবহার করতে পারেন।

# আউটলিয়ারের পরিবর্তে গড় দিয়ে পূর্ণ করা
data[abs(z_scores) > 3] <- mean(data, na.rm = TRUE)

৩. আউটলিয়ার ম্যানুয়ালি চিহ্নিত করা

কিছুক্ষেত্রে, আউটলিয়ারগুলো ম্যানুয়ালি চিহ্নিত করা হয় এবং তাদের নির্দিষ্ট ভ্যালু দিয়ে পূর্ণ করা হয় বা বাদ দেওয়া হয়।

# আউটলিয়ার ম্যানুয়ালি সরানো
data <- data[data < 1000]  # আউটলিয়ার মান ১০০০ এর বেশি হলে সরিয়ে ফেলা হবে

সারাংশ

আর প্রোগ্রামিং-এ ডেটা ক্লিনিং একটি গুরুত্বপূর্ণ প্রক্রিয়া, যা missing values এবং outliers মোকাবিলা করে ডেটাকে আরও কার্যকরী এবং বিশ্লেষণযোগ্য করে তোলে। মিসিং ভ্যালু পরিচালনার জন্য ইমপিউটেশন বা সরিয়ে ফেলার পদ্ধতি ব্যবহার করা হয়, এবং আউটলিয়ার চিহ্নিত করতে বক্সপ্লট বা Z-score ব্যবহার করা হয়। আউটলিয়ারকে সঠিকভাবে ম্যানেজ করার মাধ্যমে ডেটার বিশ্লেষণ আরও সঠিক এবং নির্ভুল হয়।

Content added By

Rezwan Siddiki Tamim

Data Transformation এবং Reshaping Techniques (dplyr, tidyr)

459

ডেটা ট্রান্সফরমেশন এবং রেশেপিং (Reshaping) হল ডেটা ম্যানিপুলেশনের একটি গুরুত্বপূর্ণ অংশ, যেখানে ডেটাকে বিভিন্ন আকারে সাজানো, রূপান্তর করা এবং বিশ্লেষণের জন্য প্রস্তুত করা হয়। আর প্রোগ্রামিংয়ে এই কাজগুলো করার জন্য দুটি অত্যন্ত জনপ্রিয় প্যাকেজ রয়েছে: dplyr এবং tidyr। এই দুটি প্যাকেজ ডেটা ট্রান্সফরমেশন এবং রেশেপিং কাজকে সহজ, দ্রুত এবং কার্যকরী করে তোলে।

dplyr: ডেটা ট্রান্সফরমেশন

dplyr হলো একটি প্যাকেজ যা আর-এর tidyverse এ অন্তর্ভুক্ত এবং এটি ডেটা ট্রান্সফরমেশন এবং ম্যানিপুলেশনের জন্য ব্যবহৃত হয়। এটি খুবই শক্তিশালী ফাংশন সরবরাহ করে যা ডেটা ফিল্টারিং, গ্রুপিং, অর্ডারিং এবং রেঞ্জিং এর মতো কাজ দ্রুত এবং সহজে করতে সহায়তা করে।

dplyr এর প্রধান ফাংশনসমূহ:

১. `filter()`: ডেটা ফিল্টার করা

এটি ডেটা ফ্রেম থেকে নির্দিষ্ট শর্ত অনুযায়ী সারি (rows) বেছে নিতে ব্যবহৃত হয়।

উদাহরণ:

library(dplyr)
data <- data.frame(Name = c("Alice", "Bob", "Charlie"),
                   Age = c(25, 30, 35),
                   Salary = c(50000, 60000, 70000))

# ৩০ এর বেশি বয়সের মানুষদের বেছে নেওয়া
filtered_data <- filter(data, Age > 30)
print(filtered_data)

২. `select()`: কলাম নির্বাচন করা

এটি ডেটা ফ্রেম থেকে নির্দিষ্ট কলাম বেছে নিতে ব্যবহৃত হয়।

উদাহরণ:

# শুধু Name এবং Age কলাম নির্বাচন করা
selected_data <- select(data, Name, Age)
print(selected_data)

৩. `mutate()`: নতুন কলাম তৈরি করা

এটি একটি নতুন কলাম যুক্ত করার জন্য ব্যবহার করা হয়, যা এক বা একাধিক বিদ্যমান কলামের উপর ভিত্তি করে হিসাব করা হতে পারে।

উদাহরণ:

# Salary কলামের ১০% বোনাস যোগ করে একটি নতুন কলাম তৈরি করা
data_with_bonus <- mutate(data, Bonus = Salary * 0.10)
print(data_with_bonus)

৪. `arrange()`: সারি সাজানো

এটি ডেটা ফ্রেমের সারিগুলোকে নির্দিষ্ট কলামের মান অনুযায়ী সাজাতে ব্যবহৃত হয়।

উদাহরণ:

# বেতন অনুযায়ী ডেটা সাজানো
arranged_data <- arrange(data, Salary)
print(arranged_data)

৫. `summarise()`: উপসামারি তৈরি করা

এটি ডেটার উপর বিভিন্ন ধরনের পরিসংখ্যানমূলক গণনা (যেমন গড়, মোট যোগফল) করতে ব্যবহৃত হয়।

উদাহরণ:

# গড় বেতন বের করা
summary_data <- summarise(data, Average_Salary = mean(Salary))
print(summary_data)

৬. `group_by()`: গ্রুপিং

এটি একটি ডেটা ফ্রেমকে একটি বা একাধিক কলাম অনুযায়ী গ্রুপ করতে ব্যবহৃত হয়, যাতে গ্রুপ ভিত্তিক পরিসংখ্যান করা যায়।

উদাহরণ:

# বয়স অনুযায়ী গ্রুপ করে গড় বেতন বের করা
grouped_data <- data %>%
  group_by(Age) %>%
  summarise(Average_Salary = mean(Salary))
print(grouped_data)

tidyr: ডেটা রেশেপিং

tidyr আর প্রোগ্রামিং এর আরেকটি গুরুত্বপূর্ণ প্যাকেজ, যা মূলত ডেটা রেশেপিং এবং ডেটা ফরম্যাট পরিবর্তনের জন্য ব্যবহৃত হয়। এই প্যাকেজের মাধ্যমে ডেটা ফ্রেমকে একটি নির্দিষ্ট ফরম্যাটে সাজানো যায়, যেমন "wide" থেকে "long" বা "long" থেকে "wide" রূপান্তর করা।

tidyr এর প্রধান ফাংশনসমূহ:

১. `gather()`: ডেটাকে "wide" থেকে "long" ফরম্যাটে রূপান্তর করা

এটি "wide" ফরম্যাটে থাকা ডেটাকে "long" ফরম্যাটে রূপান্তর করতে ব্যবহৃত হয়।

উদাহরণ:

library(tidyr)
data_wide <- data.frame(
  Name = c("Alice", "Bob"),
  Math = c(90, 85),
  Science = c(88, 92)
)

# ডেটাকে long ফরম্যাটে রূপান্তর করা
data_long <- gather(data_wide, Subject, Marks, Math:Science)
print(data_long)

২. `spread()`: ডেটাকে "long" থেকে "wide" ফরম্যাটে রূপান্তর করা

এটি "long" ফরম্যাটে থাকা ডেটাকে "wide" ফরম্যাটে রূপান্তর করতে ব্যবহৃত হয়।

উদাহরণ:

# ডেটাকে wide ফরম্যাটে রূপান্তর করা
data_wide2 <- spread(data_long, Subject, Marks)
print(data_wide2)

৩. `separate()`: একটি কলামকে আলাদা করা

এটি একটি কলামকে দুটি বা তার বেশি কলামে আলাদা করতে ব্যবহৃত হয়, যেখানে একটি নির্দিষ্ট সেপারেটর (যেমন স্পেস বা কমা) ব্যবহার করা হয়।

উদাহরণ:

# একটি কলামকে আলাদা করা
data <- data.frame(Name = c("Alice Smith", "Bob Johnson"))
data_separated <- separate(data, Name, into = c("First_Name", "Last_Name"), sep = " ")
print(data_separated)

৪. `unite()`: একাধিক কলামকে একত্রিত করা

এটি একাধিক কলামকে একটি কলামে একত্রিত করার জন্য ব্যবহৃত হয়।

উদাহরণ:

# দুটি কলামকে একত্রিত করা
data_united <- unite(data_separated, Full_Name, First_Name, Last_Name, sep = " ")
print(data_united)

সারাংশ

dplyr এবং tidyr আর প্রোগ্রামিংয়ে ডেটা ট্রান্সফরমেশন এবং রেশেপিংয়ের জন্য অত্যন্ত শক্তিশালী টুল। dplyr প্যাকেজটি ডেটা ফিল্টারিং, গ্রুপিং, সাজানো, গণনা ইত্যাদি কাজের জন্য ব্যবহৃত হয়, এবং tidyr প্যাকেজটি ডেটা রূপান্তর এবং রেশেপিংয়ের কাজের জন্য ব্যবহৃত হয়। এই দুটি প্যাকেজের মাধ্যমে ডেটা বিশ্লেষণকে আরও সহজ, দ্রুত এবং কার্যকরী করা যায়।

Content added By

Rezwan Siddiki Tamim

Data Filtering, Sorting, এবং Subsetting

422

আর প্রোগ্রামিং ভাষায় ডেটা বিশ্লেষণের অন্যতম গুরুত্বপূর্ণ দিক হল ডেটা ফিল্টারিং, সোর্টিং এবং সাবসেটিং। এগুলি ডেটাকে সঠিকভাবে প্রক্রিয়া করতে এবং প্রয়োজনীয় অংশ নির্বাচন করতে সহায়তা করে। এই টিউটোরিয়ালে আমরা দেখব কিভাবে ডেটা ফিল্টার করা, সোর্ট করা এবং সাবসেট তৈরি করা হয়।

১. Data Filtering (ডেটা ফিল্টারিং)

Data Filtering হল একটি প্রক্রিয়া যার মাধ্যমে নির্দিষ্ট শর্ত অনুযায়ী ডেটা থেকে প্রয়োজনীয় তথ্য নির্বাচিত করা হয়। R-এ ডেটা ফিল্টার করার জন্য সাধারণত subset() ফাংশন বা dplyr প্যাকেজের filter() ফাংশন ব্যবহার করা হয়।

উদাহরণ ১: `subset()` ফাংশন ব্যবহার করা

# একটি ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie", "David"),
  Age = c(25, 30, 35, 40),
  Salary = c(50000, 60000, 70000, 80000)
)

# Age > 30 হওয়া ব্যক্তিদের ফিল্টার করা
filtered_data <- subset(data, Age > 30)
print(filtered_data)

এখানে subset() ফাংশন ব্যবহার করে আমরা Age > 30 শর্তে ডেটা ফিল্টার করেছি।

উদাহরণ ২: `dplyr` প্যাকেজের `filter()` ফাংশন ব্যবহার করা

# dplyr প্যাকেজ লোড করা
library(dplyr)

# Age > 30 হওয়া ব্যক্তিদের ফিল্টার করা
filtered_data <- data %>% filter(Age > 30)
print(filtered_data)

এখানে filter() ফাংশন ব্যবহার করে আমরা Age > 30 শর্তে ডেটা ফিল্টার করেছি।

২. Data Sorting (ডেটা সোর্টিং)

Data Sorting হল ডেটাকে একটি নির্দিষ্ট ক্রমে সাজানোর প্রক্রিয়া। R-এ ডেটা সোর্ট করার জন্য order() ফাংশন ব্যবহৃত হয়। order() ফাংশন ডেটাকে বৃদ্ধির (ascending) বা হ্রাসের (descending) ক্রমে সাজাতে সহায়তা করে।

উদাহরণ ১: `order()` ফাংশন ব্যবহার করা

# ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie", "David"),
  Age = c(25, 30, 35, 40),
  Salary = c(50000, 60000, 70000, 80000)
)

# Salary এর ভিত্তিতে ডেটা সোর্ট করা (ascending)
sorted_data <- data[order(data$Salary), ]
print(sorted_data)

এখানে, order() ফাংশন ব্যবহার করে Salary কলামের ভিত্তিতে ডেটা সোর্ট করা হয়েছে।

উদাহরণ ২: হ্রাসমূলক সোর্টিং (Descending Sorting)

# Salary এর ভিত্তিতে ডেটা সোর্ট করা (descending)
sorted_data_desc <- data[order(data$Salary, decreasing = TRUE), ]
print(sorted_data_desc)

এখানে, decreasing = TRUE ব্যবহার করে Salary কলামের ভিত্তিতে ডেটা হ্রাসমূলক ক্রমে সাজানো হয়েছে।

৩. Data Subsetting (ডেটা সাবসেটিং)

Data Subsetting হল ডেটা থেকে শুধুমাত্র কিছু নির্দিষ্ট অংশ নির্বাচন করার প্রক্রিয়া। আর-এ ডেটা সাবসেট করার জন্য সাধারণত [ ] স্লাইসিং অপারেটর, subset() ফাংশন এবং dplyr প্যাকেজের select() ফাংশন ব্যবহার করা হয়।

উদাহরণ ১: `[` স্লাইসিং অপারেটর ব্যবহার করা

# ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie", "David"),
  Age = c(25, 30, 35, 40),
  Salary = c(50000, 60000, 70000, 80000)
)

# প্রথম 2 সারির সাবসেট নেওয়া
subset_data <- data[1:2, ]
print(subset_data)

এখানে, আমরা data[1:2, ] ব্যবহার করে প্রথম ২টি সারি সাবসেট করেছি।

উদাহরণ ২: নির্দিষ্ট কলাম নির্বাচন করা

# Age এবং Salary কলাম সাবসেট করা
subset_columns <- data[, c("Age", "Salary")]
print(subset_columns)

এখানে, আমরা data[, c("Age", "Salary")] ব্যবহার করে Age এবং Salary কলামগুলির সাবসেট নিয়েছি।

উদাহরণ ৩: `dplyr` প্যাকেজের `select()` ফাংশন ব্যবহার করা

# dplyr প্যাকেজ লোড করা
library(dplyr)

# Age এবং Salary কলাম সাবসেট করা
subset_data <- data %>% select(Age, Salary)
print(subset_data)

এখানে select() ফাংশন ব্যবহার করে Age এবং Salary কলামগুলোর সাবসেট নেওয়া হয়েছে।

সারাংশ

আর প্রোগ্রামিং ভাষায় ডেটা ফিল্টারিং, সোর্টিং এবং সাবসেটিং হল ডেটা প্রক্রিয়াকরণের গুরুত্বপূর্ণ ধাপ। Data Filtering করার জন্য subset() বা dplyr প্যাকেজের filter() ফাংশন ব্যবহার করা হয়। Data Sorting করার জন্য order() ফাংশন ব্যবহার করা হয়, যা ডেটাকে বৃদ্ধির বা হ্রাসের ক্রমে সাজায়। Data Subsetting করার জন্য [ ] স্লাইসিং অপারেটর বা dplyr প্যাকেজের select() ফাংশন ব্যবহার করা হয়, যা নির্দিষ্ট অংশের ডেটা নির্বাচন করতে সহায়তা করে। এই টুলগুলোর মাধ্যমে ডেটার বিশ্লেষণ এবং প্রক্রিয়াকরণ সহজ এবং কার্যকরী হয়।

Content added By

Rezwan Siddiki Tamim

Data Aggregation এবং Summarization Techniques

435

ডেটা বিশ্লেষণে Data Aggregation এবং Summarization অত্যন্ত গুরুত্বপূর্ণ ভূমিকা পালন করে। এই টেকনিকগুলো ডেটার সংক্ষিপ্ত সারাংশ তৈরি করতে সাহায্য করে এবং ডেটার মধ্যে গোপন প্যাটার্ন বা প্রবণতা (patterns/trends) বের করে আনতে সহায়তা করে। আর প্রোগ্রামিং ভাষায় ডেটা অ্যাগ্রিগেশন এবং সারমারাইজেশন করার জন্য বিভিন্ন ফাংশন ও প্যাকেজ রয়েছে, যেমন dplyr, aggregate(), এবং summary()।

Data Aggregation (ডেটা অ্যাগ্রিগেশন)

Data Aggregation হলো ডেটার বিভিন্ন মানকে একত্রিত (combine) করে একটি সারাংশ তৈরি করার প্রক্রিয়া। এটি সাধারণত গাণিতিক অপারেশন যেমন গড় (mean), মোট (sum), সর্বাধিক (max), সর্বনিম্ন (min) ইত্যাদি প্রয়োগ করে করা হয়।

dplyr প্যাকেজ ব্যবহার করে ডেটা অ্যাগ্রিগেশন

dplyr প্যাকেজ আর প্রোগ্রামিংয়ে একটি অত্যন্ত শক্তিশালী প্যাকেজ যা ডেটা ফ্রেমের সাথে কাজ করতে সহায়তা করে। dplyr এর group_by() এবং summarize() ফাংশন ব্যবহার করে সহজে ডেটা অ্যাগ্রিগেট করা যায়।

উদাহরণ: dplyr দিয়ে গ্রুপিং এবং অ্যাগ্রিগেশন

# dplyr প্যাকেজ ইনস্টল এবং লোড করা
install.packages("dplyr")
library(dplyr)

# একটি ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Alice", "Bob", "Charlie", "Charlie"),
  Age = c(25, 30, 26, 31, 35, 36),
  Salary = c(50000, 60000, 52000, 61000, 70000, 71000)
)

# গ্রুপিং এবং অ্যাগ্রিগেশন
result <- data %>%
  group_by(Name) %>%
  summarize(
    avg_age = mean(Age),
    total_salary = sum(Salary),
    max_salary = max(Salary)
  )

print(result)

এখানে:

group_by(Name): এটি Name কলামের উপর গ্রুপিং করে।
summarize(): এখানে গড় বয়স (mean), মোট বেতন (sum), এবং সর্বাধিক বেতন (max) বের করা হয়েছে।

aggregate() ফাংশন দিয়ে ডেটা অ্যাগ্রিগেশন

আর-এ aggregate() ফাংশন ব্যবহার করে ডেটা অ্যাগ্রিগেশন করা যায়। এটি সাধারণত একাধিক ভেরিয়েবলের উপর অ্যাগ্রিগেশন পরিচালনা করতে ব্যবহৃত হয়।

উদাহরণ: aggregate() ফাংশন দিয়ে ডেটা অ্যাগ্রিগেশন

# একটি ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Alice", "Bob", "Charlie", "Charlie"),
  Age = c(25, 30, 26, 31, 35, 36),
  Salary = c(50000, 60000, 52000, 61000, 70000, 71000)
)

# aggregate() ফাংশন দিয়ে অ্যাগ্রিগেশন
result <- aggregate(Salary ~ Name, data = data, FUN = sum)
print(result)

এখানে, Salary ~ Name মানে হলো Name অনুসারে Salary এর সমষ্টি (sum) বের করা হয়েছে।

Data Summarization (ডেটা সারমারাইজেশন)

Data Summarization হলো ডেটার প্রধান বৈশিষ্ট্যগুলি বা সারাংশ বের করার প্রক্রিয়া। এটি সাধারণত গড় (mean), মধ্যম (median), পরিসীমা (range), স্ট্যান্ডার্ড ডেভিয়েশন (standard deviation), ইত্যাদি দিয়ে করা হয়।

summary() ফাংশন দিয়ে ডেটা সারমারাইজেশন

আর-এ summary() ফাংশন ব্যবহার করে একটি ডেটা ফ্রেমের সংক্ষিপ্ত সারাংশ পাওয়া যায়, যেমন গড়, মিন, ম্যাক্স, মধ্যম, ইত্যাদি।

উদাহরণ: summary() ফাংশন দিয়ে সারমারাইজেশন

# একটি ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie"),
  Age = c(25, 30, 35),
  Salary = c(50000, 60000, 70000)
)

# summary() ফাংশন ব্যবহার করে সারমারাইজেশন
summary(data)

এখানে, summary() ফাংশন ডেটা ফ্রেমের প্রতিটি কলামের জন্য বিভিন্ন সারাংশ (যেমন গড়, মিন, ম্যাক্স, ইত্যাদি) প্রদান করবে।

Statistical Summary (স্ট্যাটিস্টিক্যাল সারমারাইজেশন)

আর প্রোগ্রামিংয়ে স্ট্যাটিস্টিক্যাল সারমারাইজেশন করার জন্য আরও কিছু ফাংশন ব্যবহার করা হয়, যেমন mean(), median(), sd(), var(), min(), max() ইত্যাদি।

উদাহরণ: Statistical Functions দিয়ে সারমারাইজেশন

# একটি ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie"),
  Age = c(25, 30, 35),
  Salary = c(50000, 60000, 70000)
)

# গড় বের করা
mean_age <- mean(data$Age)
print(mean_age)  # আউটপুট হবে 30

# স্ট্যান্ডার্ড ডেভিয়েশন বের করা
sd_salary <- sd(data$Salary)
print(sd_salary)  # আউটপুট হবে 10000

# সর্বনিম্ন বেতন বের করা
min_salary <- min(data$Salary)
print(min_salary)  # আউটপুট হবে 50000

এখানে:

mean() ফাংশন দিয়ে গড় বয়স বের করা হয়েছে।
sd() ফাংশন দিয়ে বেতনের স্ট্যান্ডার্ড ডেভিয়েশন বের করা হয়েছে।
min() ফাংশন দিয়ে সর্বনিম্ন বেতন বের করা হয়েছে।

সারাংশ

আর প্রোগ্রামিংয়ে Data Aggregation এবং Summarization Techniques ডেটার বিভিন্ন গুরুত্বপূর্ণ বৈশিষ্ট্য বা প্যাটার্ন বের করার জন্য ব্যবহৃত হয়। dplyr এবং aggregate() ফাংশনগুলি ডেটা গ্রুপিং এবং অ্যাগ্রিগেশন করার জন্য ব্যবহৃত হয়, যেখানে summary() ফাংশন এবং অন্যান্য পরিসংখ্যান ফাংশনগুলি ডেটার সারাংশ তৈরি করতে সহায়তা করে। এই টেকনিকগুলোর সাহায্যে আপনি ডেটার আভ্যন্তরীণ কাঠামো এবং প্রবণতা সহজেই জানতে পারেন।

Content added By

Rezwan Siddiki Tamim

R Programming এর পরিচিতি R Installation এবং Setup R এর মৌলিক Syntax Data Structures in R R এ Operators এবং Expressions

Data Manipulation এবং Cleaning Techniques

ডেটা ম্যানিপুলেশন (Data Manipulation) Techniques

১. ডেটা ফ্রেম তৈরি করা

২. ডেটা ম্যানিপুলেশনের জন্য dplyr প্যাকেজ ব্যবহার করা

২.১. filter() ফাংশন

২.২. select() ফাংশন

২.৩. mutate() ফাংশন

২.৪. arrange() ফাংশন

ডেটা ক্লিনিং (Data Cleaning) Techniques

১. মিসিং ডেটা (Missing Data) হ্যান্ডলিং

১.১. is.na() ফাংশন

১.২. মিসিং ডেটা প্রতিস্থাপন

১.৩. মিসিং ডেটা মুছে ফেলা

২. আউটলায়ার (Outlier) হ্যান্ডলিং

২.১. আউটলায়ার চিহ্নিত করা

২.২. আউটলায়ার দূর করা

৩. ডেটা ফরম্যাটিং (Data Formatting)

৩.১. ডেটা ফরম্যাটে রূপান্তর

৩.২. ফ্যাক্টর ভ্যালু চেক করা

সারাংশ

Data Cleaning এর জন্য Techniques (Missing Values, Outliers)

Missing Values (অনুপস্থিত মান)

Missing Values চেক করা

১. is.na() ফাংশন

২. sum(is.na()) ফাংশন

Missing Values পরিচালনা (Handling Missing Values)

১. মিসিং ভ্যালু ইমপিউটেশন (Imputation)

২. মিসিং ভ্যালু সরিয়ে ফেলা (Removing Missing Values)

৩. অন্য ধরণের ইমপিউটেশন

Outliers (অস্বাভাবিক মান)

Outliers চেক করা

১. বক্সপ্লট (Boxplot)

২. Z-score

Outliers পরিচালনা (Handling Outliers)

১. আউটলিয়ার সরানো

২. আউটলিয়ার ইমপিউটেশন

৩. আউটলিয়ার ম্যানুয়ালি চিহ্নিত করা

সারাংশ

Data Transformation এবং Reshaping Techniques (dplyr, tidyr)

dplyr: ডেটা ট্রান্সফরমেশন

dplyr এর প্রধান ফাংশনসমূহ:

১. filter(): ডেটা ফিল্টার করা

২. select(): কলাম নির্বাচন করা

৩. mutate(): নতুন কলাম তৈরি করা

৪. arrange(): সারি সাজানো

৫. summarise(): উপসামারি তৈরি করা

৬. group_by(): গ্রুপিং

tidyr: ডেটা রেশেপিং

tidyr এর প্রধান ফাংশনসমূহ:

১. gather(): ডেটাকে "wide" থেকে "long" ফরম্যাটে রূপান্তর করা

২. spread(): ডেটাকে "long" থেকে "wide" ফরম্যাটে রূপান্তর করা

৩. separate(): একটি কলামকে আলাদা করা

৪. unite(): একাধিক কলামকে একত্রিত করা

সারাংশ

Data Filtering, Sorting, এবং Subsetting

১. Data Filtering (ডেটা ফিল্টারিং)

উদাহরণ ১: subset() ফাংশন ব্যবহার করা

উদাহরণ ২: dplyr প্যাকেজের filter() ফাংশন ব্যবহার করা

২. Data Sorting (ডেটা সোর্টিং)

উদাহরণ ১: order() ফাংশন ব্যবহার করা

উদাহরণ ২: হ্রাসমূলক সোর্টিং (Descending Sorting)

৩. Data Subsetting (ডেটা সাবসেটিং)

উদাহরণ ১: [ স্লাইসিং অপারেটর ব্যবহার করা

উদাহরণ ২: নির্দিষ্ট কলাম নির্বাচন করা

উদাহরণ ৩: dplyr প্যাকেজের select() ফাংশন ব্যবহার করা

সারাংশ

Data Aggregation এবং Summarization Techniques

Data Aggregation (ডেটা অ্যাগ্রিগেশন)

dplyr প্যাকেজ ব্যবহার করে ডেটা অ্যাগ্রিগেশন

উদাহরণ: dplyr দিয়ে গ্রুপিং এবং অ্যাগ্রিগেশন

aggregate() ফাংশন দিয়ে ডেটা অ্যাগ্রিগেশন

উদাহরণ: aggregate() ফাংশন দিয়ে ডেটা অ্যাগ্রিগেশন

Data Summarization (ডেটা সারমারাইজেশন)

summary() ফাংশন দিয়ে ডেটা সারমারাইজেশন

উদাহরণ: summary() ফাংশন দিয়ে সারমারাইজেশন

Statistical Summary (স্ট্যাটিস্টিক্যাল সারমারাইজেশন)

উদাহরণ: Statistical Functions দিয়ে সারমারাইজেশন

সারাংশ

All Notifications

Promotion

২. ডেটা ম্যানিপুলেশনের জন্য `dplyr` প্যাকেজ ব্যবহার করা

২.১. `filter()` ফাংশন

২.২. `select()` ফাংশন

২.৩. `mutate()` ফাংশন

২.৪. `arrange()` ফাংশন

১.১. `is.na()` ফাংশন

১. `is.na()` ফাংশন

২. `sum(is.na())` ফাংশন

১. `filter()`: ডেটা ফিল্টার করা

২. `select()`: কলাম নির্বাচন করা

৩. `mutate()`: নতুন কলাম তৈরি করা

৪. `arrange()`: সারি সাজানো

৫. `summarise()`: উপসামারি তৈরি করা

৬. `group_by()`: গ্রুপিং

১. `gather()`: ডেটাকে "wide" থেকে "long" ফরম্যাটে রূপান্তর করা

২. `spread()`: ডেটাকে "long" থেকে "wide" ফরম্যাটে রূপান্তর করা

৩. `separate()`: একটি কলামকে আলাদা করা

৪. `unite()`: একাধিক কলামকে একত্রিত করা

উদাহরণ ১: `subset()` ফাংশন ব্যবহার করা

উদাহরণ ২: `dplyr` প্যাকেজের `filter()` ফাংশন ব্যবহার করা

উদাহরণ ১: `order()` ফাংশন ব্যবহার করা

উদাহরণ ১: `[` স্লাইসিং অপারেটর ব্যবহার করা

উদাহরণ ৩: `dplyr` প্যাকেজের `select()` ফাংশন ব্যবহার করা