Data Manipulation (ডেটা ম্যানিপুলেশন)

আর প্রোগ্রামিং (R Programming) - Computer Programming

485

R এ ডেটা ম্যানিপুলেশন (Data Manipulation in R)

ডেটা ম্যানিপুলেশন হলো ডেটাকে সঠিক ফর্ম্যাটে রূপান্তর এবং প্রক্রিয়াকরণ, যাতে বিশ্লেষণের জন্য ডেটা উপযোগী হয়। R প্রোগ্রামিং ভাষায় বিভিন্ন প্যাকেজ এবং ফাংশন ব্যবহার করে ডেটা ম্যানিপুলেশন করা যায়। বিশেষত dplyr এবং tidyr প্যাকেজগুলি ডেটা ম্যানিপুলেশনের জন্য খুবই জনপ্রিয় এবং কার্যকর।

ডেটা ম্যানিপুলেশনের কিছু গুরুত্বপূর্ণ কাজ

১. ডেটা নির্বাচন (Selecting Data)
২. ফিল্টারিং (Filtering Rows)
৩. নতুন কলাম তৈরি (Creating New Columns)
৪. ডেটা সাজানো (Arranging Data)
৫. গ্রুপিং এবং সারসংক্ষেপ (Grouping and Summarizing Data)
৬. ডেটা রূপান্তর (Data Transformation)

১. ডেটা নির্বাচন (Selecting Data)

ডেটা ফ্রেমের নির্দিষ্ট কলামগুলো নির্বাচন করতে dplyr প্যাকেজের select() ফাংশন ব্যবহার করা হয়।

উদাহরণ:

# dplyr প্যাকেজ লোড
library(dplyr)

# ডেটা তৈরি
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie"),
  Age = c(25, 30, 35),
  Gender = c("Female", "Male", "Male"),
  Score = c(85, 90, 88)
)

# নির্দিষ্ট কলাম নির্বাচন
selected_data <- select(data, Name, Score)
print(selected_data)

এখানে Name এবং Score কলামগুলো নির্বাচন করা হয়েছে।

২. ফিল্টারিং (Filtering Rows)

ডেটা ফ্রেম থেকে নির্দিষ্ট শর্তের উপর ভিত্তি করে রো নির্বাচন করতে filter() ফাংশন ব্যবহার করা হয়।

উদাহরণ:

# নির্দিষ্ট শর্তের উপর ভিত্তি করে রো ফিল্টার
filtered_data <- filter(data, Age > 28)
print(filtered_data)

এখানে Age > 28 শর্ত অনুযায়ী শুধুমাত্র সেই রো গুলো নির্বাচন করা হয়েছে যেখানে বয়স ২৮ এর বেশি।

৩. নতুন কলাম তৈরি (Creating New Columns)

mutate() ফাংশন ব্যবহার করে ডেটা ফ্রেমে নতুন কলাম যোগ করা যায়।

উদাহরণ:

# নতুন কলাম যোগ করা
data <- mutate(data, Grade = ifelse(Score > 85, "A", "B"))
print(data)

এখানে Grade নামে নতুন একটি কলাম তৈরি করা হয়েছে, যেখানে Score ৮৫ এর বেশি হলে "A" এবং অন্যথায় "B" রাখা হয়েছে।

৪. ডেটা সাজানো (Arranging Data)

arrange() ফাংশন ব্যবহার করে ডেটা ফ্রেমকে নির্দিষ্ট কলামের মান অনুযায়ী সাজানো যায়।

উদাহরণ:

# বয়স অনুযায়ী ডেটা সাজানো
arranged_data <- arrange(data, Age)
print(arranged_data)

# স্কোরের ক্রমবর্ধমানভাবে সাজানো
arranged_data_desc <- arrange(data, desc(Score))
print(arranged_data_desc)

এখানে Age কলামের মান অনুযায়ী ডেটা সাজানো হয়েছে। দ্বিতীয় উদাহরণে, Score কলামের মান অনুযায়ী সাজানো হয়েছে অবরোহ ক্রমে।

৫. গ্রুপিং এবং সারসংক্ষেপ (Grouping and Summarizing Data)

ডেটাকে গ্রুপিং করে সারসংক্ষেপ তথ্য তৈরি করতে group_by() এবং summarize() ফাংশন ব্যবহার করা হয়।

উদাহরণ:

# লিঙ্গ অনুযায়ী গড়ে বয়স এবং স্কোর বের করা
grouped_data <- data %>%
  group_by(Gender) %>%
  summarize(Average_Age = mean(Age), Average_Score = mean(Score))
print(grouped_data)

এখানে Gender অনুযায়ী ডেটা গ্রুপ করা হয়েছে এবং প্রতিটি গ্রুপের গড়ে বয়স এবং স্কোর বের করা হয়েছে।

৬. ডেটা রূপান্তর (Data Transformation)

tidyr প্যাকেজের gather() এবং spread() ফাংশন ব্যবহার করে ডেটার কাঠামো পরিবর্তন করা যায়।

gather(): ডেটাকে লম্বা ফর্ম্যাটে রূপান্তর করতে ব্যবহৃত হয়।
spread(): ডেটাকে চওড়া ফর্ম্যাটে রূপান্তর করতে ব্যবহৃত হয়।

উদাহরণ:

# tidyr প্যাকেজ লোড
library(tidyr)

# ডেটা তৈরি
data <- data.frame(
  Name = c("Alice", "Bob", "Charlie"),
  Math = c(85, 90, 95),
  Science = c(80, 85, 88)
)

# লম্বা ফর্ম্যাটে রূপান্তর
long_data <- gather(data, Subject, Score, Math:Science)
print(long_data)

# চওড়া ফর্ম্যাটে রূপান্তর
wide_data <- spread(long_data, Subject, Score)
print(wide_data)

এখানে gather() এবং spread() ব্যবহার করে ডেটার কাঠামো পরিবর্তন করা হয়েছে।

সারসংক্ষেপ

R এ ডেটা ম্যানিপুলেশন ডেটা প্রক্রিয়াকরণের একটি গুরুত্বপূর্ণ অংশ এবং এটি বিভিন্ন ধাপে বিভক্ত:

ডেটা নির্বাচন: নির্দিষ্ট কলাম বা রো নির্বাচন করা।
ফিল্টারিং: নির্দিষ্ট শর্তে ভিত্তি করে ডেটা বাছাই।
নতুন কলাম তৈরি: নতুন ডেরাইভেটিভ কলাম তৈরি করা।
ডেটা সাজানো: ডেটা ক্রম অনুযায়ী সাজানো।
গ্রুপিং এবং সারসংক্ষেপ: গ্রুপিং এবং গড় বা অন্যান্য সংক্ষিপ্ত পরিসংখ্যানিক তথ্য পাওয়া।
ডেটা রূপান্তর: ডেটার কাঠামো পরিবর্তন করা।

R এ dplyr এবং tidyr প্যাকেজগুলি এইসব কাজগুলোকে সহজ এবং কার্যকরী করে তোলে, যা ডেটা বিশ্লেষণের জন্য অত্যন্ত গুরুত্বপূর্ণ।

Content added By

Azizar Rahman Aziz

Data Cleaning এবং Transformation Techniques

377

Data Cleaning এবং Transformation Techniques

ডেটা এনালাইসিস এবং মডেলিংয়ের জন্য Data Cleaning এবং Data Transformation অত্যন্ত গুরুত্বপূর্ণ। R প্রোগ্রামিং ভাষায় ডেটা ক্লিনিং ও ট্রান্সফরমেশন করার জন্য অনেক কার্যকরী ফাংশন এবং প্যাকেজ রয়েছে। এই প্রক্রিয়াগুলি ডেটার মান এবং গুণমান উন্নত করে এবং আরও নির্ভুল বিশ্লেষণ করতে সাহায্য করে।

১. Data Cleaning Techniques

ডেটা ক্লিনিং হল ডেটা থেকে ত্রুটিপূর্ণ বা অপ্রাসঙ্গিক তথ্য সরানো এবং প্রয়োজনীয় ডেটা প্রক্রিয়াকরণ করার প্রক্রিয়া। এখানে কিছু সাধারণ ডেটা ক্লিনিং টেকনিক্স আলোচনা করা হলো:

১.১. Missing Values হ্যান্ডলিং

ডেটাতে Missing Values (NA) থাকতে পারে যা বিশ্লেষণের জন্য সমস্যার সৃষ্টি করে। Missing Values হ্যান্ডল করার বিভিন্ন পদ্ধতি রয়েছে।

পদ্ধতি:

Missing Values সনাক্ত করা: is.na() ফাংশন ব্যবহার করে Missing Values সনাক্ত করা যায়।
```
sum(is.na(data))
```
Missing Values অপসারণ করা: na.omit() ফাংশন দিয়ে Missing Values সহ সারি মুছে ফেলা যায়।
```
data <- na.omit(data)
```
Missing Values পূরণ করা: replace_na() বা impute() পদ্ধতি ব্যবহার করে Missing Values পূরণ করা যায়।
```
data$column <- ifelse(is.na(data$column), median(data$column, na.rm = TRUE), data$column)
```

১.২. Outliers সনাক্ত এবং মুছে ফেলা

Outliers হল ডেটার এমন মান যা সাধারণ সীমার বাইরে অবস্থিত। এগুলি ডেটার এনালাইসিসের উপর প্রভাব ফেলে।

Outliers সনাক্ত করা:

boxplot(data$column)

Outliers মুছে ফেলা:

data <- data[!(data$column > upper_limit | data$column < lower_limit), ]

১.৩. ডুপ্লিকেট ডেটা হ্যান্ডলিং

একই ডেটা যদি একাধিকবার থাকে, তাহলে এটি ক্লিন করতে হবে।

data <- data[!duplicated(data), ]

১.৪. String Data Cleaning

String ডেটায় অতিরিক্ত স্পেস, বড়/ছোট অক্ষরের সমস্যা থাকতে পারে। trimws() এবং tolower() ব্যবহার করে String ডেটা ক্লিন করা যায়।

data$column <- trimws(data$column)  # অতিরিক্ত স্পেস সরানো
data$column <- tolower(data$column)  # সব ছোট অক্ষরে রূপান্তর

২. Data Transformation Techniques

ডেটা ট্রান্সফরমেশন হল ডেটাকে পরিবর্তন করে একটি নতুন কাঠামোতে রূপান্তরিত করা। এর ফলে ডেটা বিশ্লেষণ সহজ হয় এবং এনালাইসিসে আরও কার্যকর ফল পাওয়া যায়।

২.১. Variable Transformation

কিছু ভেরিয়েবল ট্রান্সফরমেশন প্রক্রিয়া ডেটার স্কেল পরিবর্তন করে, যেমন লগ, স্কোয়ার রুট, বা স্ট্যান্ডার্ডাইজেশন।

লগ ট্রান্সফরমেশন:

data$column <- log(data$column)

স্কোয়ার রুট ট্রান্সফরমেশন:

data$column <- sqrt(data$column)

স্ট্যান্ডার্ডাইজেশন (মিন-ম্যাক্স স্কেলিং):

data$column <- (data$column - min(data$column)) / (max(data$column) - min(data$column))

২.২. Encoding Categorical Variables

ক্যাটাগোরিক্যাল ডেটা এনকোড করতে factor() বা ডামি ভেরিয়েবল তৈরি করতে পারেন।

Factor Encoding:

data$column <- as.factor(data$column)

Dummy Variable Encoding (যেমন dummies প্যাকেজ ব্যবহার করা):

library(dummies)
data <- dummy.data.frame(data, names = "column", sep = "_")

২.৩. Data Aggregation

ডেটা এগ্রিগেশন করা হয় ডেটাকে নির্দিষ্ট গ্রুপ বা ক্লাসে বিভক্ত করে তাদের গড় বা সামগ্রিক তথ্য বের করতে। aggregate() ফাংশন ব্যবহার করে এগ্রিগেট করা যায়।

aggregate(data$column ~ data$group_column, data = data, mean)

২.৪. Pivoting and Reshaping Data

R এ pivoting এবং reshaping করা হয় reshape2 প্যাকেজের মাধ্যমে, যার মধ্যে melt() এবং dcast() ফাংশন ব্যবহৃত হয়।

# ডেটা মেল্ট করা
melted_data <- melt(data, id.vars = "ID")

# ডেটা কাস্ট করা
reshaped_data <- dcast(melted_data, ID ~ variable, value.var = "value")

২.৫. Date and Time Transformation

R এ ডেটা এবং টাইমের জন্য lubridate প্যাকেজ ব্যবহার করা হয় যা ডেটা বিশ্লেষণ এবং মডেলিংয়ের জন্য গুরুত্বপূর্ণ।

library(lubridate)

# ডেটা ট্রান্সফরমেশন
data$date <- ymd(data$date_column)
data$year <- year(data$date)
data$month <- month(data$date)

৩. Data Cleaning এবং Transformation এর উদাহরণ

# একটি উদাহরণ ডেটা ফ্রেম তৈরি করা
data <- data.frame(
  ID = 1:5,
  Name = c(" John", "Doe ", " Alice ", "Bob", "Alice"),
  Age = c(25, 30, NA, 28, 30),
  Gender = c("Male", "Female", "Female", "Male", "Female"),
  Salary = c(50000, 60000, 70000, 80000, 60000)
)

# Missing Values পূরণ করা
data$Age[is.na(data$Age)] <- mean(data$Age, na.rm = TRUE)

# ডুপ্লিকেট রিমুভ করা
data <- data[!duplicated(data), ]

# স্ট্রিং ক্লিন করা
data$Name <- trimws(data$Name)
data$Name <- tolower(data$Name)

# Salary এর log transformation করা
data$Salary <- log(data$Salary)

# Gender কে factor এ রূপান্তরিত করা
data$Gender <- as.factor(data$Gender)

print(data)

সারসংক্ষেপ

Data Cleaning: ডেটাকে আরও কার্যকরী এবং বিশ্লেষণের জন্য প্রস্তুত করার প্রক্রিয়া। Missing Values, Outliers, Duplicates, এবং String Data পরিষ্কার করা হয়।
Data Transformation: ডেটাকে স্কেলিং, এনকোডিং, এগ্রিগেশন, এবং রিশেপিং করা হয় যা এনালাইসিস এবং মডেলিংয়ে সহায়তা করে।

R-এ ডেটা ক্লিনিং এবং ট্রান্সফরমেশন টেকনিকগুলি ডেটা এনালাইসিস এবং মেশিন লার্নিংয়ে নির্ভুল ফলাফল পেতে গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By

Azizar Rahman Aziz

Filtering, Sorting, এবং Aggregating Data

283

R এ Filtering, Sorting, এবং Aggregating Data

R প্রোগ্রামিং ভাষায় ডেটা ম্যানিপুলেশন একটি গুরুত্বপূর্ণ দিক, এবং Filtering, Sorting, এবং Aggregating হল তিনটি মৌলিক অপারেশন যা ডেটা বিশ্লেষণে অত্যন্ত সহায়ক। এই অপারেশনগুলো ব্যবহার করে আপনি ডেটাকে প্রয়োজনীয়ভাবে সাজাতে, ফিল্টার করতে এবং বিভিন্ন মেট্রিকস গণনা করতে পারবেন। নিচে প্রতিটি অপারেশন সম্পর্কে বিস্তারিত আলোচনা করা হয়েছে।

১. Filtering Data

Filtering হল একটি পদ্ধতি, যেখানে আপনি একটি ডেটাসেটের মধ্যে থেকে কিছু নির্দিষ্ট শর্ত (conditions) মেনে ডেটা বের করে আনেন। এটি সাধারণত subset() ফাংশন বা লজিক্যাল কন্ডিশন ব্যবহার করে করা হয়।

`subset()` ফাংশন ব্যবহার:

# একটি ডেটা ফ্রেম তৈরি করা
my_data <- data.frame(
  Name = c("Alice", "Bob", "Charlie", "David"),
  Age = c(25, 30, 35, 40),
  Gender = c("F", "M", "M", "M")
)

# বয়স 30 এর বেশি এমন রেকর্ড ফিল্টার করা
filtered_data <- subset(my_data, Age > 30)
print(filtered_data)

এখানে, Age > 30 শর্ত অনুযায়ী Age কলামের মান ৩০ এর বেশি এমন রেকর্ডগুলো ফিল্টার করা হয়েছে।

লজিক্যাল কন্ডিশন দিয়ে ফিল্টার:

# শুধুমাত্র পুরুষদের ফিল্টার করা
filtered_males <- my_data[my_data$Gender == "M", ]
print(filtered_males)

এখানে, my_data$Gender == "M" শর্ত অনুযায়ী শুধুমাত্র পুরুষদের (M) ফিল্টার করা হয়েছে।

২. Sorting Data

Sorting হল ডেটাকে একটি নির্দিষ্ট ক্রমে সাজানোর প্রক্রিয়া, যেমন ছোট থেকে বড় (ascending) বা বড় থেকে ছোট (descending)। R-এ order() ফাংশন ব্যবহার করে ডেটা সাজানো হয়।

`order()` ফাংশন ব্যবহার:

# বয়সের উপর ভিত্তি করে সাজানো
sorted_data <- my_data[order(my_data$Age), ]
print(sorted_data)

এখানে, order(my_data$Age) ফাংশন ব্যবহার করে Age কলামের মান অনুযায়ী ডেটা সাজানো হয়েছে (ascending order)।

Descending (বড় থেকে ছোট) সাজানো:

# বয়সের উপর ভিত্তি করে বড় থেকে ছোট সাজানো
sorted_data_desc <- my_data[order(-my_data$Age), ]
print(sorted_data_desc)

এখানে, -my_data$Age ব্যবহার করে Age কলামের মান descending order (বড় থেকে ছোট) অনুযায়ী সাজানো হয়েছে।

একাধিক কলামের উপর ভিত্তি করে সাজানো:

# প্রথমে বয়স অনুযায়ী, তারপর নাম অনুযায়ী সাজানো
sorted_data_multi <- my_data[order(my_data$Age, my_data$Name), ]
print(sorted_data_multi)

এখানে, Age কলাম অনুযায়ী সাজানোর পর, যদি কোনো বয়সের মান সমান থাকে, তাহলে Name কলাম অনুযায়ী সাজানো হবে।

৩. Aggregating Data

Aggregating হল একটি পদ্ধতি, যা ডেটার উপর কোনো নির্দিষ্ট ফাংশন প্রয়োগ করে সংক্ষেপিত ফলাফল তৈরি করে, যেমন গড়, মোট, গুন, ইত্যাদি। R-এ aggregate() ফাংশন এবং dplyr প্যাকেজের summarise() ফাংশন ব্যবহার করে ডেটা অ্যাগ্রিগেট করা হয়।

`aggregate()` ফাংশন ব্যবহার:

# বয়স অনুযায়ী গড় হিসাব করা
aggregate(Age ~ Gender, data = my_data, FUN = mean)

এখানে, Age ~ Gender ফর্মুলা ব্যবহার করে Gender অনুযায়ী Age কলামের গড় (mean) বের করা হয়েছে।

একাধিক ফাংশন প্রয়োগ:

# বয়সের উপর ভিত্তি করে গড় এবং মোট হিসাব করা
aggregate(Age ~ Gender, data = my_data, FUN = function(x) c(mean = mean(x), sum = sum(x)))

এখানে, mean এবং sum দুটি ফাংশন একসাথে প্রয়োগ করে Gender অনুযায়ী Age কলামের গড় এবং মোট মান বের করা হয়েছে।

`dplyr` প্যাকেজ ব্যবহার করে Aggregation:

dplyr প্যাকেজের group_by() এবং summarise() ফাংশন ব্যবহার করে আরো উন্নত অ্যাগ্রিগেশন করা যায়।

# dplyr প্যাকেজ লোড করা
library(dplyr)

# Gender অনুযায়ী গড় বয়স বের করা
my_data %>%
  group_by(Gender) %>%
  summarise(mean_age = mean(Age), total_age = sum(Age))

এখানে, group_by(Gender) দিয়ে Gender অনুযায়ী গ্রুপ করা হয়েছে এবং summarise() ব্যবহার করে প্রতিটি গ্রুপের গড় বয়স এবং মোট বয়স বের করা হয়েছে।

সারসংক্ষেপ

Filtering Data: subset() বা লজিক্যাল কন্ডিশন ব্যবহার করে নির্দিষ্ট শর্ত অনুযায়ী ডেটা ফিল্টার করা হয়। উদাহরণস্বরূপ, Age > 30 বা Gender == "M"।
Sorting Data: order() ফাংশন ব্যবহার করে ডেটা সাজানো হয়। আপনি এটি ascending বা descending, একক বা একাধিক কলামের উপর ভিত্তি করে করতে পারেন।
Aggregating Data: aggregate() অথবা dplyr প্যাকেজের group_by() এবং summarise() ফাংশন ব্যবহার করে ডেটা অ্যাগ্রিগেট করা হয়, যেমন গড়, মোট ইত্যাদি।

এভাবে, R-এ Filtering, Sorting, এবং Aggregating অপারেশন ব্যবহার করে আপনি আপনার ডেটাকে সহজে ম্যানিপুলেট করতে পারবেন এবং প্রয়োজনীয় তথ্য বের করে আনতে পারবেন।

Content added By

Azizar Rahman Aziz

Dplyr Package এর ব্যবহার (select, filter, arrange, mutate, summarise)

369

R-এ dplyr প্যাকেজের ব্যবহার: `select`, `filter`, `arrange`, `mutate`, `summarise`

dplyr হল R-এর একটি অত্যন্ত জনপ্রিয় প্যাকেজ যা ডেটা ম্যানিপুলেশন এবং প্রক্রিয়াকরণের জন্য ব্যবহৃত হয়। এটি ডেটা ফ্রেমে বিভিন্ন কার্যক্রম করতে সহজ ও দ্রুত উপায় সরবরাহ করে। dplyr প্যাকেজটি ট্যাবুলার ডেটা (যেমন ডেটা ফ্রেম) এর উপর কাজ করতে সহায়তা করে এবং এটি অনেক বেশি কর্মক্ষম ও পড়তে সহজ কোড তৈরি করতে সাহায্য করে।

এখানে dplyr প্যাকেজের ৫টি মৌলিক ফাংশন—select, filter, arrange, mutate, এবং summarise এর ব্যবহার ব্যাখ্যা করা হবে।

১. `select()` ফাংশন

select() ফাংশনটি ডেটা ফ্রেম থেকে নির্দিষ্ট কলাম নির্বাচন করতে ব্যবহৃত হয়। এটি নতুন ডেটা ফ্রেম তৈরি করে, যেখানে কেবল নির্বাচিত কলামগুলি থাকে।

উদাহরণ: কলাম নির্বাচন করা

# dplyr প্যাকেজ লোড করা
library(dplyr)

# একটি ডেটা ফ্রেম তৈরি করা
df <- data.frame(
  Name = c("John", "Jane", "Tom", "Lucy"),
  Age = c(28, 34, 22, 41),
  Gender = c("Male", "Female", "Male", "Female"),
  Score = c(88, 92, 75, 95)
)

# select ফাংশন দিয়ে 'Name' এবং 'Age' কলাম নির্বাচন
selected_df <- select(df, Name, Age)
print(selected_df)

আউটপুট:

   Name Age
1  John  28
2  Jane  34
3   Tom  22
4  Lucy  41

এখানে, select(df, Name, Age) কোডে শুধুমাত্র Name এবং Age কলামগুলি নির্বাচিত হয়েছে।

২. `filter()` ফাংশন

filter() ফাংশনটি ডেটা ফ্রেম থেকে নির্দিষ্ট শর্ত অনুযায়ী সারি নির্বাচন করতে ব্যবহৃত হয়। এটি একটি নতুন ডেটা ফ্রেম তৈরি করে, যেখানে কেবল শর্ত পূর্ণকারী সারিগুলি থাকে।

উদাহরণ: শর্ত অনুযায়ী সারি নির্বাচন করা

# filter ফাংশন দিয়ে Age এর 30 এর বেশি হওয়া সারি নির্বাচন
filtered_df <- filter(df, Age > 30)
print(filtered_df)

আউটপুট:

  Name Age Gender Score
1 Jane  34 Female    92
2 Lucy  41 Female    95

এখানে, filter(df, Age > 30) কোডে শুধুমাত্র সেই সারিগুলি নির্বাচন করা হয়েছে, যেখানে Age 30 এর বেশি।

৩. `arrange()` ফাংশন

arrange() ফাংশনটি ডেটা ফ্রেমের সারিগুলিকে কোনো নির্দিষ্ট কলাম অনুযায়ী বাড়ানো বা কমানো (sort) করে সাজায়। এটি সাধারণত কোনো নির্দিষ্ট ক্রমে ডেটা সাজাতে ব্যবহৃত হয়।

উদাহরণ: `Age` এর ভিত্তিতে সাজানো

# arrange ফাংশন দিয়ে 'Age' কলামের ভিত্তিতে ডেটা সাজানো (ascending order)
arranged_df <- arrange(df, Age)
print(arranged_df)

আউটপুট:

  Name Age Gender Score
1   Tom  22   Male    75
2  John  28   Male    88
3  Jane  34 Female    92
4 Lucy  41 Female    95

এখানে, arrange(df, Age) কোডে ডেটা Age কলামের ভিত্তিতে সজ্জিত হয়েছে। এর মধ্যে প্রাথমিকভাবে ascending order (ছোট থেকে বড়) অনুসরণ করা হয়েছে।

descending order (অবতরণী ক্রম) এর জন্য:

# Age এর ভিত্তিতে descending order (বড় থেকে ছোট) এ সাজানো
arranged_df_desc <- arrange(df, desc(Age))
print(arranged_df_desc)

আউটপুট:

  Name Age Gender Score
1 Lucy  41 Female    95
2 Jane  34 Female    92
3 John  28   Male    88
4  Tom  22   Male    75

৪. `mutate()` ফাংশন

mutate() ফাংশনটি নতুন কলাম তৈরি করতে বা বিদ্যমান কলামের মান পরিবর্তন করতে ব্যবহৃত হয়। এটি একটি নতুন ডেটা ফ্রেম তৈরি করে যেখানে নতুন বা পরিবর্তিত কলাম থাকে।

উদাহরণ: নতুন কলাম তৈরি করা

# mutate ফাংশন দিয়ে একটি নতুন কলাম 'Age_in_5_years' তৈরি করা
mutated_df <- mutate(df, Age_in_5_years = Age + 5)
print(mutated_df)

আউটপুট:

  Name Age Gender Score Age_in_5_years
1 John  28   Male    88              33
2 Jane  34 Female    92              39
3  Tom  22   Male    75              27
4 Lucy  41 Female    95              46

এখানে, mutate(df, Age_in_5_years = Age + 5) কোডে Age_in_5_years নামক একটি নতুন কলাম তৈরি করা হয়েছে, যার মান মূল Age কলামের মানের সাথে ৫ যোগ করে।

৫. `summarise()` ফাংশন (বা `summarize()`)

summarise() ফাংশনটি ডেটা ফ্রেমের সারির উপর নির্দিষ্ট ফাংশন (যেমন গড়, মোট, সর্বাধিক মান ইত্যাদি) প্রয়োগ করে একটি সারাংশ তৈরি করে। এটি সাধারণত গ্রুপিং (grouping) এর জন্য ব্যবহার করা হয়।

উদাহরণ: গড় `Age` এবং গড় `Score` বের করা

# summarise ফাংশন দিয়ে গড় 'Age' এবং 'Score' বের করা
summary_df <- summarise(df, avg_age = mean(Age), avg_score = mean(Score))
print(summary_df)

আউটপুট:

  avg_age avg_score
1     31.25     87.5

এখানে, summarise(df, avg_age = mean(Age), avg_score = mean(Score)) কোডে ডেটা ফ্রেমের গড় Age এবং গড় Score বের করা হয়েছে।

গ্রুপিং (grouping) এর সাথে `summarise()` ব্যবহার:

# গ্রুপিং এবং summarise ফাংশন দিয়ে 'Gender' অনুযায়ী গড় 'Age' বের করা
grouped_summary <- df %>%
  group_by(Gender) %>%
  summarise(avg_age = mean(Age))
print(grouped_summary)

আউটপুট:

# A tibble: 2 × 2
  Gender avg_age
  <chr>     <dbl>
1 Female     37.5
2 Male       25

এখানে, group_by(Gender) দিয়ে Gender কলামের ভিত্তিতে ডেটা গ্রুপ করা হয়েছে এবং তারপরে summarise() ব্যবহার করে প্রতিটি গ্রুপের গড় বয়স বের করা হয়েছে।

সারসংক্ষেপ

select(): কলাম নির্বাচন করতে ব্যবহৃত হয়।
filter(): শর্ত অনুযায়ী সারি নির্বাচন করতে ব্যবহৃত হয়।
arrange(): ডেটা সজ্জিত (sort) করতে ব্যবহৃত হয়।
mutate(): নতুন কলাম তৈরি বা বিদ্যমান কলামের মান পরিবর্তন করতে ব্যবহৃত হয়।
summarise(): সারাংশ তৈরি করতে ব্যবহৃত হয়, যেমন গড়, মোট, সর্বাধিক মান ইত্যাদি।

এই ফাংশনগুলো dplyr প্যাকেজের কিছু মৌলিক এবং শক্তিশালী ফাংশন, যা ডেটা ম্যানিপুলেশন এবং বিশ্লেষণে অত্যন্ত কার্যকরী।

Content added By

Azizar Rahman Aziz

Data Manipulation এর উদাহরণ

369

R প্রোগ্রামিং: Data Manipulation এর উদাহরণ

Data manipulation হল ডেটার বিভিন্ন অংশ পরিবর্তন, সাজানো, ফিল্টার করা, যোগ করা এবং গণনা করা। R প্রোগ্রামিং ভাষায় ডেটা ম্যানিপুলেশনের জন্য অনেক শক্তিশালী প্যাকেজ এবং ফাংশন রয়েছে, যার মধ্যে সবচেয়ে জনপ্রিয় হচ্ছে dplyr এবং tidyr। এই প্যাকেজগুলি ডেটাকে সহজে এবং কার্যকরীভাবে ম্যানিপুলেট করতে সহায়তা করে।

নিচে dplyr এবং tidyr প্যাকেজ ব্যবহার করে বিভিন্ন ধরনের ডেটা ম্যানিপুলেশনের উদাহরণ দেওয়া হলো।

১. dplyr প্যাকেজের মাধ্যমে Data Manipulation

dplyr প্যাকেজটি ডেটা ম্যানিপুলেশনের জন্য সবচেয়ে জনপ্রিয় প্যাকেজ। এটি ডেটার উপর filtering, arranging, mutating, summarizing এবং selecting এর কাজগুলো সহজ করে তোলে।

dplyr প্যাকেজ ইনস্টল এবং লোড করা:

install.packages("dplyr")
library(dplyr)

১.১ filter(): ডেটা ফিল্টার করা

filter() ফাংশন দিয়ে একটি নির্দিষ্ট শর্তে ডেটা ফিল্টার করা হয়।

# একটি ডেটাফ্রেম তৈরি
data <- data.frame(
  name = c("John", "Alice", "Bob", "Jane"),
  age = c(25, 30, 22, 28),
  salary = c(50000, 60000, 40000, 55000)
)

# বয়স 25 এর বেশি যারা তাদের নির্বাচন করা
filtered_data <- filter(data, age > 25)

# আউটপুট
print(filtered_data)

১.২ arrange(): ডেটা সাজানো

arrange() ফাংশন ব্যবহার করে ডেটা ক্রম অনুযায়ী সাজানো যায় (ascending বা descending)।

# বয়স অনুযায়ী সাজানো (ascending)
arranged_data <- arrange(data, age)

# আউটপুট
print(arranged_data)

১.৩ mutate(): নতুন কলাম যোগ করা

mutate() ফাংশন ব্যবহার করে নতুন কলাম যোগ করা যায়।

# নতুন কলাম যোগ করা (monthly_salary হিসাবে বার্ষিক বেতন ভাগ করা)
mutated_data <- mutate(data, monthly_salary = salary / 12)

# আউটপুট
print(mutated_data)

১.৪ select(): নির্দিষ্ট কলাম নির্বাচন করা

select() ফাংশন দিয়ে নির্দিষ্ট কলাম নির্বাচন করা যায়।

# name এবং salary কলাম নির্বাচন করা
selected_data <- select(data, name, salary)

# আউটপুট
print(selected_data)

১.৫ summarize(): সারাংশ তৈরি করা

summarize() ফাংশন ব্যবহার করে ডেটার সারাংশ তৈরি করা যায়, যেমন গড়, মোট বা অন্যান্য পরিসংখ্যান।

# গড় বেতন হিসাব করা
summary_data <- summarize(data, avg_salary = mean(salary))

# আউটপুট
print(summary_data)

১.৬ group_by(): গ্রুপিং

group_by() ফাংশন দিয়ে ডেটা গ্রুপ করা যায় এবং এরপর সারাংশ তৈরি করা যায়।

# বেতন অনুযায়ী গ্রুপিং এবং গড় বয়স হিসাব করা
grouped_data <- data %>%
  group_by(salary) %>%
  summarize(avg_age = mean(age))

# আউটপুট
print(grouped_data)

২. tidyr প্যাকেজের মাধ্যমে Data Manipulation

tidyr প্যাকেজটি ডেটার গঠন পরিবর্তন করতে সাহায্য করে, যেমন wide-to-long বা long-to-wide ফরম্যাটে ডেটা রূপান্তর করা।

tidyr প্যাকেজ ইনস্টল এবং লোড করা:

install.packages("tidyr")
library(tidyr)

২.১ spread(): Long format থেকে Wide format এ রূপান্তর

spread() ফাংশন ব্যবহার করে long format ডেটাকে wide format এ রূপান্তর করা যায়।

# একটি long format ডেটাফ্রেম তৈরি
data_long <- data.frame(
  name = c("John", "Alice", "Bob", "Jane"),
  key = c("age", "age", "age", "age"),
  value = c(25, 30, 22, 28)
)

# long থেকে wide format এ রূপান্তর
data_wide <- spread(data_long, key = key, value = value)

# আউটপুট
print(data_wide)

২.২ gather(): Wide format থেকে Long format এ রূপান্তর

gather() ফাংশন ব্যবহার করে wide format ডেটাকে long format এ রূপান্তর করা যায়।

# একটি wide format ডেটাফ্রেম তৈরি
data_wide <- data.frame(
  name = c("John", "Alice", "Bob", "Jane"),
  age = c(25, 30, 22, 28),
  salary = c(50000, 60000, 40000, 55000)
)

# wide থেকে long format এ রূপান্তর
data_long <- gather(data_wide, key = "variable", value = "value", age, salary)

# আউটপুট
print(data_long)

২.৩ separate(): এক কলাম থেকে দুটি বা বেশি কলামে ভাগ করা

separate() ফাংশন ব্যবহার করে একটি কলামকে দুটি বা বেশি কলামে ভাগ করা যায়।

# একটি ডেটাফ্রেম তৈরি
data <- data.frame(
  name = c("John", "Alice", "Bob", "Jane"),
  full_name = c("John Doe", "Alice Smith", "Bob Brown", "Jane Doe")
)

# full_name কলাম থেকে first_name এবং last_name কলাম তৈরি করা
separated_data <- separate(data, full_name, into = c("first_name", "last_name"), sep = " ")

# আউটপুট
print(separated_data)

২.৪ unite(): দুটি কলামকে একটিতে একত্রিত করা

unite() ফাংশন ব্যবহার করে দুটি কলামকে একত্রিত করা যায়।

# দুটি কলামকে একত্রিত করা
united_data <- unite(separated_data, full_name, first_name, last_name, sep = " ")

# আউটপুট
print(united_data)

৩. Data Manipulation এর কিছু অতিরিক্ত টিপস

Pipes (%>%): R-এ %>% পাইপ অপারেটর ব্যবহৃত হয় একাধিক ফাংশনকে একসাথে ব্যবহার করতে। এটি কোডকে আরও পরিষ্কার এবং পাঠযোগ্য করে তোলে।
```
# pipes ব্যবহার করে একাধিক কাজ করা
data %>%
  filter(age > 25) %>%
  select(name, age) %>%
  arrange(age)
```
Filtering NA Values: NA (missing) মানগুলো ফিল্টার করতে na.omit() ব্যবহার করা হয়।
```
data_clean <- na.omit(data)  # NA মানগুলো বাদ দেয়া
```

সারসংক্ষেপ

R প্রোগ্রামিংয়ে data manipulation হল ডেটা ম্যানিপুলেশন এর অন্যতম গুরুত্বপূর্ণ দিক। এর মাধ্যমে আপনি ডেটাকে ফিল্টার, সাজানো, নতুন কলাম তৈরি, গ্রুপিং, সারাংশ তৈরি এবং ডেটার গঠন পরিবর্তন করতে পারেন। dplyr এবং tidyr প্যাকেজগুলো ডেটা ম্যানিপুলেশন করার জন্য খুবই শক্তিশালী টুলস, এবং এগুলি ডেটার উপর বিভিন্ন কার্যক্রম পরিচালনা করার জন্য ব্যবহার করা হয়।

filter(), arrange(), mutate(), select(), summarize() এবং group_by() হল dplyr-এর জনপ্রিয় ফাংশন।
spread(), gather(), separate(), unite() হল tidyr-এর জনপ্রিয় ফাংশন।

এই ফাংশনগুলির মাধ্যমে আপনি ডেটা প্রক্রিয়া এবং বিশ্লেষণ করতে পারবেন আরও দ্রুত এবং কার্যকরভাবে।

Content added By

Azizar Rahman Aziz

R এর ভূমিকা (Introduction to R) R এর বেসিক সিনট্যাক্স (Basic Syntax of R) Vectors, Lists, এবং Matrices (ভেক্টরস, লিস্টস, এবং ম্যাট্রিক্সেস) Factors এবং Data Frames (ফ্যাক্টরস এবং ডেটা ফ্রেমস) Control Flow Statements (নিয়ন্ত্রণ প্রবাহ স্টেটমেন্টস)

Data Manipulation (ডেটা ম্যানিপুলেশন)

R এ ডেটা ম্যানিপুলেশন (Data Manipulation in R)

ডেটা ম্যানিপুলেশনের কিছু গুরুত্বপূর্ণ কাজ

১. ডেটা নির্বাচন (Selecting Data)

উদাহরণ:

২. ফিল্টারিং (Filtering Rows)

উদাহরণ:

৩. নতুন কলাম তৈরি (Creating New Columns)

উদাহরণ:

৪. ডেটা সাজানো (Arranging Data)

উদাহরণ:

৫. গ্রুপিং এবং সারসংক্ষেপ (Grouping and Summarizing Data)

উদাহরণ:

৬. ডেটা রূপান্তর (Data Transformation)

উদাহরণ:

সারসংক্ষেপ

Data Cleaning এবং Transformation Techniques

Data Cleaning এবং Transformation Techniques

১. Data Cleaning Techniques

১.১. Missing Values হ্যান্ডলিং

১.২. Outliers সনাক্ত এবং মুছে ফেলা

১.৩. ডুপ্লিকেট ডেটা হ্যান্ডলিং

১.৪. String Data Cleaning

২. Data Transformation Techniques

২.১. Variable Transformation

২.২. Encoding Categorical Variables

২.৩. Data Aggregation

২.৪. Pivoting and Reshaping Data

২.৫. Date and Time Transformation

৩. Data Cleaning এবং Transformation এর উদাহরণ

সারসংক্ষেপ

Filtering, Sorting, এবং Aggregating Data

R এ Filtering, Sorting, এবং Aggregating Data

১. Filtering Data

subset() ফাংশন ব্যবহার:

লজিক্যাল কন্ডিশন দিয়ে ফিল্টার:

২. Sorting Data

order() ফাংশন ব্যবহার:

Descending (বড় থেকে ছোট) সাজানো:

একাধিক কলামের উপর ভিত্তি করে সাজানো:

৩. Aggregating Data

aggregate() ফাংশন ব্যবহার:

একাধিক ফাংশন প্রয়োগ:

dplyr প্যাকেজ ব্যবহার করে Aggregation:

সারসংক্ষেপ

Dplyr Package এর ব্যবহার (select, filter, arrange, mutate, summarise)

R-এ dplyr প্যাকেজের ব্যবহার: select, filter, arrange, mutate, summarise

১. select() ফাংশন

উদাহরণ: কলাম নির্বাচন করা

২. filter() ফাংশন

উদাহরণ: শর্ত অনুযায়ী সারি নির্বাচন করা

৩. arrange() ফাংশন

উদাহরণ: Age এর ভিত্তিতে সাজানো

descending order (অবতরণী ক্রম) এর জন্য:

৪. mutate() ফাংশন

উদাহরণ: নতুন কলাম তৈরি করা

৫. summarise() ফাংশন (বা summarize())

উদাহরণ: গড় Age এবং গড় Score বের করা

গ্রুপিং (grouping) এর সাথে summarise() ব্যবহার:

সারসংক্ষেপ

Data Manipulation এর উদাহরণ

R প্রোগ্রামিং: Data Manipulation এর উদাহরণ

১. dplyr প্যাকেজের মাধ্যমে Data Manipulation

dplyr প্যাকেজ ইনস্টল এবং লোড করা:

১.১ filter(): ডেটা ফিল্টার করা

১.২ arrange(): ডেটা সাজানো

১.৩ mutate(): নতুন কলাম যোগ করা

১.৪ select(): নির্দিষ্ট কলাম নির্বাচন করা

১.৫ summarize(): সারাংশ তৈরি করা

১.৬ group_by(): গ্রুপিং

২. tidyr প্যাকেজের মাধ্যমে Data Manipulation

tidyr প্যাকেজ ইনস্টল এবং লোড করা:

২.১ spread(): Long format থেকে Wide format এ রূপান্তর

২.২ gather(): Wide format থেকে Long format এ রূপান্তর

২.৩ separate(): এক কলাম থেকে দুটি বা বেশি কলামে ভাগ করা

২.৪ unite(): দুটি কলামকে একটিতে একত্রিত করা

৩. Data Manipulation এর কিছু অতিরিক্ত টিপস

সারসংক্ষেপ

All Notifications

Promotion

`subset()` ফাংশন ব্যবহার:

`order()` ফাংশন ব্যবহার:

`aggregate()` ফাংশন ব্যবহার:

`dplyr` প্যাকেজ ব্যবহার করে Aggregation:

R-এ dplyr প্যাকেজের ব্যবহার: `select`, `filter`, `arrange`, `mutate`, `summarise`

১. `select()` ফাংশন

২. `filter()` ফাংশন

৩. `arrange()` ফাংশন

উদাহরণ: `Age` এর ভিত্তিতে সাজানো

৪. `mutate()` ফাংশন

৫. `summarise()` ফাংশন (বা `summarize()`)

উদাহরণ: গড় `Age` এবং গড় `Score` বের করা

গ্রুপিং (grouping) এর সাথে `summarise()` ব্যবহার: