Data Transformation এবং Reshaping Techniques (dplyr, tidyr)

Data Manipulation এবং Cleaning Techniques - আর প্রোগ্রামিং (R Programming) - Big Data and Analytics

460

ডেটা ট্রান্সফরমেশন এবং রেশেপিং (Reshaping) হল ডেটা ম্যানিপুলেশনের একটি গুরুত্বপূর্ণ অংশ, যেখানে ডেটাকে বিভিন্ন আকারে সাজানো, রূপান্তর করা এবং বিশ্লেষণের জন্য প্রস্তুত করা হয়। আর প্রোগ্রামিংয়ে এই কাজগুলো করার জন্য দুটি অত্যন্ত জনপ্রিয় প্যাকেজ রয়েছে: dplyr এবং tidyr। এই দুটি প্যাকেজ ডেটা ট্রান্সফরমেশন এবং রেশেপিং কাজকে সহজ, দ্রুত এবং কার্যকরী করে তোলে।

dplyr: ডেটা ট্রান্সফরমেশন

dplyr হলো একটি প্যাকেজ যা আর-এর tidyverse এ অন্তর্ভুক্ত এবং এটি ডেটা ট্রান্সফরমেশন এবং ম্যানিপুলেশনের জন্য ব্যবহৃত হয়। এটি খুবই শক্তিশালী ফাংশন সরবরাহ করে যা ডেটা ফিল্টারিং, গ্রুপিং, অর্ডারিং এবং রেঞ্জিং এর মতো কাজ দ্রুত এবং সহজে করতে সহায়তা করে।

dplyr এর প্রধান ফাংশনসমূহ:

১. `filter()`: ডেটা ফিল্টার করা

এটি ডেটা ফ্রেম থেকে নির্দিষ্ট শর্ত অনুযায়ী সারি (rows) বেছে নিতে ব্যবহৃত হয়।

উদাহরণ:

library(dplyr)
data <- data.frame(Name = c("Alice", "Bob", "Charlie"),
                   Age = c(25, 30, 35),
                   Salary = c(50000, 60000, 70000))

# ৩০ এর বেশি বয়সের মানুষদের বেছে নেওয়া
filtered_data <- filter(data, Age > 30)
print(filtered_data)

২. `select()`: কলাম নির্বাচন করা

এটি ডেটা ফ্রেম থেকে নির্দিষ্ট কলাম বেছে নিতে ব্যবহৃত হয়।

উদাহরণ:

# শুধু Name এবং Age কলাম নির্বাচন করা
selected_data <- select(data, Name, Age)
print(selected_data)

৩. `mutate()`: নতুন কলাম তৈরি করা

এটি একটি নতুন কলাম যুক্ত করার জন্য ব্যবহার করা হয়, যা এক বা একাধিক বিদ্যমান কলামের উপর ভিত্তি করে হিসাব করা হতে পারে।

উদাহরণ:

# Salary কলামের ১০% বোনাস যোগ করে একটি নতুন কলাম তৈরি করা
data_with_bonus <- mutate(data, Bonus = Salary * 0.10)
print(data_with_bonus)

৪. `arrange()`: সারি সাজানো

এটি ডেটা ফ্রেমের সারিগুলোকে নির্দিষ্ট কলামের মান অনুযায়ী সাজাতে ব্যবহৃত হয়।

উদাহরণ:

# বেতন অনুযায়ী ডেটা সাজানো
arranged_data <- arrange(data, Salary)
print(arranged_data)

৫. `summarise()`: উপসামারি তৈরি করা

এটি ডেটার উপর বিভিন্ন ধরনের পরিসংখ্যানমূলক গণনা (যেমন গড়, মোট যোগফল) করতে ব্যবহৃত হয়।

উদাহরণ:

# গড় বেতন বের করা
summary_data <- summarise(data, Average_Salary = mean(Salary))
print(summary_data)

৬. `group_by()`: গ্রুপিং

এটি একটি ডেটা ফ্রেমকে একটি বা একাধিক কলাম অনুযায়ী গ্রুপ করতে ব্যবহৃত হয়, যাতে গ্রুপ ভিত্তিক পরিসংখ্যান করা যায়।

উদাহরণ:

# বয়স অনুযায়ী গ্রুপ করে গড় বেতন বের করা
grouped_data <- data %>%
  group_by(Age) %>%
  summarise(Average_Salary = mean(Salary))
print(grouped_data)

tidyr: ডেটা রেশেপিং

tidyr আর প্রোগ্রামিং এর আরেকটি গুরুত্বপূর্ণ প্যাকেজ, যা মূলত ডেটা রেশেপিং এবং ডেটা ফরম্যাট পরিবর্তনের জন্য ব্যবহৃত হয়। এই প্যাকেজের মাধ্যমে ডেটা ফ্রেমকে একটি নির্দিষ্ট ফরম্যাটে সাজানো যায়, যেমন "wide" থেকে "long" বা "long" থেকে "wide" রূপান্তর করা।

tidyr এর প্রধান ফাংশনসমূহ:

১. `gather()`: ডেটাকে "wide" থেকে "long" ফরম্যাটে রূপান্তর করা

এটি "wide" ফরম্যাটে থাকা ডেটাকে "long" ফরম্যাটে রূপান্তর করতে ব্যবহৃত হয়।

উদাহরণ:

library(tidyr)
data_wide <- data.frame(
  Name = c("Alice", "Bob"),
  Math = c(90, 85),
  Science = c(88, 92)
)

# ডেটাকে long ফরম্যাটে রূপান্তর করা
data_long <- gather(data_wide, Subject, Marks, Math:Science)
print(data_long)

২. `spread()`: ডেটাকে "long" থেকে "wide" ফরম্যাটে রূপান্তর করা

এটি "long" ফরম্যাটে থাকা ডেটাকে "wide" ফরম্যাটে রূপান্তর করতে ব্যবহৃত হয়।

উদাহরণ:

# ডেটাকে wide ফরম্যাটে রূপান্তর করা
data_wide2 <- spread(data_long, Subject, Marks)
print(data_wide2)

৩. `separate()`: একটি কলামকে আলাদা করা

এটি একটি কলামকে দুটি বা তার বেশি কলামে আলাদা করতে ব্যবহৃত হয়, যেখানে একটি নির্দিষ্ট সেপারেটর (যেমন স্পেস বা কমা) ব্যবহার করা হয়।

উদাহরণ:

# একটি কলামকে আলাদা করা
data <- data.frame(Name = c("Alice Smith", "Bob Johnson"))
data_separated <- separate(data, Name, into = c("First_Name", "Last_Name"), sep = " ")
print(data_separated)

৪. `unite()`: একাধিক কলামকে একত্রিত করা

এটি একাধিক কলামকে একটি কলামে একত্রিত করার জন্য ব্যবহৃত হয়।

উদাহরণ:

# দুটি কলামকে একত্রিত করা
data_united <- unite(data_separated, Full_Name, First_Name, Last_Name, sep = " ")
print(data_united)

সারাংশ

dplyr এবং tidyr আর প্রোগ্রামিংয়ে ডেটা ট্রান্সফরমেশন এবং রেশেপিংয়ের জন্য অত্যন্ত শক্তিশালী টুল। dplyr প্যাকেজটি ডেটা ফিল্টারিং, গ্রুপিং, সাজানো, গণনা ইত্যাদি কাজের জন্য ব্যবহৃত হয়, এবং tidyr প্যাকেজটি ডেটা রূপান্তর এবং রেশেপিংয়ের কাজের জন্য ব্যবহৃত হয়। এই দুটি প্যাকেজের মাধ্যমে ডেটা বিশ্লেষণকে আরও সহজ, দ্রুত এবং কার্যকরী করা যায়।

Content added By

Rezwan Siddiki Tamim

Data Cleaning এর জন্য Techniques (Missing Values, Outliers) Data Filtering, Sorting, এবং Subsetting Data Aggregation এবং Summarization Techniques

Data Transformation এবং Reshaping Techniques (dplyr, tidyr)

dplyr: ডেটা ট্রান্সফরমেশন

dplyr এর প্রধান ফাংশনসমূহ:

১. `filter()`: ডেটা ফিল্টার করা

২. `select()`: কলাম নির্বাচন করা

৩. `mutate()`: নতুন কলাম তৈরি করা

৪. `arrange()`: সারি সাজানো

৫. `summarise()`: উপসামারি তৈরি করা

৬. `group_by()`: গ্রুপিং

tidyr: ডেটা রেশেপিং

tidyr এর প্রধান ফাংশনসমূহ:

১. `gather()`: ডেটাকে "wide" থেকে "long" ফরম্যাটে রূপান্তর করা

২. `spread()`: ডেটাকে "long" থেকে "wide" ফরম্যাটে রূপান্তর করা

৩. `separate()`: একটি কলামকে আলাদা করা

৪. `unite()`: একাধিক কলামকে একত্রিত করা

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Data Transformation এবং Reshaping Techniques (dplyr, tidyr)

dplyr: ডেটা ট্রান্সফরমেশন

dplyr এর প্রধান ফাংশনসমূহ:

১. filter(): ডেটা ফিল্টার করা

২. select(): কলাম নির্বাচন করা

৩. mutate(): নতুন কলাম তৈরি করা

৪. arrange(): সারি সাজানো

৫. summarise(): উপসামারি তৈরি করা

৬. group_by(): গ্রুপিং

tidyr: ডেটা রেশেপিং

tidyr এর প্রধান ফাংশনসমূহ:

১. gather(): ডেটাকে "wide" থেকে "long" ফরম্যাটে রূপান্তর করা

২. spread(): ডেটাকে "long" থেকে "wide" ফরম্যাটে রূপান্তর করা

৩. separate(): একটি কলামকে আলাদা করা

৪. unite(): একাধিক কলামকে একত্রিত করা

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!

১. `filter()`: ডেটা ফিল্টার করা

২. `select()`: কলাম নির্বাচন করা

৩. `mutate()`: নতুন কলাম তৈরি করা

৪. `arrange()`: সারি সাজানো

৫. `summarise()`: উপসামারি তৈরি করা

৬. `group_by()`: গ্রুপিং

১. `gather()`: ডেটাকে "wide" থেকে "long" ফরম্যাটে রূপান্তর করা

২. `spread()`: ডেটাকে "long" থেকে "wide" ফরম্যাটে রূপান্তর করা

৩. `separate()`: একটি কলামকে আলাদা করা

৪. `unite()`: একাধিক কলামকে একত্রিত করা