Big Data and Analytics Data Transformation এবং Reshaping Techniques (dplyr, tidyr) গাইড ও নোট

418

ডেটা ট্রান্সফরমেশন এবং রেশেপিং (Reshaping) হল ডেটা ম্যানিপুলেশনের একটি গুরুত্বপূর্ণ অংশ, যেখানে ডেটাকে বিভিন্ন আকারে সাজানো, রূপান্তর করা এবং বিশ্লেষণের জন্য প্রস্তুত করা হয়। আর প্রোগ্রামিংয়ে এই কাজগুলো করার জন্য দুটি অত্যন্ত জনপ্রিয় প্যাকেজ রয়েছে: dplyr এবং tidyr। এই দুটি প্যাকেজ ডেটা ট্রান্সফরমেশন এবং রেশেপিং কাজকে সহজ, দ্রুত এবং কার্যকরী করে তোলে।


dplyr: ডেটা ট্রান্সফরমেশন

dplyr হলো একটি প্যাকেজ যা আর-এর tidyverse এ অন্তর্ভুক্ত এবং এটি ডেটা ট্রান্সফরমেশন এবং ম্যানিপুলেশনের জন্য ব্যবহৃত হয়। এটি খুবই শক্তিশালী ফাংশন সরবরাহ করে যা ডেটা ফিল্টারিং, গ্রুপিং, অর্ডারিং এবং রেঞ্জিং এর মতো কাজ দ্রুত এবং সহজে করতে সহায়তা করে।

dplyr এর প্রধান ফাংশনসমূহ:

১. filter(): ডেটা ফিল্টার করা

এটি ডেটা ফ্রেম থেকে নির্দিষ্ট শর্ত অনুযায়ী সারি (rows) বেছে নিতে ব্যবহৃত হয়।

উদাহরণ:

library(dplyr)
data <- data.frame(Name = c("Alice", "Bob", "Charlie"),
                   Age = c(25, 30, 35),
                   Salary = c(50000, 60000, 70000))

# ৩০ এর বেশি বয়সের মানুষদের বেছে নেওয়া
filtered_data <- filter(data, Age > 30)
print(filtered_data)

২. select(): কলাম নির্বাচন করা

এটি ডেটা ফ্রেম থেকে নির্দিষ্ট কলাম বেছে নিতে ব্যবহৃত হয়।

উদাহরণ:

# শুধু Name এবং Age কলাম নির্বাচন করা
selected_data <- select(data, Name, Age)
print(selected_data)

৩. mutate(): নতুন কলাম তৈরি করা

এটি একটি নতুন কলাম যুক্ত করার জন্য ব্যবহার করা হয়, যা এক বা একাধিক বিদ্যমান কলামের উপর ভিত্তি করে হিসাব করা হতে পারে।

উদাহরণ:

# Salary কলামের ১০% বোনাস যোগ করে একটি নতুন কলাম তৈরি করা
data_with_bonus <- mutate(data, Bonus = Salary * 0.10)
print(data_with_bonus)

৪. arrange(): সারি সাজানো

এটি ডেটা ফ্রেমের সারিগুলোকে নির্দিষ্ট কলামের মান অনুযায়ী সাজাতে ব্যবহৃত হয়।

উদাহরণ:

# বেতন অনুযায়ী ডেটা সাজানো
arranged_data <- arrange(data, Salary)
print(arranged_data)

৫. summarise(): উপসামারি তৈরি করা

এটি ডেটার উপর বিভিন্ন ধরনের পরিসংখ্যানমূলক গণনা (যেমন গড়, মোট যোগফল) করতে ব্যবহৃত হয়।

উদাহরণ:

# গড় বেতন বের করা
summary_data <- summarise(data, Average_Salary = mean(Salary))
print(summary_data)

৬. group_by(): গ্রুপিং

এটি একটি ডেটা ফ্রেমকে একটি বা একাধিক কলাম অনুযায়ী গ্রুপ করতে ব্যবহৃত হয়, যাতে গ্রুপ ভিত্তিক পরিসংখ্যান করা যায়।

উদাহরণ:

# বয়স অনুযায়ী গ্রুপ করে গড় বেতন বের করা
grouped_data <- data %>%
  group_by(Age) %>%
  summarise(Average_Salary = mean(Salary))
print(grouped_data)

tidyr: ডেটা রেশেপিং

tidyr আর প্রোগ্রামিং এর আরেকটি গুরুত্বপূর্ণ প্যাকেজ, যা মূলত ডেটা রেশেপিং এবং ডেটা ফরম্যাট পরিবর্তনের জন্য ব্যবহৃত হয়। এই প্যাকেজের মাধ্যমে ডেটা ফ্রেমকে একটি নির্দিষ্ট ফরম্যাটে সাজানো যায়, যেমন "wide" থেকে "long" বা "long" থেকে "wide" রূপান্তর করা।

tidyr এর প্রধান ফাংশনসমূহ:

১. gather(): ডেটাকে "wide" থেকে "long" ফরম্যাটে রূপান্তর করা

এটি "wide" ফরম্যাটে থাকা ডেটাকে "long" ফরম্যাটে রূপান্তর করতে ব্যবহৃত হয়।

উদাহরণ:

library(tidyr)
data_wide <- data.frame(
  Name = c("Alice", "Bob"),
  Math = c(90, 85),
  Science = c(88, 92)
)

# ডেটাকে long ফরম্যাটে রূপান্তর করা
data_long <- gather(data_wide, Subject, Marks, Math:Science)
print(data_long)

২. spread(): ডেটাকে "long" থেকে "wide" ফরম্যাটে রূপান্তর করা

এটি "long" ফরম্যাটে থাকা ডেটাকে "wide" ফরম্যাটে রূপান্তর করতে ব্যবহৃত হয়।

উদাহরণ:

# ডেটাকে wide ফরম্যাটে রূপান্তর করা
data_wide2 <- spread(data_long, Subject, Marks)
print(data_wide2)

৩. separate(): একটি কলামকে আলাদা করা

এটি একটি কলামকে দুটি বা তার বেশি কলামে আলাদা করতে ব্যবহৃত হয়, যেখানে একটি নির্দিষ্ট সেপারেটর (যেমন স্পেস বা কমা) ব্যবহার করা হয়।

উদাহরণ:

# একটি কলামকে আলাদা করা
data <- data.frame(Name = c("Alice Smith", "Bob Johnson"))
data_separated <- separate(data, Name, into = c("First_Name", "Last_Name"), sep = " ")
print(data_separated)

৪. unite(): একাধিক কলামকে একত্রিত করা

এটি একাধিক কলামকে একটি কলামে একত্রিত করার জন্য ব্যবহৃত হয়।

উদাহরণ:

# দুটি কলামকে একত্রিত করা
data_united <- unite(data_separated, Full_Name, First_Name, Last_Name, sep = " ")
print(data_united)

সারাংশ

dplyr এবং tidyr আর প্রোগ্রামিংয়ে ডেটা ট্রান্সফরমেশন এবং রেশেপিংয়ের জন্য অত্যন্ত শক্তিশালী টুল। dplyr প্যাকেজটি ডেটা ফিল্টারিং, গ্রুপিং, সাজানো, গণনা ইত্যাদি কাজের জন্য ব্যবহৃত হয়, এবং tidyr প্যাকেজটি ডেটা রূপান্তর এবং রেশেপিংয়ের কাজের জন্য ব্যবহৃত হয়। এই দুটি প্যাকেজের মাধ্যমে ডেটা বিশ্লেষণকে আরও সহজ, দ্রুত এবং কার্যকরী করা যায়।

Content added By
Promotion

Are you sure to start over?

Loading...