Big Data and Analytics Basic Statistical Functions (mean, median, sd, var) গাইড ও নোট

335

আর প্রোগ্রামিং ভাষায় স্ট্যাটিস্টিক্যাল ফাংশনস ব্যবহার করে ডেটার উপর বিভিন্ন পরিসংখ্যানগত বিশ্লেষণ করা হয়। এই ফাংশনগুলো ডেটা সেটের গড়, মধ্যম, স্ট্যান্ডার্ড ডেভিয়েশন, এবং ভ্যারিয়েন্স হিসাব করতে ব্যবহৃত হয়। এগুলি ডেটা সায়েন্স, পরিসংখ্যান বিশ্লেষণ এবং গবেষণার জন্য অত্যন্ত গুরুত্বপূর্ণ।

এখানে, আমরা mean, median, sd, এবং var ফাংশনগুলোর ব্যবহার সম্পর্কে বিস্তারিত আলোচনা করব।

১. mean() - গড় (Mean)

Mean বা গড় হলো সমস্ত মানের যোগফল এবং তাদের সংখ্যা দিয়ে ভাগ করার ফল। এটি একটি সাধারণ পরিসংখ্যানিক পরিমাপ যা ডেটার কেন্দ্রীকরণ বা কেন্দ্রীয় প্রবণতা (Central Tendency) নির্ধারণ করে।

ব্যবহার:

# ডেটা তৈরি করা
data <- c(1, 2, 3, 4, 5)

# গড় মান বের করা
mean_value <- mean(data)
print(mean_value)  # আউটপুট: 3

এখানে, mean() ফাংশনটি ডেটার গড় মান বের করে, যেটি এখানে ৩। এটি ডেটা সেটের প্রতিটি উপাদানকে একত্রে যোগ করে, এবং তাদের সংখ্যা দিয়ে ভাগ করে গড় মান নির্ধারণ করে।

২. median() - মধ্যম (Median)

Median হলো ডেটার মাঝের মান, যা সমস্ত মান ছোট থেকে বড় বা বড় থেকে ছোট করে সাজানোর পর মাঝের অবস্থানে থাকে। এটি গড়ের তুলনায় আউটলিয়ার বা অস্বাভাবিক মানের প্রভাব থেকে কম প্রভাবিত হয়।

ব্যবহার:

# ডেটা তৈরি করা
data <- c(1, 2, 3, 4, 5)

# মধ্যম মান বের করা
median_value <- median(data)
print(median_value)  # আউটপুট: 3

এখানে, median() ফাংশনটি ডেটার মধ্যম মান বের করে। যদি ডেটার উপাদানের সংখ্যা বিজোড় হয়, তাহলে মাঝের মান হবে; আর যদি তারিখটি বিজোড় হয়, তাহলে মধ্যের দুটি মানের গড় হবে।

৩. sd() - স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation)

Standard Deviation (SD) হলো একটি পরিমাপ যা ডেটার মানগুলির গড় থেকে কতটুকু বিচ্যুতি হচ্ছে তা নির্দেশ করে। এটি ডেটার ছড়িয়ে পড়া বা বৈচিত্র্য (Dispersion) সম্পর্কে ধারণা দেয়। কম স্ট্যান্ডার্ড ডেভিয়েশন মানে ডেটা সেটের মানগুলো গড়ের কাছাকাছি এবং বেশি স্ট্যান্ডার্ড ডেভিয়েশন মানে ডেটা সেটের মানগুলো বেশি ছড়িয়ে পড়েছে।

ব্যবহার:

# ডেটা তৈরি করা
data <- c(1, 2, 3, 4, 5)

# স্ট্যান্ডার্ড ডেভিয়েশন বের করা
sd_value <- sd(data)
print(sd_value)  # আউটপুট: 1.58

এখানে, sd() ফাংশনটি ডেটার স্ট্যান্ডার্ড ডেভিয়েশন বের করে, যা গড় থেকে বিচ্যুতি সম্পর্কে ধারণা দেয়।

৪. var() - ভ্যারিয়েন্স (Variance)

Variance হলো স্ট্যান্ডার্ড ডেভিয়েশনের বর্গ এবং এটি ডেটার ছড়িয়ে পড়া বা বৈচিত্র্য সম্পর্কে ধারণা দেয়। এটি স্ট্যান্ডার্ড ডেভিয়েশনের মতোই ডেটার গড় থেকে বিচ্যুতি পরিমাপ করে, তবে এটি মূলত সংখ্যার বর্গমূল হিসাবে কাজ করে।

ব্যবহার:

# ডেটা তৈরি করা
data <- c(1, 2, 3, 4, 5)

# ভ্যারিয়েন্স বের করা
var_value <- var(data)
print(var_value)  # আউটপুট: 2.5

এখানে, var() ফাংশনটি ডেটার ভ্যারিয়েন্স বের করে। এটি স্ট্যান্ডার্ড ডেভিয়েশনের মতো একটি পরিসংখ্যানিক পরিমাপ, তবে এটি স্ট্যান্ডার্ড ডেভিয়েশনের বর্গ।

সারাংশ

আর প্রোগ্রামিং-এ mean, median, sd, এবং var ফাংশনগুলো ডেটার মৌলিক পরিসংখ্যানিক বিশ্লেষণ করার জন্য অত্যন্ত গুরুত্বপূর্ণ।

mean(): ডেটার গড় মান নির্ধারণ করে।
median(): ডেটার মধ্যম মান বের করে, যা গড়ের তুলনায় আউটলিয়ারের প্রভাব কমিয়ে আনে।
sd(): ডেটার মানগুলোর গড় থেকে বিচ্যুতি বা ছড়িয়ে পড়া পরিমাপ করে।
var(): স্ট্যান্ডার্ড ডেভিয়েশনের বর্গ এবং ডেটার বৈচিত্র্য বুঝতে সাহায্য করে।

এই পরিসংখ্যানিক পরিমাপগুলো ডেটার প্রবণতা এবং বৈচিত্র্য বিশ্লেষণ করতে সহায়ক।

Content added By

Rezwan Siddiki Tamim

Correlation এবং Covariance Analysis T-tests, Chi-square Tests, এবং ANOVA P-values এবং Confidence Intervals

Big Data and Analytics Basic Statistical Functions (mean, median, sd, var) গাইড ও নোট

১. mean() - গড় (Mean)

ব্যবহার:

২. median() - মধ্যম (Median)

ব্যবহার:

৩. sd() - স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation)

ব্যবহার:

৪. var() - ভ্যারিয়েন্স (Variance)

ব্যবহার:

সারাংশ

Promotion

Satt AI

Hi, আমি SATT AI!

Big Data and Analytics Basic Statistical Functions (mean, median, sd, var) গাইড ও নোট

১. mean() - গড় (Mean)

ব্যবহার:

২. median() - মধ্যম (Median)

ব্যবহার:

৩. sd() - স্ট্যান্ডার্ড ডেভিয়েশন (Standard Deviation)

ব্যবহার:

৪. var() - ভ্যারিয়েন্স (Variance)

ব্যবহার:

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!