K-Nearest Neighbors (KNN) একটি জনপ্রিয় সুপারভাইজড মেশিন লার্নিং অ্যালগরিদম, যা শ্রেণীবিভাগ (classification) এবং রিগ্রেশন (regression) এর জন্য ব্যবহৃত হয়। KNN এর মূল কাজ হল একটি নতুন ডেটা পয়েন্টের জন্য তার ক-নিকটতম প্রতিবেশী (neighbors) খুঁজে বের করা এবং তাদের ভোট বা গড়ের মাধ্যমে সিদ্ধান্ত নেয়া। KNN অ্যালগরিদম কাজ করার জন্য ডেটা পয়েন্টগুলির মধ্যে দূরত্ব (distance) নির্ধারণ করতে হয়। এই উদ্দেশ্যে বিভিন্ন distance metrics ব্যবহৃত হয়।
KNN এর প্রধান Distance Metrics:
- Euclidean Distance (ইউক্লিডিয়ান দূরত্ব)
- Manhattan Distance (ম্যানহাটন দূরত্ব)
- Minkowski Distance (মিনকোভস্কি দূরত্ব)
- Cosine Similarity (কোসাইন সাদৃশ্য)
১. Euclidean Distance (ইউক্লিডিয়ান দূরত্ব)
Euclidean Distance হল সবচেয়ে সাধারণ এবং জনপ্রিয় distance metric, যা দুইটি পয়েন্টের মধ্যে সরাসরি লাইন বা সোজা পথে দূরত্ব হিসাব করে। এটি সাধারণত গাণিতিক পিথাগোরাসের থিওরেম ব্যবহার করে বের করা হয়।
সূত্র:
এখানে,
- এবং দুটি পয়েন্ট।
- হল ডেটা পয়েন্টের ফিচারের সংখ্যা।
উদাহরণ:
ধরা যাক, দুটি পয়েন্ট এবং :
২. Manhattan Distance (ম্যানহাটন দূরত্ব)
Manhattan Distance বা Taxicab Distance হল এমন একটি দূরত্ব যা দুটি পয়েন্টের মধ্যে সোজা লাইন দিয়ে নয়, বরং অনুভূমিক এবং উল্লম্বভাবে চলতে চলতে হিসাব করা হয়। এটি শহরের রাস্তা যেমন ম্যানহাটনে যেখানে রাস্তা সরল এবং কোণাকোণি থাকে, সেখানে ব্যবহৃত হয়।
সূত্র:
এখানে,
- এবং দুটি পয়েন্ট।
- হল ডেটা পয়েন্টের ফিচারের সংখ্যা।
উদাহরণ:
ধরা যাক, দুটি পয়েন্ট এবং :
৩. Minkowski Distance (মিনকোভস্কি দূরত্ব)
Minkowski Distance হল একটি সাধারণীকৃত distance metric যা Euclidean এবং Manhattan দূরত্বের একটি সাধারণ রূপ। এটি একটি প্যারামিটার দ্বারা নিয়ন্ত্রিত, যেটি নির্ধারণ করে কতটা "ভারী" ফিচারের জন্য আমরা দূরত্বের ক্যালকুলেশন করব। যদি , তবে এটি Euclidean Distance হয় এবং যদি , তবে এটি Manhattan Distance হয়।
সূত্র:
এখানে,
- এবং দুটি পয়েন্ট।
- হল Minkowski প্যারামিটার (যে কোন ইতিবাচক সংখ্যা)।
- হল ডেটা পয়েন্টের ফিচারের সংখ্যা।
উদাহরণ:
যদি , দুটি পয়েন্ট এবং :
৪. Cosine Similarity (কোসাইন সাদৃশ্য)
Cosine Similarity মূলত ভেক্টরের দিকের সাদৃশ্য পরিমাপ করে, দূরত্ব নয়। এটি সাধারণত টেক্সট ডেটা বা অন্যান্য ফিচারের মধ্যে সমান্তরালতা বা সাদৃশ্য পরিমাপের জন্য ব্যবহৃত হয়। দুটি ভেক্টরের মধ্যে কোণ পরিমাপ করে, যা তাদের সাদৃশ্যের পরিমাণ নির্ধারণ করে।
সূত্র:
এখানে,
- এবং হল দুটি ভেক্টর।
- এবং হল তাদের যথাক্রমে দৈর্ঘ্য (norm)।
Cosine similarity 1 হলে ভেক্টর দুটি পুরোপুরি সমান্তরাল এবং 0 হলে তাদের মধ্যে কোনো সাদৃশ্য নেই।
উদাহরণ:
ধরা যাক, দুটি ভেক্টর এবং :
সারাংশ
- Euclidean Distance: দুটি পয়েন্টের মধ্যে সরাসরি লাইন দিয়ে দূরত্ব মাপা হয়।
- Manhattan Distance: অনুভূমিক এবং উল্লম্ব পথে পয়েন্টের মধ্যে দূরত্ব মাপা হয়।
- Minkowski Distance: একটি সাধারণীকৃত দূরত্ব যা প্যারামিটার দ্বারা নিয়ন্ত্রিত হয় (যেখানে হলে এটি Euclidean এবং হলে এটি Manhattan হয়)।
- Cosine Similarity: দুটি ভেক্টরের মধ্যে কোণ পরিমাপ করে, তাদের সাদৃশ্য নির্ধারণ করা হয়।
KNN অ্যালগরিদমে কোন distance metric ব্যবহার করা হবে তা নির্ভর করে আপনার ডেটার ধরন এবং সমস্যার উপর।
Read more