Text Mining এবং Natural Language Processing (টেক্সট মাইনিং এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ)

আর প্রোগ্রামিং (R Programming) - Computer Programming

319

টেক্সট মাইনিং এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (Text Mining and Natural Language Processing in R)

টেক্সট মাইনিং (Text Mining) এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (Natural Language Processing - NLP) হল এমন প্রক্রিয়া যার মাধ্যমে ভাষাগত ডেটা (যেমন টেক্সট ডেটা) বিশ্লেষণ করা হয় এবং এর থেকে তথ্য বের করা হয়। R প্রোগ্রামিং ভাষায় টেক্সট মাইনিং এবং NLP-এর জন্য শক্তিশালী প্যাকেজ ও ফাংশন রয়েছে যা বিভিন্ন প্রক্রিয়ায় সহায়তা করে, যেমন টেক্সট প্রিপ্রসেসিং, শব্দ বিশ্লেষণ, সেন্টিমেন্ট বিশ্লেষণ, এবং টপিক মডেলিং।

টেক্সট মাইনিং এবং NLP-এর ধাপসমূহ

ডেটা সংগ্রহ: সোর্স থেকে টেক্সট ডেটা সংগ্রহ করা।
টেক্সট প্রিপ্রসেসিং: টেক্সট পরিশোধন ও প্রস্তুত করা, যেমন স্টপওয়ার্ড সরানো, স্টেমিং এবং লেমাটাইজেশন।
ফিচার এক্সট্রাকশন: টেক্সট থেকে ফিচার বের করা, যেমন টার্ম ফ্রিকোয়েন্সি, TF-IDF।
বিশ্লেষণ এবং মডেলিং: টেক্সট ডেটার ওপর ভিত্তি করে মডেল তৈরি করা, যেমন সেন্টিমেন্ট অ্যানালাইসিস, টপিক মডেলিং।

টেক্সট প্রিপ্রসেসিং (Text Preprocessing)

টেক্সট প্রিপ্রসেসিং হল টেক্সট ডেটাকে বিশ্লেষণের জন্য প্রস্তুত করার প্রক্রিয়া। R এ tm এবং textclean প্যাকেজ ব্যবহার করে টেক্সট প্রিপ্রসেসিং করা যায়।

উদাহরণ: টেক্সট প্রিপ্রসেসিং

# tm প্যাকেজ ইনস্টল এবং লোড
install.packages("tm")
library(tm)

# টেক্সট ডেটা তৈরি
text_data <- c("R is great for data science.", "Text mining and NLP are powerful.")

# কর্পাস তৈরি
corpus <- Corpus(VectorSource(text_data))

# টেক্সট প্রিপ্রসেসিং
corpus <- tm_map(corpus, content_transformer(tolower)) # ছোট হাতের অক্ষরে রূপান্তর
corpus <- tm_map(corpus, removePunctuation) # বিরাম চিহ্ন সরানো
corpus <- tm_map(corpus, removeNumbers) # সংখ্যা সরানো
corpus <- tm_map(corpus, removeWords, stopwords("english")) # স্টপওয়ার্ড সরানো
corpus <- tm_map(corpus, stripWhitespace) # অতিরিক্ত স্পেস সরানো
print(corpus)

শব্দ মেঘ তৈরি করা (Creating Word Cloud)

ওয়ার্ড ক্লাউড (Word Cloud) হলো টেক্সটের মধ্যে গুরুত্বপূর্ণ শব্দগুলো প্রদর্শনের জন্য গ্রাফিকাল উপস্থাপন। R এ wordcloud প্যাকেজ ব্যবহার করে সহজেই ওয়ার্ড ক্লাউড তৈরি করা যায়।

# wordcloud প্যাকেজ ইনস্টল এবং লোড
install.packages("wordcloud")
library(wordcloud)

# ওয়ার্ড ক্লাউড তৈরি
wordcloud(corpus, max.words = 50, random.order = FALSE, colors = brewer.pal(8, "Dark2"))

টার্ম-ডকুমেন্ট ম্যাট্রিক্স (Term-Document Matrix)

টার্ম-ডকুমেন্ট ম্যাট্রিক্স (TDM) একটি ম্যাট্রিক্স যেখানে প্রতিটি সারি একটি শব্দ এবং প্রতিটি কলাম একটি ডকুমেন্ট নির্দেশ করে। TDM থেকে টার্ম ফ্রিকোয়েন্সি বের করে এনএলপি বিশ্লেষণে ব্যবহার করা যায়।

# টার্ম-ডকুমেন্ট ম্যাট্রিক্স তৈরি
tdm <- TermDocumentMatrix(corpus)
tdm_matrix <- as.matrix(tdm)
print(tdm_matrix)

টিএফ-আইডিএফ (TF-IDF) স্কোর

TF-IDF (Term Frequency-Inverse Document Frequency) স্কোর হলো এমন একটি পরিমাপ যা ডেটাতে প্রতিটি শব্দের গুরুত্ব নির্দেশ করে। R এ tm প্যাকেজের মাধ্যমে এটি বের করা যায়।

# টার্ম-ডকুমেন্ট ম্যাট্রিক্স তৈরি
tdm_tfidf <- weightTfIdf(tdm)
print(as.matrix(tdm_tfidf))

সেন্টিমেন্ট বিশ্লেষণ (Sentiment Analysis)

সেন্টিমেন্ট বিশ্লেষণ টেক্সটের ভাব নির্ণয় করতে ব্যবহৃত হয়, যেমন ইতিবাচক, নেতিবাচক, বা নিরপেক্ষ। syuzhet প্যাকেজ ব্যবহার করে সহজেই সেন্টিমেন্ট বিশ্লেষণ করা যায়।

# syuzhet প্যাকেজ ইনস্টল এবং লোড
install.packages("syuzhet")
library(syuzhet)

# সেন্টিমেন্ট স্কোর
sentiment_scores <- get_nrc_sentiment(text_data)
print(sentiment_scores)

টপিক মডেলিং (Topic Modeling)

টপিক মডেলিং হলো এমন একটি কৌশল যা বড় টেক্সট ডেটাতে প্রধান টপিকগুলো বের করে। topicmodels প্যাকেজের LDA (Latent Dirichlet Allocation) ফাংশন ব্যবহার করে এটি করা যায়।

# topicmodels প্যাকেজ ইনস্টল এবং লোড
install.packages("topicmodels")
library(topicmodels)

# টপিক মডেল তৈরি
lda_model <- LDA(tdm, k = 2) # ২টি টপিক
print(lda_model)

শব্দ এমবেডিং (Word Embedding) এবং টেক্সট ভেক্টরাইজেশন

শব্দ এমবেডিং টেক্সটকে ভেক্টর আকারে রূপান্তর করে যা মেশিন লার্নিং মডেলের জন্য ব্যবহার করা যায়। R এ text2vec প্যাকেজ ব্যবহার করে শব্দ এমবেডিং তৈরি করা যায়।

# text2vec প্যাকেজ ইনস্টল এবং লোড
install.packages("text2vec")
library(text2vec)

# টোকেনাইজেশন এবং ভেক্টরাইজেশন
tokens <- word_tokenizer(text_data)
it <- itoken(tokens, progressbar = FALSE)
vocab <- create_vocabulary(it)
vectorizer <- vocab_vectorizer(vocab)
dtm <- create_dtm(it, vectorizer)
print(dtm)

সারসংক্ষেপ

R প্রোগ্রামিং ভাষায় টেক্সট মাইনিং এবং NLP-এর জন্য বিভিন্ন প্যাকেজ এবং ফাংশন রয়েছে:

টেক্সট প্রিপ্রসেসিং: tm প্যাকেজ ব্যবহার করে টেক্সট পরিশোধন করা।
ওয়ার্ড ক্লাউড: wordcloud প্যাকেজ দিয়ে গুরুত্বপূর্ণ শব্দ প্রদর্শন করা।
টার্ম-ডকুমেন্ট ম্যাট্রিক্স: tm প্যাকেজের মাধ্যমে শব্দের ম্যাট্রিক্স তৈরি করা।
TF-IDF: ডেটাতে শব্দের গুরুত্ব নির্ধারণ করা।
সেন্টিমেন্ট বিশ্লেষণ: syuzhet প্যাকেজ ব্যবহার করে টেক্সটের ভাব নির্ধারণ করা।
টপিক মডেলিং: topicmodels প্যাকেজের মাধ্যমে টেক্সটের মূল টপিক বের করা।

এই টেকনিকগুলো ব্যবহার করে R এ সহজেই টেক্সট মাইনিং এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ করা যায়, যা ডেটা বিশ্লেষণ, ব্যবসায়িক সিদ্ধান্ত গ্রহণ, এবং গবেষণায় গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By

Azizar Rahman Aziz

Text Mining এর ধারণা এবং প্রয়োজনীয়তা

284

Text Mining এর ধারণা এবং প্রয়োজনীয়তা

Text Mining হল প্রাকৃতিক ভাষার টেক্সট থেকে তথ্য নিষ্কাশনের প্রক্রিয়া, যা সাধারণত অপ্রকৃত বা অগঠনমূলক ডেটাকে বিশ্লেষণ এবং অর্থবহ ডেটা তৈরিতে সহায়তা করে। টেক্সট মাইনিং-এর মাধ্যমে অগণিত টেক্সট ডেটা থেকে গুরুত্বপূর্ণ তথ্য, প্যাটার্ন, প্রবণতা এবং সম্পর্ক খুঁজে বের করা সম্ভব। টেক্সট মাইনিং প্রক্রিয়ার অন্তর্ভুক্ত থাকে টোকেনাইজেশন, স্টপ ওয়ার্ড রিমুভাল, স্টেমিং, লেমেটাইজেশন, এবং আরও অনেক প্রসেসিং পদ্ধতি।

Text Mining এর প্রয়োজনীয়তা

Text Mining-এর প্রয়োজনীয়তা দিন দিন বৃদ্ধি পাচ্ছে কারণ বিভিন্ন ক্ষেত্রেই অপ্রকৃত ডেটা ব্যবহৃত হচ্ছে এবং এর মাধ্যমে কার্যকর তথ্য পাওয়ার সুযোগ তৈরি হয়েছে। এখানে Text Mining এর কিছু প্রয়োজনীয়তা আলোচনা করা হলো:

বিপুল টেক্সট ডেটা থেকে মূল্যবান তথ্য বের করা: Text Mining-এর মাধ্যমে ইন্টারনেট, সামাজিক মাধ্যম, রিভিউ, ইমেইল ইত্যাদির বিশাল টেক্সট ডেটা থেকে মূল্যবান তথ্য বের করা যায় যা সাধারণ পদ্ধতিতে সম্ভব নয়।
বাণিজ্যিক সিদ্ধান্ত গ্রহণে সহায়তা: Text Mining বিশ্লেষণের মাধ্যমে কাস্টমার রিভিউ, প্রোডাক্ট ফিডব্যাক এবং সামাজিক মিডিয়ার তথ্য থেকে ব্যবসার জন্য গুরুত্বপূর্ণ তথ্য খুঁজে বের করা সম্ভব, যা সঠিক সিদ্ধান্ত গ্রহণে সহায়তা করে।
সংবেদনশীল বিশ্লেষণ (Sentiment Analysis): Text Mining-এর মাধ্যমে কাস্টমারদের অনুভূতি বা মতামত বিশ্লেষণ করা যায়। এটি প্রোডাক্টের বাজারে সাফল্যের উপর গভীর প্রভাব ফেলতে পারে এবং কাস্টমারদের সন্তুষ্টি বৃদ্ধির জন্য কার্যকরী পরিকল্পনা তৈরি করা যায়।
ভাষাগত প্যাটার্ন ও শব্দের সম্পর্ক সনাক্ত করা: Text Mining ভাষাগত প্যাটার্ন এবং শব্দের পারস্পরিক সম্পর্ক বুঝতে সাহায্য করে, যা গবেষণা, শিক্ষা এবং যোগাযোগ ক্ষেত্রের জন্য অত্যন্ত গুরুত্বপূর্ণ।
স্প্যাম ফিল্টারিং: ইমেইল বা সোশ্যাল মিডিয়া প্ল্যাটফর্মে স্প্যাম ফিল্টারিং করতে Text Mining গুরুত্বপূর্ণ ভূমিকা পালন করে। এটি টেক্সট ডেটা বিশ্লেষণ করে স্প্যাম ইমেইল বা অপ্রয়োজনীয় পোস্ট সনাক্ত করে।
স্বাস্থ্যসেবা ও চিকিৎসা ক্ষেত্রে তথ্য নিষ্কাশন: চিকিৎসা গবেষণায় প্রচুর ডেটা থাকে যা বিশ্লেষণ করে রোগের কারণ ও লক্ষণ সম্পর্কে নতুন তথ্য পাওয়া যায়, যা রোগের নির্ণয়ে এবং চিকিৎসায় সহায়ক হয়।
প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (Natural Language Processing - NLP): NLP এর বিভিন্ন টুল যেমন শব্দার্থ (semantics) বিশ্লেষণ, ভাষার অংশ নির্ধারণ ইত্যাদির জন্য Text Mining এর প্রয়োগ প্রয়োজনীয়।

Text Mining এর প্রক্রিয়া

Text Mining-এর বিভিন্ন পর্যায় রয়েছে, যা ডেটা প্রস্তুতি এবং বিশ্লেষণের জন্য অত্যন্ত গুরুত্বপূর্ণ। এখানে কিছু গুরুত্বপূর্ণ ধাপ উল্লেখ করা হলো:

Tokenization (টোকেনাইজেশন): টোকেনাইজেশন হল টেক্সটকে ছোট ছোট অংশে বা শব্দে বিভক্ত করার প্রক্রিয়া। এটি একটি গুরুত্বপূর্ণ ধাপ, যা ডেটা বিশ্লেষণের জন্য মূল ভিত্তি তৈরি করে।
Stop Words Removal (স্টপ ওয়ার্ড সরানো): কিছু সাধারণ শব্দ যেমন "a", "an", "the" ইত্যাদি, যেগুলি টেক্সট বিশ্লেষণে খুব বেশি অর্থপূর্ণ নয়, সেগুলি ডেটা থেকে বাদ দেওয়া হয়।
Stemming এবং Lemmatization: স্টেমিং এবং লেমাটাইজেশন হল টোকেনগুলিকে তাদের মূল বা ভিত্তি শব্দে রূপান্তর করা। উদাহরণস্বরূপ, "running", "runner" এবং "ran" শব্দগুলির মূল শব্দ হতে পারে "run"।
Term Frequency and Inverse Document Frequency (TF-IDF): TF-IDF হল একটি পরিমাপ, যা টার্ম বা শব্দগুলির গুরুত্ব নির্ধারণ করে। এটি টেক্সট মাইনিং এবং তথ্য পুনরুদ্ধারের ক্ষেত্রে অত্যন্ত কার্যকর।
Sentiment Analysis: এটি টেক্সট ডেটার অনুভূতি বা মনোভাব বিশ্লেষণ করে, যা সাধারণত পজিটিভ, নেগেটিভ বা নিরপেক্ষ হিসেবে শ্রেণীবদ্ধ করা হয়।
Named Entity Recognition (NER): NER টেক্সট ডেটা থেকে নাম, স্থান, তারিখ ইত্যাদি সনাক্ত করে। এটি তথ্য সংগ্রহ এবং সঠিক প্রেক্ষাপট বোঝার জন্য ব্যবহৃত হয়।
Clustering এবং Classification: টেক্সট ডেটাকে বিভিন্ন শ্রেণী বা গোষ্ঠীতে বিভক্ত করা হয়, যেমন খবরের বিষয়, কাস্টমার রিভিউ ইত্যাদি।

R এ Text Mining উদাহরণ

R এ টেক্সট মাইনিং-এর জন্য সাধারণত tm এবং SnowballC প্যাকেজ ব্যবহার করা হয়। এই প্যাকেজগুলি টেক্সট ডেটা প্রসেসিং, স্টপ ওয়ার্ড রিমুভাল, স্টেমিং এবং অন্যান্য প্রক্রিয়াগুলিতে সহায়তা করে।

# টেক্সট মাইনিংয়ের জন্য প্যাকেজ ইন্সটল এবং লোড করা
install.packages("tm")
install.packages("SnowballC")
library(tm)
library(SnowballC)

# উদাহরণ টেক্সট ডেটা তৈরি করা
text_data <- c("R is a great tool for text mining.",
               "Text mining is used in various applications.",
               "R programming is versatile.")

# কর্পাস তৈরি করা
corpus <- Corpus(VectorSource(text_data))

# টোকেনাইজেশন এবং স্টপ ওয়ার্ড সরানো
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeWords, stopwords("english"))

# স্টেমিং করা
corpus <- tm_map(corpus, stemDocument)

# প্রক্রিয়াকৃত টেক্সট প্রিন্ট করা
inspect(corpus)

Text Mining এর উপকারিতা

ডেটা বিশ্লেষণের কার্যকারিতা বৃদ্ধি: Text Mining এর মাধ্যমে ডেটার মধ্যে লুকানো তথ্য খুঁজে বের করা যায়, যা এনালাইসিসের কার্যকারিতা বাড়ায়।
বিজ্ঞান এবং গবেষণায় সহায়তা: বিজ্ঞান এবং গবেষণায় টেক্সট মাইনিং তথ্য সংগ্রহ এবং নতুন তথ্য খুঁজে বের করতে সাহায্য করে।
বাণিজ্যিক প্রয়োগে সহায়ক: Text Mining কাস্টমার রিভিউ, ফিডব্যাক ইত্যাদির মাধ্যমে ব্যবসায়িক সিদ্ধান্ত গ্রহণে সহায়তা করে।
স্বয়ংক্রিয় প্যাটার্ন সনাক্তকরণ: এটি টেক্সট ডেটা থেকে স্বয়ংক্রিয়ভাবে প্যাটার্ন সনাক্ত করতে সহায়তা করে।

সারসংক্ষেপ

Text Mining: এটি একটি প্রক্রিয়া যা টেক্সট ডেটা থেকে তথ্য নিষ্কাশন করে এবং নতুন জ্ঞান তৈরি করতে সাহায্য করে।
প্রয়োজনীয়তা: Text Mining অপ্রকৃত ডেটা থেকে মূল্যবান তথ্য বের করা, সিদ্ধান্ত গ্রহণে সহায়তা, এবং ভাষাগত সম্পর্ক সনাক্তে সহায়ক।
প্রক্রিয়া: Text Mining-এর ধাপগুলির মধ্যে টোকেনাইজেশন, স্টপ ওয়ার্ড সরানো, স্টেমিং, লেমাটাইজেশন, এবং ক্লাস্টারিং অন্তর্ভুক্ত।
R এ Text Mining: R-এর tm এবং SnowballC প্যাকেজ দিয়ে টেক্সট মাইনিং কার্যক্রম সম্পাদন করা যায়।

Text Mining একটি অত্যন্ত কার্যকরী প্রযুক্তি যা বিভিন্ন ক্ষেত্রের জন্য গুরুত্বপূর্ণ তথ্য নিষ্কাশন এবং সিদ্ধান্ত গ্রহণে সহায়তা করে।

Content added By

Azizar Rahman Aziz

Tokenization এবং Text Cleaning Techniques

357

Tokenization এবং Text Cleaning Techniques in R

Tokenization এবং Text Cleaning হল প্রাক-প্রসেসিং এর গুরুত্বপূর্ণ অংশ, যা Natural Language Processing (NLP) বা Text Mining এর জন্য অত্যন্ত গুরুত্বপূর্ণ। এই ধাপগুলো ডেটাকে বিশ্লেষণযোগ্য এবং প্রক্রিয়া করার জন্য প্রস্তুত করে।

1. Tokenization:

Tokenization হল প্রক্রিয়া যার মাধ্যমে একটি টেক্সট ডকুমেন্টকে ছোট ছোট অংশে (tokens) বিভক্ত করা হয়। সাধারণত টোকেন গুলি শব্দ (words), বাক্য (sentences), অথবা আরও ছোট উপাদান (characters) হতে পারে।

Types of Tokenization:

Word Tokenization: একটি টেক্সটকে শব্দগুলোতে বিভক্ত করা।
Sentence Tokenization: একটি টেক্সটকে বাক্যে বিভক্ত করা।
Character Tokenization: একটি টেক্সটকে অক্ষরের মধ্যে বিভক্ত করা।

Tokenization Example in R:

Using tidytext and tm package:

# প্রয়োজনীয় প্যাকেজ ইনস্টল এবং লোড করা
install.packages("tidytext")
install.packages("dplyr")
library(tidytext)
library(dplyr)

# টেক্সট ডেটা
text_data <- data.frame(text = c("Hello, how are you?", "This is an example sentence!"))

# শব্দ অনুযায়ী টোকেনাইজেশন
word_tokens <- text_data %>%
  unnest_tokens(word, text)

print(word_tokens)

এখানে, unnest_tokens() ফাংশনটি ব্যবহার করা হয়েছে, যা টেক্সটকে শব্দের মধ্যে বিভক্ত করে। প্রতিটি শব্দ একটি পৃথক রো হিসেবে বের হবে।

Using `stringr` package for sentence tokenization:

# stringr প্যাকেজ লোড করা
install.packages("stringr")
library(stringr)

# টেক্সট ডেটা
text_data <- "Hello world. How are you today? This is a test sentence."

# বাক্যে টোকেনাইজেশন
sentences <- str_split(text_data, pattern = "\\.", simplify = TRUE)
print(sentences)

এখানে, str_split() ফাংশনটি পিরিয়ড (".") চিহ্ন দিয়ে টেক্সটকে বাক্যগুলোতে বিভক্ত করেছে।

2. Text Cleaning Techniques:

Text cleaning হল সেই প্রক্রিয়া যা প্রাক-প্রসেসিং স্টেপের অংশ হিসেবে অপ্রয়োজনীয় বা অতিরিক্ত উপাদানগুলি (যেমন স্টপওয়ার্ড, পাংশ, বিশেষ চিহ্ন) সরিয়ে ফেলতে ব্যবহৃত হয়। এটি মডেলিংয়ের জন্য টেক্সট ডেটাকে প্রস্তুত করে। টেক্সট ক্লিনিং এর মধ্যে কিছু সাধারণ ধাপ রয়েছে:

Lowercasing: সমস্ত টেক্সটকে ছোট অক্ষরে রূপান্তর করা যাতে বড়/ছোট অক্ষরের পার্থক্য না থাকে।
Removing Punctuation: যেসব বিশেষ চিহ্ন বা পাংশ টেক্সটের জন্য গুরুত্বপূর্ণ নয়, তা সরিয়ে ফেলা।
Removing Stopwords: সাধারণ শব্দ যেগুলি তথ্য বহন করে না, যেমন "the", "is", "at", "an" ইত্যাদি সরিয়ে ফেলা।
Removing Numbers: যদি ডেটায় সংখ্যা থাকে যা প্রাসঙ্গিক না হয় তবে তা সরিয়ে ফেলা।
Stemming: শব্দের মূল রূপে রূপান্তর করা (যেমন, "running" কে "run" এ রূপান্তর করা)।
Lemmatization: শব্দকে এর আসল রূপে পরিবর্তন করা (যেমন, "better" কে "good" এ রূপান্তর করা)।

Text Cleaning Example in R:

# প্রয়োজনীয় প্যাকেজ ইনস্টল করা
install.packages("tm")
library(tm)

# টেক্সট ডেটা
text_data <- c("Hello, this is an Example! 123", "Text cleaning is fun!!")

# টেক্সট ক্লিনিং: Lowercasing, Remove punctuation, Remove numbers, Remove stopwords
cleaned_text <- tolower(text_data)  # Lowercase
cleaned_text <- removePunctuation(cleaned_text)  # Remove punctuation
cleaned_text <- removeNumbers(cleaned_text)  # Remove numbers
cleaned_text <- removeWords(cleaned_text, stopwords("en"))  # Remove stopwords

# Cleaned Text দেখানো
print(cleaned_text)

এখানে:

tolower() ব্যবহার করে সমস্ত টেক্সটকে ছোট অক্ষরে রূপান্তরিত করা হয়েছে।
removePunctuation() ব্যবহার করে বিশেষ চিহ্ন (punctuation) সরানো হয়েছে।
removeNumbers() ব্যবহার করে সংখ্যা সরানো হয়েছে।
removeWords() ব্যবহার করে স্টপওয়ার্ডস সরানো হয়েছে।

Stemming Example:

# SnowballC প্যাকেজ ব্যবহার করে Stemming
install.packages("SnowballC")
library(SnowballC)

# Stemming Example
text <- c("running", "runner", "runs", "easily")
stemmed_text <- wordStem(text)
print(stemmed_text)

এখানে, "running", "runner", এবং "runs" শব্দগুলির সমস্ত রূপকে মূল রূপে "run" এ রূপান্তর করা হয়েছে।

Lemmatization Example:

# textstem প্যাকেজ ব্যবহার করে Lemmatization
install.packages("textstem")
library(textstem)

# Lemmatization Example
text <- c("better", "running")
lemmatized_text <- lemmatize_words(text)
print(lemmatized_text)

এখানে, "better" শব্দটিকে "good" এবং "running" শব্দটিকে "run" এ রূপান্তর করা হয়েছে।

3. Putting It All Together: Tokenization and Cleaning

টোকেনাইজেশন এবং টেক্সট ক্লিনিং একত্রে ব্যবহার করে আপনি আরও পরিষ্কার এবং সুসংগঠিত ডেটা তৈরি করতে পারেন যা মডেল ট্রেনিং এবং বিশ্লেষণে সহায়ক হবে।

Full Example: Tokenization and Cleaning

# প্যাকেজ লোড করা
library(tm)
library(tidytext)

# টেক্সট ডেটা
text_data <- c("This is an example!! Text processing is fun. 123")

# টেক্সট ক্লিনিং: Lowercase, Remove punctuation, Remove stopwords
cleaned_text <- tolower(text_data)  # Lowercasing
cleaned_text <- removePunctuation(cleaned_text)  # Remove punctuation
cleaned_text <- removeNumbers(cleaned_text)  # Remove numbers
cleaned_text <- removeWords(cleaned_text, stopwords("en"))  # Remove stopwords

# টোকেনাইজেশন
tokens <- unnest_tokens(tidytext::as_tibble(data.frame(text = cleaned_text)), word, text)

# ফলাফল দেখানো
print(tokens)

এখানে, ডেটা ক্লিনিংয়ের পরে টোকেনাইজেশন করা হয়েছে যাতে শব্দগুলোর মধ্যে বিভাজন করা যায়।

Summary

Tokenization: একটি টেক্সটকে ছোট ছোট টুকরো (tokens) এ বিভক্ত করার প্রক্রিয়া, যেমন শব্দ বা বাক্য।
Text Cleaning: টেক্সট ডেটা থেকে অপ্রয়োজনীয় উপাদান সরানোর প্রক্রিয়া, যেমন লোয়ারকেসিং, পাঞ্চুয়েশন সরানো, স্টপওয়ার্ডস সরানো, স্টেমিং, এবং লেমাটাইজেশন।
R এ টেক্সট ক্লিনিং এবং টোকেনাইজেশন করার জন্য tm, tidytext, stringr, SnowballC, এবং textstem এর মতো প্যাকেজ ব্যবহার করা হয়।

এভাবে, টোকেনাইজেশন এবং টেক্সট ক্লিনিং মডেল তৈরি এবং প্রক্রিয়া করার জন্য ডেটাকে প্রস্তুত করতে গুরুত্বপূর্ণ ভূমিকা পালন করে।

Content added By

Azizar Rahman Aziz

Sentiment Analysis এবং Topic Modeling

283

R-এ Sentiment Analysis এবং Topic Modeling

Sentiment Analysis এবং Topic Modeling দুটি অত্যন্ত গুরুত্বপূর্ণ টেকনিক যা টেক্সট ডেটার মধ্যে সংবেদনশীলতা ও বিষয় শনাক্ত করতে ব্যবহৃত হয়। এই দুটি পদ্ধতি ডেটা সায়েন্স, মার্কেট রিসার্চ, এবং সোশ্যাল মিডিয়া এনালাইসিসে ব্যাপকভাবে ব্যবহৃত হয়। R-এ এগুলো বিশ্লেষণ করতে বিভিন্ন প্যাকেজ ও টেকনিক ব্যবহার করা যায়।

১. Sentiment Analysis (সংবেদনশীলতা বিশ্লেষণ)

Sentiment Analysis বা Opinion Mining হল একটি প্রক্রিয়া যার মাধ্যমে টেক্সট ডেটা থেকে অনুভূতি বা মনোভাব চিহ্নিত করা হয়। এটি সাধারণত কোনো টেক্সটের পজিটিভ, নেগেটিভ বা নিউট্রাল অনুভূতি বা মান নির্ধারণ করতে ব্যবহৃত হয়। এটি সোশ্যাল মিডিয়া, কাস্টমার রিভিউ, বা অন্য যেকোনো ধরনের টেক্সট ডেটার মধ্যে বিশ্লেষণ করতে সহায়তা করে।

Sentiment Analysis এর মূল পদ্ধতি:

Lexicon-based methods: এটি একটি ডিকশনারি বা শব্দভাণ্ডার ব্যবহার করে, যেখানে প্রতিটি শব্দের জন্য অনুভূতির মান (পজিটিভ বা নেগেটিভ) নির্ধারণ করা হয়।
Machine learning-based methods: এটি মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে, যেখানে ট্রেনিং ডেটার মাধ্যমে মডেল তৈরি করা হয়।

উদাহরণ: Sentiment Analysis using `syuzhet` package

# syuzhet প্যাকেজ ইনস্টল এবং লোড করা
install.packages("syuzhet")
library(syuzhet)

# টেক্সট ডেটা তৈরি
text <- c("I love this product! It's amazing.",
          "This is the worst experience ever.",
          "I'm feeling neutral about this.")

# Sentiment analysis
sentiment_scores <- get_nrc_sentiment(text)

# ফলাফল দেখানো
print(sentiment_scores)

ব্যাখ্যা:

এখানে syuzhet প্যাকেজটি NRC Lexicon ব্যবহার করে প্রতিটি টেক্সটের মধ্যে থাকা অনুভূতি বিশ্লেষণ করেছে।
get_nrc_sentiment() ফাংশনটি পজিটিভ, নেগেটিভ, এবং অন্যান্য অনুভূতি শনাক্ত করতে সাহায্য করে।

আউটপুট:

         anger anticipation disgust fear joy sadness surprise trust
[1,]      0           0       0    0   1      0         0     0
[2,]      1           0       0    1   0      1         0     0
[3,]      0           0       0    0   0      0         0     0

এখানে, positive অনুভূতিটি 1 এবং negative অনুভূতিটি 0 (যেমন "I love this product!") শনাক্ত করা হয়েছে।

২. Topic Modeling (বিষয় মডেলিং)

Topic Modeling হল একটি টেক্সট অ্যানালাইসিস টেকনিক, যা ডেটাসেটে লুকানো থিম বা বিষয়গুলো চিহ্নিত করতে ব্যবহৃত হয়। এটি মূলত Unsupervised learning পদ্ধতিতে কাজ করে, যেখানে টেক্সট ডেটা থেকে বিভিন্ন টপিক বা বিষয় খুঁজে বের করা হয়।

Topic Modeling এর মধ্যে সবচেয়ে জনপ্রিয় দুটি পদ্ধতি হল:

Latent Dirichlet Allocation (LDA): LDA একটি প্রোবাবিলিস্টিক মডেল যা প্রতিটি ডকুমেন্টকে একাধিক টপিকের মিশ্রণ হিসেবে দেখার চেষ্টা করে।
Non-Negative Matrix Factorization (NMF): এটি একটি ম্যাট্রিক্স ফ্যাক্টরাইজেশন পদ্ধতি, যা ডেটাকে ফ্যাক্টরে বিভক্ত করে এবং প্রতিটি টপিকের জন্য শব্দগুলি গাণিতিকভাবে সন্নিবেশিত করে।

উদাহরণ: Topic Modeling using `topicmodels` package (LDA)

# topicmodels প্যাকেজ ইনস্টল এবং লোড করা
install.packages("topicmodels")
library(topicmodels)

# ডেটা প্রস্তুতি (text data)
texts <- c("I love programming with R.",
           "R is great for data analysis.",
           "Machine learning is the future of AI.",
           "Python is also great for data science.")

# Corpus তৈরী
library(tm)
corpus <- Corpus(VectorSource(texts))
corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeWords, stopwords("en"))

# Document-term matrix তৈরী
dtm <- DocumentTermMatrix(corpus)

# LDA মডেল তৈরী
lda_model <- LDA(dtm, k = 2)  # 2 টপিকের জন্য

# টপিকের শব্দ দেখানো
terms(lda_model, 5)

ব্যাখ্যা:

প্রথমে tm প্যাকেজ ব্যবহার করে টেক্সট ডেটাকে প্রস্তুত করা হয়েছে, যেমন ছোট হাতের অক্ষরে রূপান্তর করা, পাঙ্কচুয়েশন সরানো এবং স্টপওয়ার্ডগুলো মুছে ফেলা হয়েছে।
তারপর DocumentTermMatrix তৈরি করা হয়েছে, যা ডকুমেন্ট এবং শব্দের ম্যাট্রিক্স তৈরি করে।
LDA() ফাংশনটি LDA মডেল তৈরি করে এবং k = 2 দ্বারা ২টি টপিক নির্ধারণ করা হয়েছে।
terms() ফাংশনটি টপিকগুলোর শীর্ষ শব্দগুলো দেখায়।

আউটপুট:

Topic 1:
[1] "data" "science" "machine" "learning" "great"

Topic 2:
[1] "programming" "R" "love" "analysis" "AI"

এখানে, Topic 1 এবং Topic 2 হল দুটি আলাদা টপিক, এবং তাদের মধ্যে গুরুত্বপূর্ণ শব্দগুলো প্রদর্শিত হয়েছে।

৩. Comparison of Sentiment Analysis and Topic Modeling

বৈশিষ্ট্য	Sentiment Analysis	Topic Modeling
উদ্দেশ্য	টেক্সট ডেটার অনুভূতি বা মনোভাব চিহ্নিত করা।	টেক্সট ডেটার লুকানো টপিক বা বিষয় বের করা।
ডেটার ধরন	সাধারণত রিভিউ, টুইট, বা ইমেইল এর মত টেক্সট ডেটা	কনটেন্ট বা লম্বা টেক্সট ডেটা যেমন নিউজ আর্টিকেল, ব্লগ
মূল প্রযুক্তি	Lexicon-based, Machine Learning-based	LDA (Latent Dirichlet Allocation), NMF
ফলাফল	পজিটিভ, নেগেটিভ, অথবা নিউট্রাল সেন্টিমেন্ট	প্রতিটি ডকুমেন্টের জন্য প্রধান টপিক বা বিষয়
ব্যবহার	কাস্টমার ফিডব্যাক, সোশ্যাল মিডিয়া মনিটরিং, রিভিউ অ্যানালাইসিস	নিউজ ক্যাটেগোরাইজেশন, গবেষণা পেপার, ব্লগ, কাস্টমার রিভিউ

সারসংক্ষেপ

Sentiment Analysis: টেক্সট ডেটার অনুভূতি (পজিটিভ, নেগেটিভ, নিউট্রাল) বের করে, যা সোশ্যাল মিডিয়া মনিটরিং বা কাস্টমার রিভিউ বিশ্লেষণে ব্যবহৃত হয়।
Topic Modeling: ডেটাতে লুকানো বিষয় বা টপিক চিহ্নিত করে, যা বড় ডেটাসেটের মধ্যে লুকানো প্যাটার্ন এবং বিষয় বের করতে সহায়তা করে।

R-এ এই টেকনিকগুলি ব্যবহার করে আপনি বিভিন্ন টেক্সট ডেটার মধ্যে মুল্যবান তথ্য খুঁজে বের করতে পারেন, যা আপনার ব্যবসায়িক বা গবেষণামূলক প্রয়োজনে সহায়ক হতে পারে।

Content added By

Azizar Rahman Aziz

Wordclouds এবং Text Data Visualization

298

R প্রোগ্রামিং: Wordclouds এবং Text Data Visualization

Wordclouds এবং Text Data Visualization হল টেক্সট ডেটা বিশ্লেষণ এবং প্রেজেন্টেশনের জন্য শক্তিশালী ভিজ্যুয়াল টুলস। এগুলি মূলত শব্দের ফ্রিকোয়েন্সি, সম্পর্ক এবং কন্টেন্টের গঠন বুঝতে সহায়ক। R-এ wordcloud তৈরি করতে এবং অন্যান্য text data visualization করতে কয়েকটি প্যাকেজ এবং টেকনিক রয়েছে, যার মধ্যে wordcloud, tm, ggplot2, tidytext, এবং textdata প্যাকেজগুলি বেশ জনপ্রিয়।

এখানে, Wordcloud তৈরি এবং Text Data Visualization করার জন্য R-এ কিছু উদাহরণ দেওয়া হয়েছে।

১. Wordclouds (ওয়ার্ড ক্লাউড)

Wordcloud হল একটি জনপ্রিয় টুল, যা টেক্সট ডেটাতে বিভিন্ন শব্দের ফ্রিকোয়েন্সি দেখানোর জন্য ব্যবহৃত হয়। শব্দগুলোকে তাদের ফ্রিকোয়েন্সি অনুযায়ী সাইজ এবং রঙে প্রদর্শন করা হয়। বেশি ব্যবহৃত শব্দগুলির আকার বড় এবং কম ব্যবহৃত শব্দগুলির আকার ছোট হয়।

১.১ wordcloud প্যাকেজ ইনস্টল এবং লোড করা

install.packages("wordcloud")
library(wordcloud)

১.২ Wordcloud তৈরি করা

ধরা যাক, আমাদের কাছে একটি টেক্সট ডেটা রয়েছে এবং আমরা তার উপর একটি ওয়ার্ড ক্লাউড তৈরি করতে চাই।

# ডেটা তৈরি
text <- c("R is great for data analysis", 
          "Data science is exciting", 
          "I love using R for data visualization", 
          "Data analysis with R is powerful", 
          "Text mining and wordcloud are fun")

# টেক্সট থেকে শব্দের ফ্রিকোয়েন্সি বের করা
library(tm)
text_corpus <- Corpus(VectorSource(text))
text_corpus <- tm_map(text_corpus, content_transformer(tolower))
text_corpus <- tm_map(text_corpus, removePunctuation)
text_corpus <- tm_map(text_corpus, removeNumbers)
text_corpus <- tm_map(text_corpus, removeWords, stopwords("en"))
text_corpus <- tm_map(text_corpus, stripWhitespace)

# ডেটা থেকে শব্দের ফ্রিকোয়েন্সি তৈরি
tdm <- TermDocumentMatrix(text_corpus)
matrix <- as.matrix(tdm)
word_freqs <- sort(rowSums(matrix), decreasing = TRUE)
word_freq_table <- data.frame(word = names(word_freqs), freq = word_freqs)

# Wordcloud তৈরি
wordcloud(words = word_freq_table$word, freq = word_freq_table$freq, min.freq = 1, scale = c(3,0.5), colors = brewer.pal(8, "Dark2"))

এখানে, wordcloud() ফাংশনটি শব্দ এবং তাদের ফ্রিকোয়েন্সি দিয়ে একটি Wordcloud তৈরি করেছে।

২. Text Data Visualization (টেক্সট ডেটা ভিজ্যুয়ালাইজেশন)

টেক্সট ডেটা বিশ্লেষণের জন্য ggplot2, tidytext, এবং textdata প্যাকেজ ব্যবহার করে বিভিন্ন ধরনের ভিজ্যুয়ালাইজেশন তৈরি করা যায়। এই ভিজ্যুয়ালাইজেশনগুলি শব্দের ফ্রিকোয়েন্সি, শব্দের সম্পর্ক এবং অন্যান্য প্যাটার্ন বুঝতে সাহায্য করে।

২.১ ggplot2 ব্যবহার করে Text Data Visualization

ggplot2 প্যাকেজ ব্যবহার করে আপনি শব্দের ফ্রিকোয়েন্সি বা অন্যান্য টেক্সট ডেটা ভিজ্যুয়ালাইজ করতে পারেন। এখানে একটি bar plot দেখানো হয়েছে যা টেক্সট ডেটার ফ্রিকোয়েন্সি গ্রাফ করে।

library(ggplot2)

# বার প্লট তৈরি করা
ggplot(word_freq_table, aes(x = reorder(word, -freq), y = freq)) +
  geom_bar(stat = "identity", fill = "skyblue") +
  labs(title = "Word Frequency", x = "Words", y = "Frequency") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

এখানে, reorder() ফাংশন ব্যবহার করে শব্দগুলিকে তাদের ফ্রিকোয়েন্সির ভিত্তিতে সাজানো হয়েছে এবং geom_bar() দ্বারা বার প্লট তৈরি করা হয়েছে।

২.২ Tidytext প্যাকেজ ব্যবহার করে Text Data Analysis

tidytext প্যাকেজে টেক্সট ডেটার বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশন করতে সহজ এবং কার্যকরী টুলস রয়েছে।

# tidytext প্যাকেজ ইনস্টল এবং লোড করা
install.packages("tidytext")
library(tidytext)

# টেক্সট ডেটা বিশ্লেষণ
text_data <- data.frame(line = 1:5, text = c("R is great for data analysis", 
                                              "Data science is exciting", 
                                              "I love using R for data visualization", 
                                              "Data analysis with R is powerful", 
                                              "Text mining and wordcloud are fun"))

# tidytext ব্যবহারে টেক্সট ডেটা তৈরি
text_tidy <- text_data %>%
  unnest_tokens(word, text) %>%
  anti_join(stop_words)

# শব্দের ফ্রিকোয়েন্সি বের করা
word_freq_tidy <- text_tidy %>%
  count(word, sort = TRUE)

# ফ্রিকোয়েন্সি প্লট তৈরি
ggplot(word_freq_tidy, aes(x = reorder(word, -n), y = n)) +
  geom_bar(stat = "identity", fill = "coral") +
  labs(title = "Top Words Frequency", x = "Words", y = "Frequency") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

এখানে unnest_tokens() ফাংশন দ্বারা টেক্সট ডেটাকে tidy format-এ রূপান্তরিত করা হয়েছে এবং anti_join(stop_words) দ্বারা স্টপওয়ার্ড (যেমন "the", "is", "and") বাদ দেওয়া হয়েছে। এরপর, ggplot2 ব্যবহার করে ফ্রিকোয়েন্সি প্লট তৈরি করা হয়েছে।

২.৩ Word Associations (শব্দের সম্পর্ক)

শব্দের মধ্যে সম্পর্ক বুঝতে co-occurrence matrix ব্যবহার করা যেতে পারে। এটি দেখে, আমরা দেখতে পারব কোন শব্দ একে অপরের সাথে কতটা ঘনিষ্ঠভাবে উপস্থিত।

library(tidytext)
library(igraph)

# শব্দের কো-অকরেন্স ম্যাট্রিক্স তৈরি
word_pairs <- text_tidy %>%
  pairwise_count(word, line, sort = TRUE)

# Network visualization (শব্দের সম্পর্ক)
word_graph <- graph_from_data_frame(word_pairs)

# Network গ্রাফ তৈরি
plot(word_graph, vertex.size = 10, vertex.label.cex = 0.8, vertex.label.dist = 1)

এখানে, pairwise_count() ফাংশন দ্বারা শব্দগুলির সম্পর্ক বা কো-অকরেন্স বের করা হয়েছে এবং igraph প্যাকেজের মাধ্যমে একটি network graph তৈরি করা হয়েছে।

সারসংক্ষেপ

Wordcloud: শব্দের ফ্রিকোয়েন্সি দেখানোর জন্য একটি জনপ্রিয় ভিজ্যুয়ালাইজেশন টুল। এটি wordcloud() ফাংশন দিয়ে তৈরি করা হয়।
ggplot2: টেক্সট ডেটার ফ্রিকোয়েন্সি বা অন্যান্য প্যাটার্নের গ্রাফিক্যাল উপস্থাপন করতে ব্যবহৃত হয়। geom_bar() বা geom_line() এর মাধ্যমে ডেটা ভিজ্যুয়ালাইজ করা যায়।
tidytext: টেক্সট ডেটার বিশ্লেষণ এবং ফ্রিকোয়েন্সি বিশ্লেষণের জন্য একটি শক্তিশালী প্যাকেজ। unnest_tokens() এবং anti_join() এর মাধ্যমে টেক্সট ডেটাকে প্রস্তুত করা হয় এবং এরপর ggplot2 দিয়ে ভিজ্যুয়ালাইজ করা যায়।
Word Associations: শব্দের মধ্যে সম্পর্ক বিশ্লেষণ করতে co-occurrence matrix এবং igraph ব্যবহার করা হয়।

এই পদ্ধতিগুলির মাধ্যমে আপনি টেক্সট ডেটা বিশ্লেষণ এবং ভিজ্যুয়ালাইজেশনের ক্ষেত্রে আরও কার্যকরী ফলাফল পেতে পারেন।

Content added By

Azizar Rahman Aziz

R এর ভূমিকা (Introduction to R) R এর বেসিক সিনট্যাক্স (Basic Syntax of R) Vectors, Lists, এবং Matrices (ভেক্টরস, লিস্টস, এবং ম্যাট্রিক্সেস) Factors এবং Data Frames (ফ্যাক্টরস এবং ডেটা ফ্রেমস) Control Flow Statements (নিয়ন্ত্রণ প্রবাহ স্টেটমেন্টস)

Text Mining এবং Natural Language Processing (টেক্সট মাইনিং এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ)

টেক্সট মাইনিং এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (Text Mining and Natural Language Processing in R)

টেক্সট মাইনিং এবং NLP-এর ধাপসমূহ

টেক্সট প্রিপ্রসেসিং (Text Preprocessing)

উদাহরণ: টেক্সট প্রিপ্রসেসিং

শব্দ মেঘ তৈরি করা (Creating Word Cloud)

টার্ম-ডকুমেন্ট ম্যাট্রিক্স (Term-Document Matrix)

টিএফ-আইডিএফ (TF-IDF) স্কোর

সেন্টিমেন্ট বিশ্লেষণ (Sentiment Analysis)

টপিক মডেলিং (Topic Modeling)

শব্দ এমবেডিং (Word Embedding) এবং টেক্সট ভেক্টরাইজেশন

সারসংক্ষেপ

Text Mining এর ধারণা এবং প্রয়োজনীয়তা

Text Mining এর ধারণা এবং প্রয়োজনীয়তা

Text Mining এর প্রয়োজনীয়তা

Text Mining এর প্রক্রিয়া

R এ Text Mining উদাহরণ

Text Mining এর উপকারিতা

সারসংক্ষেপ

Tokenization এবং Text Cleaning Techniques

Tokenization এবং Text Cleaning Techniques in R

1. Tokenization:

Tokenization Example in R:

Using stringr package for sentence tokenization:

2. Text Cleaning Techniques:

Text Cleaning Example in R:

Stemming Example:

Lemmatization Example:

3. Putting It All Together: Tokenization and Cleaning

Full Example: Tokenization and Cleaning

Summary

Sentiment Analysis এবং Topic Modeling

R-এ Sentiment Analysis এবং Topic Modeling

১. Sentiment Analysis (সংবেদনশীলতা বিশ্লেষণ)

Sentiment Analysis এর মূল পদ্ধতি:

উদাহরণ: Sentiment Analysis using syuzhet package

২. Topic Modeling (বিষয় মডেলিং)

উদাহরণ: Topic Modeling using topicmodels package (LDA)

৩. Comparison of Sentiment Analysis and Topic Modeling

সারসংক্ষেপ

Wordclouds এবং Text Data Visualization

R প্রোগ্রামিং: Wordclouds এবং Text Data Visualization

১. Wordclouds (ওয়ার্ড ক্লাউড)

১.১ wordcloud প্যাকেজ ইনস্টল এবং লোড করা

১.২ Wordcloud তৈরি করা

২. Text Data Visualization (টেক্সট ডেটা ভিজ্যুয়ালাইজেশন)

২.১ ggplot2 ব্যবহার করে Text Data Visualization

২.২ Tidytext প্যাকেজ ব্যবহার করে Text Data Analysis

২.৩ Word Associations (শব্দের সম্পর্ক)

সারসংক্ষেপ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!

Using `stringr` package for sentence tokenization:

উদাহরণ: Sentiment Analysis using `syuzhet` package

উদাহরণ: Topic Modeling using `topicmodels` package (LDA)