Custom Voice Model তৈরি করার জন্য Amazon Polly এখনো সরাসরি কাস্টম ভয়েস তৈরির সুবিধা সরবরাহ করে না। তবে, অন্যান্য কৃত্রিম বুদ্ধিমত্তা ভিত্তিক প্ল্যাটফর্ম যেমন Google Cloud Text-to-Speech এবং Microsoft Azure Cognitive Services কিছু ক্ষেত্রে কাস্টম ভয়েস মডেল তৈরির সুবিধা প্রদান করে। তবে এ ধরনের কাস্টম ভয়েস তৈরির জন্য সাধারণত ডেটা কালেকশন, প্রশিক্ষণ, এবং ট্রেনিং প্রসেস প্রয়োজন হয়।
যদিও Amazon Polly সরাসরি কাস্টম ভয়েস তৈরি করতে দেয় না, তবে SSML (Speech Synthesis Markup Language) ব্যবহার করে কণ্ঠস্বরের বিভিন্ন প্রোপার্টি যেমন স্পিড, পিচ, এবং উচ্চারণ কাস্টমাইজ করা যায়, যা কাস্টম ভয়েসের মতো অনুভূতি প্রদান করতে পারে।
নিচে কাস্টমাইজড স্পিচ তৈরি করার কিছু পদ্ধতি নিয়ে আলোচনা করা হলো।
Amazon Polly দিয়ে কণ্ঠস্বর কাস্টমাইজেশন
Amazon Polly তে SSML ব্যবহার করে কণ্ঠস্বরের বিভিন্ন অ্যাট্রিবিউট নিয়ন্ত্রণ করা যায়।
উদাহরণ: SSML দিয়ে স্পিচ কাস্টমাইজেশন
import boto3
# Polly ক্লায়েন্ট তৈরি করা
polly_client = boto3.client('polly', region_name='us-west-2')
# SSML টেক্সট তৈরি করা
ssml_text = """
<speak>
Hello! Welcome to <emphasis level="strong">Amazon Polly</emphasis>.
<break time="500ms"/>
I can change <prosody rate="slow">my speaking speed</prosody>,
or <prosody pitch="high">even pitch</prosody>.
</speak>
"""
# SSML ভিত্তিক স্পিচ সিঙ্ক্রোনাইজেশন
response = polly_client.synthesize_speech(
Text=ssml_text,
OutputFormat="mp3",
VoiceId="Joanna", # কণ্ঠস্বর নির্বাচন
TextType="ssml" # SSML ফরম্যাট নির্দেশনা
)
# অডিও ফাইল সংরক্ষণ করা
with open("custom_voice.mp3", "wb") as file:
file.write(response['AudioStream'].read())
print("Custom voice saved as custom_voice.mp3.")
SSML এর গুরুত্বপূর্ণ ট্যাগসমূহ:
<prosody>: কণ্ঠস্বরের গতি, পিচ, এবং ভলিউম পরিবর্তনের জন্য ব্যবহৃত হয়।
<prosody rate="fast">I am speaking fast.</prosody>
<prosody pitch="low">My pitch is low.</prosody>
<emphasis>: কিছু অংশে গুরুত্ব দেয়ার জন্য ব্যবহৃত হয়।
<emphasis level="strong">Important part of the sentence.</emphasis>
<break>: কথার মাঝে বিরতি যোগ করার জন্য ব্যবহৃত হয়।
<break time="500ms"/>
<phoneme>: উচ্চারণ পরিবর্তন করার জন্য ব্যবহৃত হয়।
<phoneme alphabet="ipa" ph="tʃɪkən">chicken</phoneme>
Custom Voice Model তৈরির বিকল্প পদ্ধতি
যেহেতু Amazon Polly কাস্টম ভয়েস মডেল সরাসরি তৈরি করতে দেয় না, তাই বিকল্পভাবে কিছু অন্যান্য প্ল্যাটফর্মের উপর ভিত্তি করে কাস্টম ভয়েস তৈরি করা যায়। নিচে উল্লেখিত পদ্ধতিগুলো অনুসরণ করতে পারেন।
1. Microsoft Azure Custom Neural Voice
Microsoft Azure Cognitive Services Custom Neural Voice ব্যবহার করে কাস্টম ভয়েস মডেল তৈরি করা যায়। এটি ব্যবহার করতে হলে, কিছু নির্দিষ্ট ডেটাসেট প্রস্তুত করতে হবে এবং এই ডেটা ব্যবহার করে Microsoft এর প্ল্যাটফর্মে কাস্টম ট্রেনিং করাতে হবে।
- Data Collection: প্রয়োজনীয় স্পিচ ডেটা সংগ্রহ করতে হবে। এটি প্রায় ২-৩ ঘণ্টার ভালো মানের অডিও রেকর্ডিং হতে পারে।
- Data Labelling: রেকর্ডেড অডিওকে টেক্সটের সাথে সংযোগ করতে হবে, যাতে মডেল সঠিকভাবে শিখতে পারে।
- Model Training: Microsoft এর Custom Neural Voice এর ট্রেনিং সেবা ব্যবহার করে মডেল ট্রেনিং করাতে হবে।
- Model Deployment: কাস্টম মডেল তৈরি ও ট্রেনিং সম্পন্ন হলে এটি API আকারে ব্যবহারযোগ্য হবে।
2. Google Cloud Text-to-Speech
Google Cloud Text-to-Speech সেবা বিভিন্ন অ্যাকসেন্ট এবং ল্যাঙ্গুয়েজে স্পিচ তৈরি করার সুবিধা দেয় এবং কাস্টম ভয়েস সাপোর্ট করে।
- Data Requirement: প্রায় ১৫ মিনিট থেকে ২ ঘণ্টার ভালো মানের স্পিচ ডেটা সংগ্রহ করতে হবে।
- Training Process: গুগল ক্লাউড কনসোল ব্যবহার করে টেক্সট-টু-স্পিচ কাস্টম মডেল তৈরি করতে হবে।
- Deployment: মডেল তৈরি হলে API কলের মাধ্যমে স্পিচ আউটপুট তৈরি করা যায়।
উপসংহার
যদিও Amazon Polly কাস্টম ভয়েস মডেল সরাসরি তৈরি করতে দেয় না, তবে SSML ট্যাগ এবং কাস্টমাইজেশন ব্যবহার করে স্পিচের গুণমান এবং উচ্চারণ পরিবর্তন করা যায়। তবে যদি সম্পূর্ণ কাস্টম ভয়েস মডেল তৈরি করার প্রয়োজন হয়, তাহলে Microsoft Azure বা Google Cloud Text-to-Speech এর মতো প্ল্যাটফর্ম ব্যবহার করা যেতে পারে।
Read more