Sri Rampai, Wangsa Maju
Kuala Lumpur, Malaysia
adyaakob@gmail.com
+60 102369037
Sri Rampai, Wangsa Maju
Kuala Lumpur, Malaysia
adyaakob@gmail.com
+60 102369037

Dalam projek terkini saya, cabaran utama ialah memastikan Google Cloud Text-to-Speech (TTS) boleh menyebut perkataan dengan betul, terutamanya akronim seperti “AI”, nama orang Malaysia, serta nama tempat-tempat di Malaysia. Masalah ini berlaku apabila sistem TTS menyebut perkataan “AI” sebagai “aa eee” dan bukannya “ey-ai”, iaitu sebutan lazim di Malaysia.
Dalam artikel ini, saya akan berkongsi pendekatan saya dalam menyelesaikan isu ini secara terperinci.
Google Cloud TTS cenderung menyebut akronim atau istilah tertentu secara literal, menyebabkan sebutan tidak semula jadi dan kurang sesuai untuk pendengar tempatan. Antara isu utama termasuklah:
✅ Sebutan akronim yang salah (“AI” menjadi “aa eee”).
✅ Nama Malaysia seperti “Syafiq” tidak disebut dengan betul.
✅ Nama tempat tempatan seperti “Kuala Terengganu” kurang jelas.
✅ Sebutan nombor dan tarikh yang tidak konsisten.
Masalah ini mengganggu pengalaman pengguna, khususnya dalam kandungan pendidikan atau profesional.
Saya mengambil langkah sistematik dengan menyediakan panduan lengkap supaya GPT-4o boleh menghasilkan transkrip mesra TTS. Berikut adalah pendekatan yang digunakan:
✅ Menggunakan ejaan fonetik atau markup SSML.
✅ Contoh: AI disebut sebagai “ey-ai” atau “eɪ aɪ”.
✅ Menggunakan fonetik yang hampir tepat dengan sebutan tempatan.
✅ Contoh: “Syafiq” dieja sebagai “Shaf-feek”.
✅ Menyesuaikan ejaan kepada fonetik tempatan yang jelas.
✅ Contoh: “Kuala Terengganu” dieja sebagai “Koo-ah-la Teh-reng-ga-noo”.
✅ Sebutan nombor dan tarikh dibuat secara penuh untuk memastikan kejelasan maksimum.

Infografik ini menunjukkan secara ringkas bagaimana saya menyelesaikan masalah sebutan yang tidak tepat dalam Google Cloud Text-to-Speech (TTS) bagi pengguna Malaysia—khususnya akronim seperti “AI”, nama orang tempatan, dan nama tempat—dengan pendekatan mudah seperti ejaan fonetik dan penyesuaian konteks tempatan, menggunakan gabungan beberapa alat AI untuk menghasilkan output suara yang lebih jelas dan semula jadi.
Saya telah menyediakan satu guide rasmi untuk membantu GPT-4o menjana transkrip TTS yang dioptimumkan untuk sistem Google TTS. Panduan ini mengandungi:
Menjana transkrip Bahasa Malaysia formal yang:
✅ Sesuai untuk Google Cloud TTS
✅ Memastikan sebutan akronim, nama dan nombor betul
✅ Tidak terlalu robotik — natural untuk pendengar Malaysia
| Elemen | Format Penulisan Disarankan |
|---|---|
| Akronim AI | ey-ai |
| USB | yoo-es-bee |
| CPU | see-pee-yoo |
| Syafiq | Shaf-feek |
| Kuala Terengganu | Koo-ah-la Teh-reng-ga-noo |
| Tarikh | Sembilan April dua ribu dua puluh lima |
Nota: Boleh juga guna <phoneme> SSML untuk sistem XML-based.
perlCopyEditBertindak sebagai penulis skrip untuk video pendidikan Bahasa Malaysia. Hasilkan transkrip yang sesuai digunakan dengan Google Cloud Text-to-Speech. Gunakan gaya Bahasa Malaysia formal seperti RTM, dan pastikan sebutan adalah jelas untuk nama-nama Malaysia, tempat, dan akronim. Guna ejaan fonetik atau SSML <phoneme> untuk bantu sebutan, terutamanya untuk istilah seperti ey-ai, see-pee-yoo, dan nama seperti Syafiq (Shaf-feek), Kuala Terengganu (Koo-ah-la Teh-reng-ga-noo). Pastikan tarikh dan nombor dibaca dengan betul.
Panduan ini dibangunkan berdasarkan penyelidikan daripada 15 dokumen kerja di bawah projek TTS Transcript. Berikut ialah antara dokumen paling kritikal yang membantu saya membina struktur panduan untuk GPT-4o:
| Judul Dokumen | Kandungan Utama |
|---|---|
| Creative Examples of Optimized Transcripts for Text-to-Speech | Contoh transkrip yang sesuai digunakan terus dalam Google TTS |
| Panduan Lengkap Sebutan Akronim TTS Bahasa Malaysia | Senarai penuh akronim dan sebutan fonetik |
| TTS Guidebook | Struktur keseluruhan panduan penggunaan SSML |
| Panduan Lengkap Penggunaan SSML untuk Nada & Gaya Spesifik | Teknik menghasilkan nada lebih natural |
| Challenges in Implementing SSML in Development Projects | Kesilapan biasa dalam SSML dan cara mengelak |
| Common Mistakes to Avoid in Keyword Density for TTS Content | Elak pengulangan perkataan dan robotik |
| Effective Keyword Optimization Strategy for Text-to-Speech | Strategi optimasi kata kunci agar lebih natural |
Kesemua dokumen ini disusun dalam satu sistem projek rapi, seperti dalam tangkap layar berikut:

[Sisipan gambar: Senarai Project Files TTS Transcript – dilampirkan sebagai rujukan visual]
Berikut ialah perbandingan beberapa alat utama yang membantu dalam menyelesaikan masalah ini:
| Alat AI | Kelebihan | Kekurangan |
|---|---|---|
| ChatGPT 4o | ✅ Struktur panduan sistematik dan mudah diikuti. | ✅ Analisis agak asas. |
| Google AI Studio dengan Gemini 2.5 Preview | ✅ Perincian mendalam dan format kemas. | ✅ Masih perlukan input tambahan untuk aspek tertentu. |
| Gemini Advanced Deep Research | ✅ Analisis mendalam secara akademik. | ✅ Sukar dibaca, mirip tesis. |
| Grok-3 Deep Learning | ✅ Kandungan berkualiti tinggi, hampir setaraf Gemini 2.5. | ✅ Keterbacaan dokumen sedikit rendah berbanding Gemini 2.5. |
| Liner Deep Thinking | ✅ Membantu eksplorasi kreatif dan aspek terlepas pandang. | ✅ Kurang fokus pada struktur formal dokumen. |
Gabungan beberapa alat AI ini memberikan pendekatan menyeluruh dalam menyelesaikan masalah sebutan untuk TTS di Malaysia. Setiap alat membawa kelebihan tersendiri, dan penggunaannya secara kombinasi membolehkan penyelesaian yang efektif serta praktikal untuk kegunaan harian.
Saya berharap panduan ini akan membantu lebih ramai pengguna Google Cloud TTS dalam menghasilkan kandungan audio yang lebih jelas, profesional, dan bersesuaian dengan konteks tempatan Malaysia.