Selasa, 04 November 2014

Speech Synthesis

Speech Synthesis
Speech synthesis adalah transformasi dari teks ke arah suara (speech). Transformasi ini mengkonversi teks ke pemadu suara (speech synthesis) yang sebisa mungkin dibuat menyerupai suara nyata, disesuaikan dengan aturan – aturan pengucapan bahasa.TTS (text to speech) dimaksudkan untuk membaca teks elektronik dalam bentuk buku, dan juga untuk menyuarakan teks dengan menggunakan pemaduan suara. Sistem ini dapat digunakan sebagai sistem komunikasi, pada sistem informasi referral, dapat diterapkan untuk membantu orang-orang yang kehilangan kemampuan melihat dan membaca.
Sejarah Speech Synthesis
Upaya yang paling awal untuk menghasilkan lahirnya pemandu suara, pada abad XVIII. Terlepas dari kenyataan bahwa upaya pertama  adalah bentuk mesin mekanis, kita dapat mengatakan hari ini  bahwa synthesizer sudah berkualitas tinggi. Pada tahun 1779 di
St Petersburg, Rusia Profesor Kratzenshtein Kristen  fisiologis menjelaskan perbedaan antara lima vokal panjang  (/ A /, / e /, / i /, / o /, dan / u /) dan membuat alat untuk menghasilkan  mereka artifisial. Tahun 1791 di Wina, Wolfgang von Kempelen memperkenalkan nya “Akustik-Mekanik Mesin Speech”. Dalam  sekitar pertengahan 1800-an Charles Wheatstone dibangun terkenal  versi mesin berbicara von Kempelen’s.

Generasi dari sistem pemaduan suara ini dapat dibagi ke dalam 3 masa, yaitu:
1.  Generasi pertama (1962-1977). Format sintesis dari fonem adalah teknologi dominan. Teknologi ini memanfaatkan aturan berdasarkan penguraian fonetik pada kalimat untuk kontur frekuensi forman. Beberapa sintesis masih miskin atau kurang  dalam kejelasan dan kealamiannya.

2.  Generasi kedua (1977-1992). Metode pemadu suara adalah diphone diwakilkan  dengan parameter LPC. Hal tersebut menunujukkan bahwa kejelasan yang baik pada pemadu suara dapat diperoleh dengan andal dari input teks dengan menggabungkan diphone yang sesuai dengan unit. Kejelasan meningkat selama sintesis forman, tetapi kealamian dari pemadu suara masih tetap rendah.

3. Generasi ketiga (1992-sekarang). Generasi ini ditandai dengan metode ‘ sintesis pemilihan unit’ yang diperkenalkan dan disempurnakan oelh Sagisaka di Labs ATR Kyoto. Hasil dari pemandu suara pada periode ini sangat mendekati  human-generated speech pada bagian kejelasan dan kealamian,
Contoh aplikasi yang menerapkan Speech Recognition adalah Ms Office mulai versi 2003, dengan hanya mengucapkan "open" pada interface office maka otomatis office akan membuka menu file| open. Hal ini akan mempermudah pengguna komputer tentunya.

                     2.http://delphiscript.blogspot.com/2008/02/apa-itu-speech-to-text-speech-synthesis.html 

                    

Tidak ada komentar:

Posting Komentar