Browsing Audio Data & Speech Recognation
BROWSING AUDIO DATA 
Sebuah metode browsing jaringan disediakan untuk browsing video / audio data yang ditembak oleh sebuah IP kamera. Jaringan video / audio metode browsing sesuai mencakup langkah-langkah dari:
Sebuah metode browsing jaringan disediakan untuk browsing video / audio data yang ditembak oleh sebuah IP kamera. Jaringan video / audio metode browsing sesuai mencakup langkah-langkah dari:
- Menjalankan sebuah program aplikasi komputer
     lokal untuk mendapatkan kode identifikasi yang disimpan dalam kamera IP,
 -  Transmisi untuk mendaftarkan kode
     identifikasi ke DDNS ( Dynamic Domain Name Server) oleh program aplikasi,
 - Mendapatkan kamera IP pribadi alamat dan alamat
     server pribadi sehingga pasangan IP kamera dan kontrol kamera IP melalui
     kamera IP pribadi alamat dan alamat server pribadi dan,
 - Kopel ke layanan server melalui alamat server
     pribadi sehingga untuk mendapatkan video / audio data yang ditembak oleh
     kamera IP, di mana server layanan menangkap video / audio data yang
     ditembak oleh kamera IP melalui Internet.
 
 Pada perkembangan sejarahnya Audio
mengalami 4 fase, yaitu :
- Fase pertama, dikenal juga dengan Tehnik Audio
     – Mono ini umumnya dikenal sekitar periode tahun 20’an hingga sekitar
     akhir tahun 50’an dengan diketemukannya Alat Gramaphone oleh Thomas Alfa
     Edison dengan metode Plat Baja,
 - Fase kedua, sekitar awal tahun 50’an dengan
     diketemukan Perekaman Analog dengan piringan plat hitam maka orang mulai
     mengenal perekaman Mono stereo dengan metode pemisahan suara ( Vokal dan
     Alat Musik ) menjadi L / R ( Music ;Left – output, Voice ; Right – output
     ) 
 - Fase ketiga, ditemukan tehnik Mixing Stereo
     menjadi L /R , ini populer sekali dan dikembangkan terus hingga sekitar
     tahun 60’an akhir – awal 70’an
 - Fase keempat, Proses perekaman Umumnya saat ini
     didalam produksi audio umumnya dilakukan dari Analog Ke Digital begitupun
     sebaliknya . Data Analog mempunyai pengertian adalah data sinyal gelombang
     suara yang dikeluarkan dari Sumber Aslinya hasil perekaman, misal :
     Perekaman Vokal ke komputer. Data Analog sendiri mempunyai pengertian
     adalah Informasi gelombang suara yang terus menerus berubah tidak
     beraturan secara Alami, Data Analog mengalami perubahan keras (Amplitudo)
     dan tinggi rendah suara yang berfluktuasi, namun belum mempunyai Skala
     & satuan yang pasti, sedangkan Data Digital adalah hasil manipulasi
     Informasi gelombang suara secara terus menerus berubah tidak beraturan
     secara alami menjadi satuan skala yang pasti.
 
SPEECH RECOGNITION
Speech recognation (ASR) adalah suatu
pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima
masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat
untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi
kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang
tersimpan dalam suatu perangkat.
Pengenalan ucapan (speech recognation) dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua kategori, yaitu:
Pengenalan ucapan (speech recognation) dalam perkembangan teknologinya merupakan bagian dari pengenalan suara (proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara sendiri terbagi menjadi dua kategori, yaitu:
- Piranti pengenalan kata (word recognation) yang
     mampu merespon ucapan-ucapan secara indovidu atau perintah-perintah yang
     menggunakan teknik yang dikenal sebagai speaker verification. Pertama kali
     sistem akan membangkitkan suatu template untuk mengenali suara user.
 - Piranti pengenalan kalimat (speech recognation)
     yang mampu mengenali hubungan antar kata terucap di dalam kalimat atau
     frase. Teknik -  teknik statistik dipakai dalam hal pola perekaman
     suara yang akan dicocokkan dengan kata-kata terucap.
 
Jenis-Jenis Pengenalan Ucapan
Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu :
- Kata-kata yang terisolasi : Proses
     pengidentifikasian kata yang hanya dapat mengenal kata yang diucapkan jika
     kata tersebut memiliki jeda waktu pengucapan antar kata
 - Kata-kata yang berhubungan : Proses
     pengidentifikasian kata yang mirip dengan kata-kata terisolasi, namun
     membutuhkan jeda waktu pengucapan antar kata yang lebih singkat
 - Kata-kata yang berkelanjutan :  Proses
     pengidentifikasian kata yang sudah lebih maju karena dapat mengenal kata-kata
     yang diucapkan secara berkesinambungan dengan jeda waktu yang sangat
     sedikit atau tanpa jeda waktu. Proses pengenalan suara ini sangat rumit
     karena membutuhkan metode khusus untuk membedakan kata-kata yang diucapkan
     tanpa jeda waktu. Pengguna perangkat ini dapat mengucapkan kata-kata
     secara natural
 - Kata-kata spontan: Proses pengidentifikasian
     kata yang dapat mengenal kata-kata yang diucapkan secara spontan tanpa
     jeda waktu antar kata
 - Verifikasi atau identifikasi suara: Proses
     pengidentifikasian kata yang tidak hanya mampu mengenal kata, namun juga
     mengidentifikasi siapa yang berbicara
 
Prinsip Dasar Speech Recognation
Semua metode dasar proses pengenalan suara terdiri dari dua fase operasi, yaitu:
Semua metode dasar proses pengenalan suara terdiri dari dua fase operasi, yaitu:
- Proses training. Pada proses ini sistem belajar
     dari referensi pola yang berupa perbedaan pola sinyal suara misal frase,
     kata, fonem yang akan mengisi vocabulari dari sistem. Setiap referensi di
     pelajari dari kata yang dikatakan yang kemudian disimpan dalam template
     dan telah mengalami metode untuk merata-rata dan karakteristik statistik
     dan parameter statistik.
 - Proses recognation. Pada proses ini sistem akan
     diberikan inputan yang belum diketahui dan akan di identifikasi
     berdasarkan pola template yang telah didapatkan pada proses training.
 
Pada umumnya, suatu sistem pengenalan suara
terdiri dari beberapa modul utama, yaitu:
- Signal processign frontend digunakan untuk
     mengkonversi sinyal suara kedalam bentuk sequence feature  vector
     yang akan digunakan pada saat klasifikasi.
 - Accoustic modelling digunakan untuk memodelkan
     secara statistik hasil training yang telah dilakukan kedalam sebuah
     template.
 - Language modelling digunakan untuk memodelkan bentuk kata baik berupa kata, fonem, ataupun kalimat.
 
Tidak ada komentar:
Posting Komentar