Pengolahan Korpus Dataset Audio Bacaan Al-Qur’an Menggunakan Metode Wav2Vec 2.0

Aminudin Aminudin, Ilyas Nuryasin, Saiful Amien, Galih Wasis Wicaksono, Didih Rizki Chandranegara, I'anatut Thoifah, Wahyu Rizky, Danny Ferdiansyah, Kiara Azzahra, Fildzah Lathifah, Khairunnisa Aulyah

Abstract


Pengembangan sistem otomasi pengenalan ucapan (Automatic Speech Recognition/ASR) di dalam membaca Al-Qur'an dibutuhkan korpus data audio bacaan Al-Qur'an dan beranotasi dengan transkripsi tekstual agar dapat diproses oleh algoritma machine learning. Pemrosesan Korpus dataset ini dibangun mengingat belum adanya dataset beserta pemrosesanya menggunakan metode tertentu untuk keperluan riset di dalam pengembangan ASR. Paper ini menyajikan kumpulan corpus dataset dan pengolahannya menggunakan metode Wav2Vec 2.0 dengan total 24 ribuan dataset hasil dari rekaman dari 170 santri dengan jenjang umur 4 sampai dengan 16 tahun. Pemrosesan korpus dataset dibuat mengikuti standar metode Wav2Vec 2.0 agar dapat digunakan sebagai data latih pada pemrosesan machine learning. Wav2Vec merupakan model yang dapat mempelajari representasi vektor dari masukan sinyal suara dengan proses pembelajaran self-supervised learning. Wav2Vec juga mampu menangani perbedaan aksen dan karakteristik pembaca Al-Qur'an yang bervariasi dan lebih akurat karena menggunakan deep learning. Dari hasil pengujian menggunakan parameter Precision didapatkan hasil accuracy sebesar 65.52%, precision dengan nilai 0.83 Recall dengan nilai 0.66 dan F1-Score dengan nilai 0.73 serta Word Error Rate (WER) dengan nilai 0.5. Diharapkan dengan adanya pemrosesan korpus dataset ini dapat membantu pengembangan dan riset terkait automasi sistem bacaan Al-Qur'an dengan teknik deep learning dan meningkatkan minat generasi milenial untuk belajar Al-Qur'an dengan memanfaatkan teknologi terkini.

Keywords


Dataset; Al-Qur’an; Text-to-Speech; Audio Speech Recognition; Wav2Vec

Full Text:

PDF

References


Yasir, Muhammad, Jamaruddin, and Ade, Studi Al-Qur’an. 2002.

S. Maharani, “Pembelajaran Baca Tulis Al-Qur’an Anak Usia Dini,” Jurnal Pendidikan Tambusai, 2020.

D. I. Fitriani, “Penerapan Metode Tahsin untuk Meningkatkan Kemampuan Membaca Al-Qur’an Siswa Sekolah Menengah Atas,” Jurnal Pendidikan Islam Indonesia, vol. 5, no. 1, 2020, doi: 10.35316/jpii.v4i1.227.

M. Novela and T. Basaruddin, “DATASET SUARA DAN TEKS BERBAHASA INDONESIA PADA REKAMAN PODCAST DAN TALK SHOW,” Agustus, vol. 11, no. 2, pp. 61–66.

O. Iosifova, I. Iosifov, V. Sokolov, O. Romanovskyi, I. Sukaylo Ender Turing OÜ, and P. str, “Analysis of Automatic Speech Recognition Methods,” 2021.

A. M. Deshmukh, “Comparison of Hidden Markov Model and Recurrent Neural Network in Automatic Speech Recognition,” European Journal of Engineering Research and Science, vol. 5, no. 8, pp. 958–965, Aug. 2020, doi: 10.24018/ejers.2020.5.8.2077.

S. Karita, N. E. Y. Soplin, S. Watanabe, M. Delcroix, A. Ogawa, and T. Nakatani, “Improving transformer-based end-to-end speech recognition with connectionist temporal classification and language model integration,” in Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH, International Speech Communication Association, 2019, pp. 1408–1412. doi: 10.21437/Interspeech.2019-1938.

S. Schneider, A. Baevski, R. Collobert, and M. Auli, “wav2vec: Unsupervised Pre-training for Speech Recognition,” Apr. 2019, [Online]. Available: http://arxiv.org/abs/1904.05862

L. Pepino, P. Riera, and L. Ferrer, “Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings,” Apr. 2021, [Online]. Available: http://arxiv.org/abs/2104.03502

A. Baevski, S. Schneider, and M. Auli, “vq-wav2vec: Self-Supervised Learning of Discrete Speech Representations,” Oct. 2019, [Online]. Available: http://arxiv.org/abs/1910.05453

S. Siriwardhana, A. Reis, R. Weerasekera, and S. Nanayakkara, “Jointly Fine-Tuning ‘BERT-like’ Self Supervised Models to Improve Multimodal Speech Emotion Recognition,” Aug. 2020, [Online]. Available: http://arxiv.org/abs/2008.06682

M. Macary, M. Tahon, Y. Estève, and A. Rousseau, “On the use of Self-supervised Pre-trained Acoustic and Linguistic Features for Continuous Speech Emotion Recognition,” Nov. 2020, [Online]. Available: http://arxiv.org/abs/2011.09212

J. Boigne, B. Liyanage, and T. Östrem, “Recognizing More Emotions with Less Data Using Self-supervised Transfer Learning,” Nov. 2020, [Online]. Available: http://arxiv.org/abs/2011.05585




DOI: http://dx.doi.org/10.26418/jp.v10i1.71576

Refbacks

  • There are currently no refbacks.