Optimasi Parameter pada Fast Correlation Based Fiter Menggunakan Algoritme Genetika untuk Klasifikasi Metagenom

Toto Haryanto, Hanif Bagus Guritno, Aziz Kustiyo, Irman Hermadi

Abstract


Metagenome merupakan mikroorganisme yang diambil secara langsung dari alam. Proses sequencing genom dari metagenome mengakibatkan bercampurnya berbagai organisme. Hal ini menyebabkan kesulitan pada proses perakitan DNA. Oleh karena itu, dibutuhkan proses pemilahan yang disebut binning. Pada proses binning dengan pendekatan komposisi, teknik yang dilakukan adalah dengan supervised learning. Salah satu tahapan dalam supervised learning yaitu ekstraksi fitur, penelitian ini menggunakan metode ektraksi fitur n-mers. Besarnya parameter n pada metode ekstraksi fitur n-mers akan mengakibatkan dimensi fitur yang tinggi. Penelitian ini bertujuan untuk menerapkan algorime fast-correlation based filter (FCBF) untuk mereduksi dimensi fitur yang dihasilkan n-mers dan mengoptimasi parameter threshold pada fast-correlation based filter menggunakan algoritme genetika. Penelitian ini diuji menggunakan klasifikasi k-nearest neighbour. Performa terbaik diperoleh ketika n = 7 dan k = 3 dengan akurasi mencapai 99.41% dengan nilai threshold 0.67788. Dengan optimasi, waktu komputasi menjadi lebih efisien karena jumlah fitur sudah tereduksi.


Keywords


Algoritme Genetika; Binning; Fast-Correlation Based Filter, N-Mers, K-Nearest Neighbour

Full Text:

PDF

References


Y.W. Wu, Y. Ye, A novel abundance-based algorithm for binning metagenomic sequences using l-tuples, Lect. Notes Comput. Sci. (Including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics). 6044 LNBI (2010) 535–549. doi:10.1007/978-3-642-12683-3_35.

T. Thomas, J. Gilbert, F. Meyer, Metagenomics - a guide from sampling to data analysis, Microb. Inform. Exp. 2 (2012) 3. doi:10.1186/2042-5783-2-3.

S.B. Kotsiantis, Supervised Machine Learning: A Review of Classification Techniques, Informatica. 31 (2007) 249–268. doi:10.1115/1.1559160.

M. Hajighorbani, S. Mohammad, R. Hashemi, A. Broumandnia, M. Faridpour, A Review of Some Semi-Supervised Learning Methods, J. Knowledge- Based Eng. Innov. 2 (2016) 250–259. http://aeuso.org/jkbei/wp-content/uploads/2016/06/27-A-Review-of-Some-Semi-Supervised-Learning-Methods.pdf.

Z.-H. Zhou, A Brief Introduction to Weakly Supervised Learning, Natl. Sci. Rev. (2017) 44–53. doi:10.1093/nsr/nwx106.

S. Higashi, A. Barreto, M. Cantão, A. de Vasconcelos, Analysis of composition-based metagenomic classification, BMC Genomics. 13 (2012) S1. doi:10.1186/1471-2164-13-S5-S1.

X. (Sylvia) Zhu, M. McGee, Metagenomic Classification Using an Abstraction Augmented Markov Model, J. Comput. Biol. 23 (2015) cmb.2015.0141. doi:10.1089/cmb.2015.0141.

W. Li, L. Fu, B. Niu, S. Wu, J. Wooley, Ultrafast clustering algorithms for metagenomic sequence analysis, Brief. Bioinform. 13 (2012) 656–668. doi:10.1093/bib/bbs035.

W. Li, Analysis and comparison of very large metagenomes with fast clustering and functional annotation, BMC Bioinformatics. 10 (2009) 1–9. doi:10.1186/1471-2105-10-359.

M.V. Overbeek, W.A. Kusuma, A. Buono, Clustering metagenome fragments using growing self organizing map, 2013 Int. Conf. Adv. Comput. Sci. Inf. Syst. ICACSIS 2013. (2013) 285–289. doi:10.1109/ICACSIS.2013.6761590.

N. Pookhao, M.B. Sohn, Q. Li, I. Jenkins, R. Du, H. Jiang, L. An, A two-stage statistical procedure for feature selection and comparison in functional analysis of metagenomes, Bioinformatics. 31 (2015) 158–165. doi:10.1093/bioinformatics/btu635.

G. Ditzler, J.C. Morrison, Y. Lan, G.L. Rosen, Fizzy: Feature subset selection for metagenomics, BMC Bioinformatics. 16 (2015) 1–8. doi:10.1186/s12859-015-0793-8.

A. Al-ajlan, Feature selection for gene prediction in metagenomic fragments, BioData Min. 11 (2018) 1–12. doi:10.1186/s13040-018-0170-z.

L. Yu, H. Liu, Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution, Int. Conf. Mach. Learn. (2003) 1–8. doi:citeulike-article-id:3398512.

A. Dinilhak, Klasifikasi fragmen metagenome menggunakan metode SVM dan fast correlation based filter sebagai penyeleksi fitur, Bogor Agricultural Universisty, 2015. https://repository.ipb.ac.id/handle/123456789/74945.

D. Zeng, S. Wang, Y. Shen, C. Shi, A GA-based feature selection and parameter optimization for support tucker machine, Procedia Comput. Sci. 111 (2017) 17–23. doi:10.1016/j.procs.2017.06.004.

G. Nagarajan, R.I. Minu, B. Muthukumar, V. Vedanarayanan, S.D. Sundarsingh, Hybrid Genetic Algorithm for Medical Image Feature Extraction and Selection, Procedia Comput. Sci. 85 (2016) 455–462. doi:10.1016/j.procs.2016.05.192.

H. Lu, J. Chen, K. Yan, Q. Jin, Y. Xue, Z. Gao, A hybrid feature selection algorithm for gene expression data classification, Neurocomputing. 256 (2017) 56–62. doi:10.1016/j.neucom.2016.07.080.

I.S. Karima, Optimasi parameter pada support vector machine untuk klasifikasi fragmen metagenome menggunakan algoritme genetika, Institut Pertanian Bogor, 2014. https://repository.ipb.ac.id/handle/123456789/71332.

D.C. Richter, F. Ott, A.F. Auch, R. Schmid, D.H. Huson, MetaSim: A Sequencing Simulator for Genomics and Metagenomics, Handb. Mol. Microb. Ecol. I Metagenomics Complement. Approaches. 3 (2011) 417–421. doi:10.1002/9781118010518.ch48.

Z. Michalewicz, Genetic Algorithms + Data Structures = Evolution Programs, Comput. Stat. Data Anal. 24 (1996) 372–373. doi:10.1007/978-3-662-03315-9.




DOI: http://dx.doi.org/10.26418/jp.v4i2.28011

Refbacks

  • There are currently no refbacks.