No image available for this title

Text

Teks menggunakan algoritma K-Nearest Neighbor (studi kasus: berita hoaks)



Ekstraksi fitur teks mengubah data teks menjadi data terstruktur untuk diproses algoritma machine learning. Term Frequency Inverse Document Frequency (TF-IDF) adalah salah satu penerapan umum dari ekstraksi fitur teks, namun teknik ini menghasilkan data berdimensi tinggi yang berakibat pada waktu komputasi yang lebih lama dan tidak memiliki makna semantik. Penelitian ini bertujuan melakukan perbandingan kinerja model klasifikasi teks berita hoaks berdasarkan dua ekstraksi fitur yaitu Word2vec dan TF-IDF. Tahapan penelitian meliputi text preprocessing, feature extraction, modeling yang dicantumkan ke dalam metode SEMMA dengan tahap modeling memakai algoritma K-Nearest Neighbor (KNN). Hasil penelitian didapat nilai akurasi tertinggi TF-IDF dengan algoritma KNN adalah 73% dengan skenario 7:3 dan fitur berjumlah 8133. Nilai
akurasi tertinggi Word2vec dengan algoritma KNN adalah 74 % dengan scenario 9:1 dan fitur berjumlah 300. Pemodelan klasifikasi teks memakai algoritma KNN dengan ekstraksi fitur Word2vec dapat dilakukan dengan jumlah fitur dan waktu komputasi yang lebih cepat dan akurasi yang tidak jauh berbeda dengan ekstraksi fitur TF-IDF.
Kata Kunci: TF-IDF, Word2vec, KNN, Ekstraksi Fitur, Klasifikasi Teks


Ketersediaan

#
Perpustakaan FST (SKRIPSI) 395 SI 2022
395 SI 2022
Tersedia

Informasi Detail

Judul Seri
-
No. Panggil
395 SI 2022
Penerbit Prodi SI Sains Teknologi UIN JKT : Jakarta, Ciputat.,
Deskripsi Fisik
xiv, 107 hlm; 28 cm.
Bahasa
Bahasa Indonesia
ISBN/ISSN
-
Klasifikasi
395
Tipe Isi
-
Tipe Media
-
Tipe Pembawa
-
Edisi
-
Subjek
Info Detail Spesifik
-
Pernyataan Tanggungjawab

Versi lain/terkait

Tidak tersedia versi lain




Informasi


Akses Katalog Publik Daring - Gunakan fasilitas pencarian untuk mempercepat penemuan data katalog