Tidak ada review pada koleksi ini: 49047
ABSTRAK
Nama : Ricky Chandra Johanes
Program Studi : Sistem Informasi
Judul : Normalisasi Teks pada Judul Produk E-Commerce
Judul produk pada suatu platform e-commerce berperan cukup besar dalam menarik perhatian konsumen terhadap produk. Kualitas judul produk yang kurang baik perlu diperbaiki dan perihal ini menyebabkan munculnya suatu kebutuhan untuk melakukan normalisasi teks pada judul produk agar judul produk dapat terstandardisasi. Namun, standardisasi tersebut tidak dapat dilakukan secara manual oleh manusia karena produk baru
setiap harinya akan terus meningkat sehingga membutuhkan suatu sistem yang dapat
melakukan pekerjaan tersebut dengan baik. Kriteria atau indikator suatu judul produk
yang baik pada platform e-commerce di Indonesia belum pernah didefinisikan sebelumnya
sehingga penelitian ini mengajukan empat kriteria yang dapat menjadi parameter kualitas
suatu judul produk, yaitu consistency, conciseness, discoverability, dan clarity. Selain
itu, penelitian ini juga mengajukan sebuah pendekatan untuk melakukan normalisasi teks
pada judul produk e-commerce, yakni dengan pendekatan pipeline yang terdiri atas empat tahapan, yaitu chunking, language identification, promotion words identification, dan
normalization. Model yang digunakan pada modul chunking, language identification,
dan promotion words identification adalah model Conditional Random Field. Evaluasi
dilakukan terpisah pada setiap modul dan dilakukan secara integrasi pada pipeline. Pada
setiap modul, pengujian yang dilakukan adalah evaluasi kontribusi setiap fitur terhadap
kualitas prediksi, menghasilkan suatu kesimpulan bahwa terdapat beberapa potensi kemungkinan, yaitu fitur yang berkontribusi positif atau negatif terhadap seluruh metrik,
atau fitur dapat berkontribusi positif pada metrik tertentu, namun berkontribusi negatif
pada metrik lainnya. Pengujian pada pipeline dilakukan dengan memasukkan judul produk ke seluruh modul mengikuti alur pemodelan dengan dua buah pengaturan evaluasi,
menghasilkan akurasi terbaik sebesar 49,14% untuk nilai WER dan 82,61% untuk nilai
BLEU. Berdasarkan seluruh hasil tersebut, performa Conditional Random Field dapat
dikatakan bekerja dengan baik dalam melakukan identifikasi bahasa dan identifikasi promotion words, dan masih dapat dioptimisasi lagi pada tahapan chunking.
Key words:
Consistency, Judul Produk, E-Commerce, Conditional Random Field, Normalisasi TeksABSTRAK
Nama : Ricky Chandra Johanes
Program Studi : Sistem Informasi
Judul : Normalisasi Teks pada Judul Produk E-Commerce
Judul produk pada suatu platform e-commerce berperan cukup besar dalam menarik perhatian konsumen terhadap produk. Kualitas judul produk yang kurang baik perlu diperbaiki dan perihal ini menyebabkan munculnya suatu kebutuhan untuk melakukan normalisasi teks pada judul produk agar judul produk dapat terstandardisasi. Namun, standardisasi tersebut tidak dapat dilakukan secara manual oleh manusia karena produk baru
setiap harinya akan terus meningkat sehingga membutuhkan suatu sistem yang dapat
melakukan pekerjaan tersebut dengan baik. Kriteria atau indikator suatu judul produk
yang baik pada platform e-commerce di Indonesia belum pernah didefinisikan sebelumnya
sehingga penelitian ini mengajukan empat kriteria yang dapat menjadi parameter kualitas
suatu judul produk, yaitu consistency, conciseness, discoverability, dan clarity. Selain
itu, penelitian ini juga mengajukan sebuah pendekatan untuk melakukan normalisasi teks
pada judul produk e-commerce, yakni dengan pendekatan pipeline yang terdiri atas empat tahapan, yaitu chunking, language identification, promotion words identification, dan
normalization. Model yang digunakan pada modul chunking, language identification,
dan promotion words identification adalah model Conditional Random Field. Evaluasi
dilakukan terpisah pada setiap modul dan dilakukan secara integrasi pada pipeline. Pada
setiap modul, pengujian yang dilakukan adalah evaluasi kontribusi setiap fitur terhadap
kualitas prediksi, menghasilkan suatu kesimpulan bahwa terdapat beberapa potensi kemungkinan, yaitu fitur yang berkontribusi positif atau negatif terhadap seluruh metrik,
atau fitur dapat berkontribusi positif pada metrik tertentu, namun berkontribusi negatif
pada metrik lainnya. Pengujian pada pipeline dilakukan dengan memasukkan judul produk ke seluruh modul mengikuti alur pemodelan dengan dua buah pengaturan evaluasi,
menghasilkan akurasi terbaik sebesar 49,14% untuk nilai WER dan 82,61% untuk nilai
BLEU. Berdasarkan seluruh hasil tersebut, performa Conditional Random Field dapat
dikatakan bekerja dengan baik dalam melakukan identifikasi bahasa dan identifikasi promotion words, dan masih dapat dioptimisasi lagi pada tahapan chunking.
Key words:
Consistency, Judul Produk, E-Commerce, Conditional Random Field, Normalisasi Teks