Library Automation and Digital Archive
LONTAR
Fakultas Ilmu Komputer
Universitas Indonesia

Pencarian Sederhana

Find Similar Add to Favorite

Call Number SK-1922 (Softcopy SK-1404)
Collection Type Skripsi
Title Normalisasi Teks pada Judul Produk E-Commerce
Author Ricky Chandra Johanes;
Publisher Depok : Fakultas Ilmu Komputer Universitas Indonesia, 2020
Subject
Location FASILKOM-UI;
Lokasi : Perpustakaan Fakultas Ilmu Komputer
Nomor Panggil ID Koleksi Status
SK-1922 (Softcopy SK-1404) TERSEDIA
Tidak ada review pada koleksi ini: 49047
ABSTRAK Nama : Ricky Chandra Johanes Program Studi : Sistem Informasi Judul : Normalisasi Teks pada Judul Produk E-Commerce Judul produk pada suatu platform e-commerce berperan cukup besar dalam menarik perhatian konsumen terhadap produk. Kualitas judul produk yang kurang baik perlu diperbaiki dan perihal ini menyebabkan munculnya suatu kebutuhan untuk melakukan normalisasi teks pada judul produk agar judul produk dapat terstandardisasi. Namun, standardisasi tersebut tidak dapat dilakukan secara manual oleh manusia karena produk baru setiap harinya akan terus meningkat sehingga membutuhkan suatu sistem yang dapat melakukan pekerjaan tersebut dengan baik. Kriteria atau indikator suatu judul produk yang baik pada platform e-commerce di Indonesia belum pernah didefinisikan sebelumnya sehingga penelitian ini mengajukan empat kriteria yang dapat menjadi parameter kualitas suatu judul produk, yaitu consistency, conciseness, discoverability, dan clarity. Selain itu, penelitian ini juga mengajukan sebuah pendekatan untuk melakukan normalisasi teks pada judul produk e-commerce, yakni dengan pendekatan pipeline yang terdiri atas empat tahapan, yaitu chunking, language identification, promotion words identification, dan normalization. Model yang digunakan pada modul chunking, language identification, dan promotion words identification adalah model Conditional Random Field. Evaluasi dilakukan terpisah pada setiap modul dan dilakukan secara integrasi pada pipeline. Pada setiap modul, pengujian yang dilakukan adalah evaluasi kontribusi setiap fitur terhadap kualitas prediksi, menghasilkan suatu kesimpulan bahwa terdapat beberapa potensi kemungkinan, yaitu fitur yang berkontribusi positif atau negatif terhadap seluruh metrik, atau fitur dapat berkontribusi positif pada metrik tertentu, namun berkontribusi negatif pada metrik lainnya. Pengujian pada pipeline dilakukan dengan memasukkan judul produk ke seluruh modul mengikuti alur pemodelan dengan dua buah pengaturan evaluasi, menghasilkan akurasi terbaik sebesar 49,14% untuk nilai WER dan 82,61% untuk nilai BLEU. Berdasarkan seluruh hasil tersebut, performa Conditional Random Field dapat dikatakan bekerja dengan baik dalam melakukan identifikasi bahasa dan identifikasi promotion words, dan masih dapat dioptimisasi lagi pada tahapan chunking. Key words: Consistency, Judul Produk, E-Commerce, Conditional Random Field, Normalisasi TeksABSTRAK Nama : Ricky Chandra Johanes Program Studi : Sistem Informasi Judul : Normalisasi Teks pada Judul Produk E-Commerce Judul produk pada suatu platform e-commerce berperan cukup besar dalam menarik perhatian konsumen terhadap produk. Kualitas judul produk yang kurang baik perlu diperbaiki dan perihal ini menyebabkan munculnya suatu kebutuhan untuk melakukan normalisasi teks pada judul produk agar judul produk dapat terstandardisasi. Namun, standardisasi tersebut tidak dapat dilakukan secara manual oleh manusia karena produk baru setiap harinya akan terus meningkat sehingga membutuhkan suatu sistem yang dapat melakukan pekerjaan tersebut dengan baik. Kriteria atau indikator suatu judul produk yang baik pada platform e-commerce di Indonesia belum pernah didefinisikan sebelumnya sehingga penelitian ini mengajukan empat kriteria yang dapat menjadi parameter kualitas suatu judul produk, yaitu consistency, conciseness, discoverability, dan clarity. Selain itu, penelitian ini juga mengajukan sebuah pendekatan untuk melakukan normalisasi teks pada judul produk e-commerce, yakni dengan pendekatan pipeline yang terdiri atas empat tahapan, yaitu chunking, language identification, promotion words identification, dan normalization. Model yang digunakan pada modul chunking, language identification, dan promotion words identification adalah model Conditional Random Field. Evaluasi dilakukan terpisah pada setiap modul dan dilakukan secara integrasi pada pipeline. Pada setiap modul, pengujian yang dilakukan adalah evaluasi kontribusi setiap fitur terhadap kualitas prediksi, menghasilkan suatu kesimpulan bahwa terdapat beberapa potensi kemungkinan, yaitu fitur yang berkontribusi positif atau negatif terhadap seluruh metrik, atau fitur dapat berkontribusi positif pada metrik tertentu, namun berkontribusi negatif pada metrik lainnya. Pengujian pada pipeline dilakukan dengan memasukkan judul produk ke seluruh modul mengikuti alur pemodelan dengan dua buah pengaturan evaluasi, menghasilkan akurasi terbaik sebesar 49,14% untuk nilai WER dan 82,61% untuk nilai BLEU. Berdasarkan seluruh hasil tersebut, performa Conditional Random Field dapat dikatakan bekerja dengan baik dalam melakukan identifikasi bahasa dan identifikasi promotion words, dan masih dapat dioptimisasi lagi pada tahapan chunking. Key words: Consistency, Judul Produk, E-Commerce, Conditional Random Field, Normalisasi Teks