Pre-prosesesing
1. Data Cleaning
Data cleaning (pembersihan data) adalah proses mengidentifikasi dan memperbaiki atau menghapus data yang tidak akurat, tidak lengkap, atau tidak relevan dari dataset. Proses ini penting untuk memastikan kualitas data yang baik sehingga analisis dan model prediktif yang dihasilkan lebih akurat dan dapat diandalkan. Langkah-langkah dalam data cleaning termasuk menghapus atau memperbaiki data yang hilang, menghapus duplikasi, mengubah tipe data, dan menangani outlier.
Langkah-Langkah Data Cleaning
Memeriksa Data yang Hilang:
Menghapus Duplikasi:
Mengubah Tipe Data:
Menangani Outlier:
Menghapus Kolom yang Tidak Relevan:
Pengumpulan data (data collection) adalah proses mengumpulkan informasi dari berbagai sumber untuk dianalisis. Data ini dapat berasal dari berbagai sumber seperti survei, database, API, web scraping, dan sebagainya. Berikut adalah langkah-langkah umum untuk pengumpulan data:
- Menentukan Sumber Data: Identifikasi sumber data yang relevan untuk masalah atau tujuan yang ingin diselesaikan.
- Mengumpulkan Data: Gunakan alat atau metode yang sesuai untuk mengumpulkan data dari sumber yang telah ditentukan.
- Menyimpan Data: Simpan data dalam format yang dapat digunakan untuk analisis lebih lanjut, seperti CSV, database, dll.
- Memastikan Kualitas Data: Pastikan data yang dikumpulkan berkualitas baik, lengkap, dan akurat.
Data reduction (pengurangan data) adalah proses mengurangi volume data dengan mempertahankan informasi yang relevan dan signifikan, namun dengan cara yang lebih efisien dan terkelola. Hal ini umumnya dilakukan untuk mengatasi masalah seperti kelebihan dimensi (dimensionality), mengurangi biaya penyimpanan, dan mempercepat waktu pemrosesan data.
Metode Data Reduction
Ada beberapa metode yang umum digunakan untuk melakukan data reduction:
Feature Selection (Seleksi Fitur):
- Memilih subset dari fitur (kolom) yang paling penting atau relevan untuk analisis atau model prediktif.
Feature Extraction (Ekstraksi Fitur):
- Mengubah data menjadi bentuk yang lebih kompak tetapi tetap mencakup informasi yang signifikan. Contohnya adalah Principal Component Analysis (PCA) untuk mengurangi dimensi data.
Sampling:
- Mengambil sampel data dari populasi yang lebih besar, yang mewakili keseluruhan populasi tanpa harus mengakses setiap data.










Komentar
Posting Komentar