Postingan

Menampilkan postingan dari Maret, 2024

Pre-prosesesing

Gambar
1. Data Cleaning Data cleaning (pembersihan data) adalah proses mengidentifikasi dan memperbaiki atau menghapus data yang tidak akurat, tidak lengkap, atau tidak relevan dari dataset. Proses ini penting untuk memastikan kualitas data yang baik sehingga analisis dan model prediktif yang dihasilkan lebih akurat dan dapat diandalkan. Langkah-langkah dalam data cleaning termasuk menghapus atau memperbaiki data yang hilang, menghapus duplikasi, mengubah tipe data, dan menangani outlier. Langkah-Langkah Data Cleaning Memeriksa Data yang Hilang: Menghapus Duplikasi: Mengubah Tipe Data: Menangani Outlier: Menghapus Kolom yang Tidak Relevan: Contoh data cleaning : Result 2. Data Collection Pengumpulan data (data collection) adalah proses mengumpulkan informasi dari berbagai sumber untuk dianalisis. Data ini dapat berasal dari berbagai sumber seperti survei, database, API, web scraping, dan sebagainya. Berikut adalah langkah-langkah umum untuk pengumpulan data: Menentukan Sumber Data: Identifik...

DATA PREPARATION & DATA VISUALIZATION

Gambar
1. Data Preparation Data preparation adalah proses mengumpulkan, membersihkan, dan mengubah data mentah menjadi format yang sesuai untuk analisis atau pemodelan. Proses ini sangat penting karena data mentah sering kali mengandung kesalahan, inkonsistensi, atau informasi yang tidak relevan. Langkah-langkah umum dalam data preparation meliputi: Mengumpulkan Data: Mengimpor data dari berbagai sumber seperti database, file CSV, API, dll. Membersihkan Data: Menghapus data duplikat, mengisi nilai yang hilang, dan menangani outlier. Mengubah Data: Mengonversi data ke format yang sesuai, misalnya mengubah tipe data, melakukan normalisasi, atau melakukan encoding pada variabel kategorikal. Feature Engineering: Membuat fitur baru yang lebih relevan untuk analisis atau pemodelan dari fitur yang sudah ada. contoh data preparation : Result : 2. Data Visualization Data visualization adalah proses penyajian data dalam bentuk grafik atau gambar untuk memudahkan pemahaman informasi yang ada dalam d...

CCC (COMPUTATIONAL, COGNITIVE, AND COMMUNICATION)

 CCC (Computational, Cognitive, and Communication) adalah kerangka kerja yang digunakan dalam pemrosesan informasi dan analisis data. Ini menggambarkan tiga aspek penting yang terlibat dalam pemahaman dan penggunaan informasi. Berikut penjelasan singkat tentang masing-masing aspek: 1. Computational (Komputasional) :    - Merujuk pada aspek teknis dari pemrosesan informasi.    - Ini berkaitan dengan kemampuan untuk mengumpulkan, menyimpan, mengelola, dan menganalisis data menggunakan teknologi dan perangkat lunak komputer.    - Komputasi melibatkan penggunaan algoritma, pemrograman, pemrosesan paralel, dan teknik komputasi lainnya untuk mengolah data secara efisien. 2. Cognitive (Kognitif):    - Mengacu pada aspek mental dari pemrosesan informasi.    - Ini berfokus pada pemahaman manusia terhadap informasi, termasuk bagaimana manusia mempersepsikan, memahami, dan membuat keputusan berdasarkan informasi yang diterima.    - K...

SEMMA (SAMPLE, EXPLORE, MODIFY, MODEL, ASSESS)

 SEMMA adalah singkatan dari Sample, Explore, Modify, Model, dan Assess. Ini adalah kerangka kerja yang digunakan dalam analisis data dan data mining. Berikut adalah penjelasan singkat tentang setiap tahapan dalam SEMMA: 1. Sample (Sampel) :    - Tahap ini melibatkan pemilihan sampel representatif dari data yang tersedia.    - Sampel diambil dari populasi data untuk analisis lebih lanjut.    - Sampel yang tepat penting untuk memastikan bahwa hasil analisis mencerminkan populasi secara keseluruhan. 2. Explore (Eksplorasi) :    - Setelah sampel dipilih, data dieksplorasi untuk memahami karakteristiknya.    - Analisis eksplorasi termasuk statistik deskriptif, visualisasi data, dan pemahaman awal tentang pola dan hubungan di dalamnya.    - Eksplorasi membantu mengidentifikasi tren, outlier, dan pola menarik lainnya dalam data. 3. Modify (Modifikasi) :    - Pada tahap ini, data dimodifikasi atau dibersihkan untuk meni...

CRISP-DM ( CROSS-INDUSTRY STANDARD PROCESS FOR DATA MINING)

 CRISP-DM, atau Cross-Industry Standard Process for Data Mining, adalah kerangka kerja standar yang digunakan secara luas dalam industri untuk mengelola proyek data mining. Kerangka kerja ini dirancang untuk memberikan pendekatan yang sistematis dalam mengatasi proyek data mining dari awal hingga akhir. Berikut adalah penjelasan singkat tentang setiap tahap dalam CRISP-DM: 1. Pemahaman Masalah Bisnis (Business Understanding) :    - Identifikasi tujuan bisnis yang ingin dicapai melalui proyek data mining.    - Pahami kebutuhan bisnis dan tantangan yang dihadapi.    - Tentukan kriteria keberhasilan proyek. 2. Pemahaman Data (Data Understanding) :    - Kumpulkan data yang diperlukan untuk analisis.    - Evaluasi data untuk memahami karakteristiknya, termasuk kualitas, struktur, dan relevansi.    - Identifikasi potensi masalah atau kekurangan dalam data. 3. Persiapan Data (Data Preparation) :    - Bersihkan data dari...

PROSES ATAU TAHAPAN DATA MINING

 Proses atau tahapan dalam data mining adalah serangkaian langkah atau aktivitas yang dilakukan untuk menggali pengetahuan atau pola yang berguna dari data. Tahapan-tahapan ini membentuk kerangka kerja yang sistematis untuk memastikan bahwa proses analisis data berjalan efisien dan efektif. Berikut adalah beberapa tahapan umum dalam proses data mining: 1. Pemahaman Masalah Bisnis (Business Understanding):    - Identifikasi tujuan bisnis atau masalah yang ingin diselesaikan.    - Menentukan kriteria keberhasilan proyek dan memahami kebutuhan pengguna akhir. 2. Pemahaman Data (Data Understanding):    - Pengumpulan data yang relevan untuk analisis.    - Pemahaman terhadap karakteristik, kualitas, dan struktur data.    - Evaluasi kecocokan data dengan tujuan bisnis. 3. Persiapan Data (Data Preparation):    - Pembersihan data (data cleansing) untuk mengatasi nilai yang hilang, outliers, atau noise.    - Integrasi data...