2. Where
Data ada di banyak tempat. Dokumentasi produk internal diedit di perangkat PC lokal dan dapat disimpan di server file atau secara online di cloud. Informasi pelanggan biasanya disimpan dalam database on-premise atau di cloud. Video dan audio sering kali dihasilkan di edge dan harus dikumpulkan melalui jaringan. Sebuah sistem harus diatur dengan benar untuk mengumpulkan data di setiap lokasi.
3. Who
Kepemilikan berbagai data perlu didefinisikan dengan jelas. Dengan cara ini, pemilik bisnis dan pemangku kepentingan dapat bekerja sama dengan pemiliknya untuk mengelola dan melindungi data mereka dengan lebih baik, dan memastikan penggunaan data yang konsisten.
4. What
Data tersedia dalam berbagai bentuk dan format. Dokumen produk biasanya disimpan dalam format file kantor, seperti Word dan Excel. Sedangkan informasi pelanggan sering disimpan sebagai data terstruktur dalam database. File media, yang tidak terstruktur, termasuk video dan audio. Dengan memahami jenis data yang ditangani, organisasi dapat melakukan pra-pemrosesan dan menganalisisnya secara efektif.
5. Why
Ketika memanfaatkan data untuk AI, masalah yang harus diselesaikan perlu ditentukan sejak awal, agar organisasi dapat memfokuskan perhatian pada data yang paling relevan. Target numerik yang terukur juga harus diidentifikasi dan digunakan untuk memantau kemajuan dari waktu ke waktu.
6. How
Metode yang tepat untuk pengumpulan data harus mempertimbangkan sifat dan lokasi data, misalnya, pengumpulan data di server file menggunakan protokol seperti NFS atau CIFS. Pengumpulan data dari database menggunakan akun yang tepat dan protokol khusus database. Dan untuk pengumpulan data real-time, kemampuan untuk bekerja dengan perangkat edge sangat penting.
Meningkatkan Kecepatan Penerapan
Setelah mengatur data Anda, langkah selanjutnya adalah mempercepat penerapan sistem Gen AI Anda. MLOps adalah kunci untuk menyederhanakan alur kerja dan mempercepat peralihan dari pengembangan AI ke produksi. Pada tahap ini, penting untuk sepenuhnya memanfaatkan infrastruktur penyimpanan organisasi Anda, terutama untuk MLOps dan operasi data termasuk jalur data dan DataOps.