Διαχείριση δεδομένων κατά την επιστήμη δεδομένων

"Γεια σας, Chichi. Με χαρά σας συναντάμε. Λοιπόν τι κάνεις?"

Με το καλύτερο χαμόγελό μου "Είμαι Διαχειριστής Δεδομένων".

Με ένα συγκεχυμένο χαμόγελο "Ermm ... τι σημαίνει αυτό;"

**********************

Δεδομένου ότι το Data έγινε πολύ δημοφιλές, μπορώ να στοιχηματίσετε (αν και δεν παίζω) ότι πρέπει να έχετε ακούσει για το ρόλο του Data Scientist. Αν δεν καταλαβαίνετε τι είναι, προσέξτε για τη θέση μου σε ορισμένα βασικά επαγγέλματα δεδομένων. Από την άλλη πλευρά, ο ρόλος του Data Manager είναι σπάνιος. Τι είναι πραγματικά αυτό;

Με μια ευρεία έννοια, η διαχείριση είναι ο συντονισμός των ανθρώπων ή / και των δραστηριοτήτων για την επίτευξη κάποιου στόχου (στόχων). Ομοίως, η διαχείριση δεδομένων είναι

"Ο συντονισμός των ανθρώπων, των διαδικασιών και των ροών δεδομένων προκειμένου να επιτευχθούν ορισμένοι στόχοι - οι οποίοι θα πρέπει να περιλαμβάνουν ή να παράγουν αξία από τα δεδομένα".

Μια συνοπτική ματιά σε αυτόν τον ορισμό μπορεί να ζωγραφίσει μια εικόνα της διαχείρισης δεδομένων ως μόνο διακυβέρνηση δεδομένων. Η αλήθεια είναι ότι η διαχείριση δεδομένων είναι πολλή διακυβέρνηση δεδομένων, αλλά πολλά άλλα. Το Κέντρο Διαχείρισης Δεδομένων της Γνώσης ορίζει τη διαχείριση δεδομένων ως

"Η ανάπτυξη, η εκτέλεση και η επίβλεψη σχεδίων, πολιτικών, προγραμμάτων και πρακτικών για την παροχή, τον έλεγχο, την προστασία και την ενίσχυση της αξίας των στοιχείων και πληροφοριών σε όλη τη διάρκεια ζωής τους".

Οι δραστηριότητες διαχείρισης δεδομένων κυμαίνονται από τις τεχνικές, όπως η μηχανική των δεδομένων έως τις μη τεχνικές, όπως η διαχείριση των δεδομένων. Το Σώμα Γνώσης της Διαχείρισης Δεδομένων καθορίζει 11 περιοχές γνώσης που καλύπτουν:

  • Αρχιτεκτονική & Μοντελοποίηση
  • Αποθήκευση & Λειτουργίες
  • Ασφάλεια
  • Βασικά δεδομένα, δεδομένα αναφοράς, διαχείριση εγγράφων, περιεχομένου και μεταδεδομένων
  • Ενσωμάτωση και διαλειτουργικότητα
  • Αποθήκευση & Επιχειρηματική Ευφυΐα
  • Ποιότητα
  • Διακυβέρνηση

Έτσι, "όπου είναι το Data Science;", μπορείτε να ρωτήσετε. (Αν δεν νιώθετε κάποιο χιούμορ, είναι στο κεφάλαιο 14 της 2ης έκδοσης του Σώματος της Γνώσης.)

Η Data Science είναι η ανάλυση και η απεικόνιση των Big Data. Είναι ένας συγκεκριμένος τεχνικός ρόλος που βασίζεται στην εφαρμογή διαφόρων τομέων γνώσης διαχείρισης δεδομένων.

Ας πάρουμε λίγο πιο πρακτικό.

Ένας Data Scientist ασχολείται πρωτίστως με το να δούμε τι είναι δυνατό με ένα συγκεκριμένο μεγάλο σύνολο δεδομένων. Ο Data Scientist πρέπει να βρει πληροφορίες και απαντήσεις για ερωτήσεις που δεν ήταν προκαθορισμένες (αντίθετα με τον αναλυτή που διερευνά πώς να απαντήσει σε μερικές γνωστές επιχειρηματικές ερωτήσεις με δεδομένα). Εν τω μεταξύ, ο Διαχειριστής Δεδομένων ασχολείται με το σύνολο των δεδομένων επιχείρησης / τομέα / τομέα, όχι μόνο με ένα συγκεκριμένο σύνολο δεδομένων. Ο διαχειριστής ασχολείται με τη διατήρηση της ακεραιότητας των δεδομένων καθ 'όλη τη διάρκεια του κύκλου ζωής του και εξασφαλίζει ότι μπορεί να έχει πρόσβαση σε αυτούς αποτελεσματικά από όσους το χρειάζονται. Αυτός ο ρόλος δεδομένων απαιτεί μια έντονη συνειδητοποίηση των επιχειρηματικών στόχων, καθώς και τι πρέπει να γίνει στην τεχνική πλευρά.

Και τώρα, ας πάρουμε λίγο πιο ρεαλιστικό!

Το δίλημμα των επαγγελματιών των δεδομένων είναι ότι οι γραμμές μεταξύ των ρόλων σβήνουν ακόμη περισσότερο, όμως η ανάγκη για βάθος σε συγκεκριμένες περιοχές είναι ταυτόχρονα σε ζήτηση. Εάν θέλετε να είστε πιο πολύτιμος Διαχειριστής Δεδομένων, θα πρέπει να έχετε περισσότερα από ένα βασικό επίπεδο εξειδίκευσης στη Data Science. Παρομοίως, ένας Data Scientist που δεν θα πρέπει να υπερηφανεύεται για το μέλλον θα πρέπει να υπερηφανεύεται μόνο για στατιστική και αλγοριθμική ικανότητα, αλλά θα πρέπει να σκεφτεί τα δεδομένα ως μια ζωντανή οντότητα που περνάει από έναν κύκλο και πρέπει να τη διαχειρίζεται.

********************

Τι πρέπει να κάνω;

Βοηθάω τους οργανισμούς να αποκομίζουν αξία αναπτύσσοντας, εφαρμόζοντας και επιβλέποντας στρατηγικές, πολιτικές, διαδικασίες και έργα που αποκτούν, ενισχύουν και χρησιμοποιούν δεδομένα και παρέχουν εύκολη μελλοντική πρόσβαση σε αυτά. Εάν τα δεδομένα συμβαίνουν να είναι Μεγάλα και υπάρχει ανάγκη για Machine Learning, δεν διστάζω να εκπαιδεύσω τα μοντέλα!