Διαφορά μεταξύ της Επιστήμης Δεδομένων, των Καλύτερων Εφαρμογών Εφαρμογών Δεδομένων, της AI, ML και DL και της τεχνολογίας στοίβα!

Τι γίνεται με τα δεδομένα;

Η Data Science είναι ένας πολυεπιστημονικός συνδυασμός σύγκρισης δεδομένων, ανάπτυξης αλγορίθμων και τεχνολογίας για την επίλυση αναλυτικά πολύπλοκων προβλημάτων.

Ο πυρήνας των δεδομένων. Ακατέργαστα δεδομένα αποθηκευμένα και αποθηκευμένα σε μια επιχειρησιακή βάση δεδομένων. Υπάρχουν πολλά που πρέπει να αντληθούν από την εξόρυξη. Προηγμένες ευκαιρίες που δημιουργούμε με αυτό. Η επιστήμη των πληροφοριών είναι τελικά ως προς τη χρήση αυτών των δεδομένων με έναν δημιουργικό τρόπο για τη δημιουργία επιχειρηματικής αξίας.

Η εύρεση δεδομένων Insight σε μια βάση δεδομένων είναι μια στρατηγική επιχειρηματική απόφαση που μπορεί να γίνει μόνο μετά από μια ποσοτική ανάλυση των δεδομένων που θα σας βοηθήσει να βρείτε την αξία της επιχείρησης. Αναζητήστε δεδομένα από ένα προϊόν δεδομένων χρησιμοποιώντας αλγοριθμικές λύσεις στην παραγωγή.

Βέλτιστες πρακτικές στην Πληροφορική:

Κατανόηση της κατάστασης χρήσης και του επιχειρηματικού σκοπού:

Αυτό είναι το πιο σημαντικό βήμα για όλα τα έργα επιστήμης των δεδομένων, δηλαδή τον καθορισμό του επιχειρησιακού στόχου που πρέπει να επιτύχει η επιστήμη των δεδομένων. Αυτό απαιτεί σαφή κατανόηση της επιχείρησης και του αναμενόμενου αποτελέσματος του νέου σχεδίου. Αυτό θα βοηθήσει τον Data Scientist να προετοιμαστεί για τις προκλήσεις που αντιμετωπίζει και να ενσωματώσει τις σωστές μεθόδους και τις πληροφορίες που χρειάζονται για να κατανοήσει το τέλος της επιχείρησης.

Προσδιορίστε:

Περίπου το 60-70% του χρόνου της μελέτης Data Science δαπανάται για την προετοιμασία και τη διύλιση δεδομένων. Τα δεδομένα έρχονται σε διάφορες μορφές που είναι ευρέως δομημένες, αδόμητες και ταξινομούνται ως ημι-δομημένες. Πρέπει να προσδιορίσουμε τις πληροφορίες που χρειαζόμαστε ή να εντοπίσουμε τις ανωμαλίες στα δεδομένα και να καταλάβουμε ότι οι πληροφορίες που χρειαζόμαστε είναι αρκετές για να λάβουμε χρήσιμες πληροφορίες για επιχειρηματικούς σκοπούς.

Εγκεφαλική καταιγίδα:

Τα πιο επιτυχημένα έργα Data Science έχουν ένα κοινό πράγμα - δηλαδή, μεταξύ των μελών της ομάδας. Η ομάδα αποτελείται από ανθρώπους από διαφορετικό υπόβαθρο, οι οποίοι παρουσιάζουν διαφορετικές και ως επί το πλείστον μοναδικές προκλήσεις στον τομέα της μοντελοποίησης ή της προετοιμασίας / επεξεργασίας δεδομένων ή στον τομέα ενός ατόμου. Είναι πάντα χρήσιμο να πραγματοποιηθεί μια περίοδος ανταλλαγής ιδεών μεταξύ των μελών της ομάδας για να αποφασιστεί.

Οι πληροφορίες είναι:

Ορίστε την προσδοκία των αποτελεσμάτων, δηλαδή να κάνετε τα αποτελέσματα δημόσια. Αυτό μπορεί να είναι αντίθετο με τις προσδοκίες των επιχειρηματικών στόχων, αλλά είναι πάντα καλό να ενημερώνετε τους επιχειρηματικούς εταίρους σας για τις ιδέες / ευρήματα και μπορεί να ανοίξει περισσότερες προοπτικές από ό, τι περιμένουν οι επιχειρηματίες.

Εύρεση των απαραίτητων εργαλείων:

Ανάλογα με τον σκοπό της επιχείρησής σας, εάν πρόκειται για υπολογιστική εργασία, η κατανόηση των δεδομένων εικόνας, βίντεο ή ήχου απαιτεί συστήματα υψηλής απόδοσης που χρησιμοποιούν μονάδες GPU και παρέχει το σωστό σύνολο εργαλείων για την ταχύτητα της δημιουργίας δεδομένων. επηρεάζει επίσης τη ρύθμιση.

Αναφορές & Ενέργειες:

Μόλις βρείτε μεγάλες πληροφορίες από κατεστραμμένα δεδομένα, η αξία όλων των εννοιών θα είναι μικρότερη, αν δεν μετατραπεί, στην απεικόνιση της επιχειρηματικής αξίας. Όσο καλύτερη είναι η απεικόνιση της επιχειρηματικής αξίας, τόσο καλύτερα είναι το σχέδιο δράσης για επιχειρηματίες που μπορούν να προσαρμόσουν την επιχείρησή τους με βάση τα οπτικοποιημένα δεδομένα και να προσαρμοστούν στις επιχειρηματικές ανάγκες του πελάτη που προσπαθούν να προσελκύσουν. Η κατανόηση είναι ο ακατέργαστος άνθρακας που μετατρέπεται σε λειαντικό διαμάντι μετά από τεχνικές απεικόνισης.

Ελέγχετε και ελέγχετε τακτικά:

Το μοντέλο βασίζεται σε ένα σύνολο διαφορετικών παραμέτρων, αλλά με διαφορετικά δεδομένα με την πάροδο του χρόνου. Εάν χρησιμοποιήσουμε το ίδιο μοντέλο σε σχέση με τα νέα δεδομένα που έχουν ληφθεί στο ίδιο χρονικό πλαίσιο, αυτό το μοντέλο μπορεί να καταρρεύσει από την άποψη της διορατικότητας που παρέχει. Συνιστάται πάντοτε να δοκιμάζετε το μοντέλο σε νέα δεδομένα και να ελέγχετε / επικυρώνετε περιοδικά τα αποτελέσματα και να δοκιμάζετε το μοντέλο για να αλλάξετε το μοντέλο όταν επιδεινώνεται η απόδοση του μοντέλου.

Διαφορά μεταξύ AI, ML και DL:

Πώς ξεκίνησε η AI;

Ο Alan Turing είναι μαθηματικός, κρυπτογράφος, κρυπτογραφημένος μηχανισμός Enigma στον Β Παγκόσμιο Πόλεμο, λογοτέχνης, φιλόσοφος, συνάδελφος του Cambridge (22) και δρομέας μεγάλων αποστάσεων. Έθεσε επίσης τα θεμέλια για τον σύγχρονο υπολογιστή και την τεχνητή νοημοσύνη.

Το έργο του ήταν ευρέως γνωστό στη δεκαετία του 1950. Αυτό οδήγησε στην ιδέα του «Γενικού ΑΙ»: Μπορούν οι υπολογιστές να έχουν τα ίδια χαρακτηριστικά του ανθρώπινου νου, συμπεριλαμβανομένης της σκέψης, της αλληλεπίδρασης και της συλλογιστικής; Η απάντηση ήταν μια συναρπαστική "όχι" (τουλάχιστον όχι ακόμα).

Επομένως, έπρεπε να επικεντρωθούμε σε τεχνολογίες όπως το "Narrow AI" - να παίζουμε σκάκι, να προτείνουμε την επόμενη τηλεοπτική σας εκπομπή Netflix και να εντοπίζουμε ανεπιθύμητα μηνύματα ηλεκτρονικού ταχυδρομείου. Όλα αυτά δείχνουν μέρη του ανθρώπινου νου. Αλλά πώς λειτουργούν; Αυτό είναι η μηχανική μάθηση.

AI χρειάζεται ML:

Ένα υψηλό ML συνήθως σημαίνει αλγόριθμους ή μοντέλα

Δεδομένα: Λάβετε πολλές (καθαρισμένες) πληροφορίες με χαρακτηριστικά προσωπικής ταυτοποίησης (όπως "ηλικία", "ύψος", "FICO", "αυτό το spam email;" κλπ.)

Εκπαίδευση: Χρησιμοποιήστε τις πληροφορίες για να "προσαρμόσετε" τη σχετική σημασία κάθε χαρακτηριστικού.

· Πληροφορίες: να προβλέψουμε κάτι νέο.

Παραδείγματα προβλέψεων μηνυμάτων ηλεκτρονικού ταχυδρομείου ανεπιθύμητων μηνυμάτων: Το Google Gmail συλλέγει πολλές πληροφορίες σχετικά με το περιεχόμενο των ανεπιθύμητων μηνυμάτων και τι δεν είναι (γνωστές ως "πληροφορίες ετικετών"). Ο αλγόριθμος προσδιορίζει στη συνέχεια τα κοινά χαρακτηριστικά των μηνυμάτων ανεπιθύμητης αλληλογραφίας και μη μηνυμάτων spam. Ο αλγόριθμος λειτουργεί στη συνέχεια σε άγνωστα δεδομένα (δηλ. Νέα μηνύματα ηλεκτρονικού ταχυδρομείου) για να προσδιορίσει εάν είναι ανεπιθύμητα.

Το ML απαιτεί πολλούς ανθρώπους να παρεμβαίνουν, όπως η παράδοση ενός φίλτρου ανεπιθύμητης αλληλογραφίας με το χέρι. Μη μηνύματα spam (για παράδειγμα, αναζήτηση λέξεων "Western Union" / αναζήτηση συνδέσμων σε ύποπτους ιστότοπους, κλπ.). Επίσης, δεν είναι πολύ σαφές σε αυτές τις εικόνες.

ML <= {NLP, DL}:

Η βαθιά μάθηση (η οποία περιλαμβάνει επαναλαμβανόμενα νευρωνικά δίκτυα, συνελικτικά νευρωνικά δίκτυα κ.λπ.) είναι ένας τύπος προσέγγισης Machine Learning. Αυτή είναι μια επέκταση του νευρικού δικτύου. Η βαθιά εκμάθηση (π.χ. διαχωρισμός εικόνων αεροσκαφών από εικόνες σκυλιών) χρησιμοποιείται ευρέως για την απεικόνιση. Η βαθιά εκμάθηση μπορεί επίσης να χρησιμοποιηθεί για τα καθήκοντα NLP. Πρέπει να σημειωθεί ότι οι αλγόριθμοι βαθιάς μάθησης δεν σχετίζονται μόνο με το κείμενο.

Τα ML και NLP έχουν αντικρουόμενα πράγματα, επειδή η μηχανική μάθηση χρησιμοποιείται συχνά για τα καθήκοντα NLP. Το LDA (Latent Dirichlet Allocation, ένας αλγόριθμος μοντελοποίησης θέματος) είναι ένα τέτοιο παράδειγμα μηχανογραφικής μάθησης που δεν ελέγχεται.

Ωστόσο, το NLP έχει μια ισχυρή συνιστώσα της γλωσσολογίας (που δεν φαίνεται στην εικόνα), η οποία απαιτεί κατανόηση του τρόπου με τον οποίο χρησιμοποιούμε τη γλώσσα μας. Η τέχνη της κατανόησης της γλώσσας περιλαμβάνει το χιούμορ, την ψεύτικη κατανόηση, τη συνειδητή υποκρισία και ούτω καθεξής. Εάν καταλαβαίνουμε τι σημαίνει να βιάζεστε (ναι, αυτό είναι σωστό!), Μπορούμε να το κωδικοποιήσουμε αυτόματα σε έναν αλγόριθμο μηχανικής μάθησης για να βρούμε παρόμοια σχέδια για εμάς. στατιστική.

Για να ολοκληρώσετε κάποια NLP, πρέπει να κατανοήσετε τη γλώσσα. Η γλώσσα είναι διαφορετική για διαφορετικά είδη (επιστημονικά άρθρα, blogs, twitter έχουν διαφορετικό στυλ γραφής), οπότε υπάρχει μια ισχυρή συνιστώσα να εξετάζετε τα δεδομένα με μη αυτόματο τρόπο για να σας βοηθήσουμε να αποκτήσετε αυτό που θέλετε να πείτε. το άτομο το αναλύει. Μόλις προσδιορίσετε τι κάνετε ως ανθρώπινο σύστημα σκέψης (αγνοώντας τις ετικέτες hash, χρησιμοποιώντας χαμογελαστά πρόσωπα για να εκφράσετε τη διάθεσή σας), μπορείτε να χρησιμοποιήσετε μια προσέγγιση ML για αυτοματοποίηση και κλιμάκωση αυτής της διαδικασίας.

Τεχνολογία και εργαλεία:

Η εφαρμογή της μηχανολογίας σε διάφορους υπολογιστικούς τομείς αυξάνεται ραγδαία, όχι μόνο λόγω του φθηνού και ισχυρού υλικού, αλλά και λόγω του ελεύθερου και ανοιχτού λογισμικού που επιτρέπει την εύκολη εφαρμογή της μηχανικής μάθησης. Οι μηχανικοί και οι ερευνητές, ως μέρος της ομάδας μηχανικών λογισμικού, δημιουργούν συνεχώς εξελιγμένα προϊόντα, συνδυάζοντας έξυπνους αλγορίθμους με το τελικό προϊόν για να κάνουν το λογισμικό πιο αξιόπιστο, πιο γρήγορο και απρόσκοπτο. Υπάρχει ένα ευρύ φάσμα συστημάτων ανοιχτού κώδικα μάθησης μηχανών που επιτρέπουν στους μηχανικούς να κατασκευάσουν, να εφαρμόσουν και να διατηρήσουν μηχανικά συστήματα μάθησης, να δημιουργήσουν νέα έργα και να δημιουργήσουν νέα αποτελεσματικά συστήματα μηχανικής μάθησης.

Ας δούμε μερικά από τα καλύτερα πλαίσια μάθησης λογισμικού ανοικτού κώδικα.

Apache Spark Mlib:

Πρόκειται για μια βιβλιοθήκη μηχανογραφικής μάθησης, η κύρια αποστολή της οποίας είναι να καταστήσει την πρακτική μηχανική μάθηση περισσότερο προσβάσιμη και εύκολη. Περιλαμβάνει γενικούς αλγόριθμους και βοηθητικά προγράμματα μάθησης, συμπεριλαμβανομένης της ταξινόμησης, της παλινδρόμησης, της συσσώρευσης, του συ-φιλτραρίσματος, της μείωσης της επεκτασιμότητας και των εκκινητών βελτιστοποίησης χαμηλού επιπέδου και των υψηλών επιπέδων API σωληνώσεων.

Το Spark MLlib θεωρείται πρωτίστως ως κατανεμημένη βάση δεδομένων μηχανικής μάθησης πάνω από το Spark Core, το οποίο είναι εννέα φορές πιο γρήγορο από το λογισμικό που βασίζεται στο δίσκο που χρησιμοποιεί το Apache Mahout, κυρίως λόγω της αρχιτεκτονικής μνήμης κατανεμημένης στο πυρήνα Spark.

TensorFlow:

Το TensorFlow είναι μια βιβλιοθήκη λογισμικού ανοιχτού κώδικα για μηχανική μάθηση που αναπτύχθηκε από την Ομάδα Εγκεφάλου του Google για την εκτέλεση διαφόρων γνωστικών και γλωσσικών καθηκόντων κατανόησης, καθώς και μηχανικής μάθησης και σύνθετης έρευνας σε βαθιά νευρωνικά δίκτυα. . Αυτό είναι το σύστημα εκμάθησης μηχανών δεύτερης γενιάς του Google Brain και μπορεί να λειτουργήσει σε πολλούς επεξεργαστές και μονάδες GPU. Το TensorFlow ενσωματώνεται σε διάφορα προϊόντα της Google, όπως η αναγνώριση ομιλίας, το Gmail, οι φωτογραφίες της Google και ακόμη και η αναζήτηση.

Accord.NET

Συμφωνώ.

Εκμάθηση μηχανών του Αμαζονίου (AML):

Η Amazon Machine Learning (AML) είναι μια υπηρεσία εκμάθησης μηχανών για προγραμματιστές. Έχει πολλά οπτικά εργαλεία και οδηγούς για να δημιουργήσει εξαιρετικά εξελιγμένα και ευφυή μοντέλα μηχανικής μάθησης χωρίς την ανάγκη εκμάθησης σύνθετων ML αλγορίθμων και τεχνολογιών. Μέσω του AML, η πρόβλεψη λογισμικού μπορεί να επιτευχθεί χρησιμοποιώντας ένα απλό API χωρίς τη χρήση ειδικού κώδικα πρόβλεψης ή σύνθετης υποδομής.

Keras:

Ο Keras είναι μια βιβλιοθήκη ανοιχτού κώδικα νευρωνικών δικτύων γραμμένη στην Python. Μπορεί να τρέξει πάνω από το TensorFlow, το Microsoft Cognitive Toolkit, το Theano ή το MXNet. Ο Keras περιλαμβάνει πολλά κοινά χρησιμοποιούμενα μπλοκ νευρικών δικτύων, όπως στρώματα, στόχοι, λειτουργίες ενεργοποίησης, βελτιστοποιήσεις και εργαλεία που διευκολύνουν τη διαχείριση εικόνας και κειμένου.

Υπάρχουν πολλές άλλες βιβλιοθήκες για την εκμάθηση μηχανών και τη βαθιά εκμάθηση, ανάλογα με το ποια είναι η επιλογή.

Μάθηση για μάθηση:

Υπάρχουν πολλές πηγές για τη μάθηση της επιστήμης των δεδομένων, αλλά η βασική προϋπόθεση είναι να μάθουν γλώσσα προγραμματισμού για να μάθουν πώς να χρησιμοποιούν τα δεδομένα.

Γλώσσα προγραμματισμού: Python, R, Java, SAS, MATLAB, κλπ.

Για αρχάριους:

Συνιστάται η εκκίνηση των Udemy, Coursera, Edx, κ.λπ. από την Machine Learning.

Δεδομένου ότι έχω παρακολουθήσει μαθήματα από όλους αυτούς τους πόρους, συνιστώ, αν κάποιος δεν ενδιαφέρεται για μάθημα μαθήματος και ενδιαφέρεται για μηχανική μάθηση, μπορώ να παρακολουθήσω μαθήματα στο Machine Learning AZ ™: Handy-On Python. Το βιβλίο & R In Data Science εξηγεί πώς να κωδικοποιήσετε την Python για βασικούς αλγορίθμους μάθησης για όλους τους κύριους αλγορίθμους.

Αν κάποιος θέλει να μάθει τις μαθηματικές έννοιες πίσω από τους αλγορίθμους, προτείνω τη σειρά μαθημάτων Coursera "Εισαγωγή στη μηχανική μάθηση". Επειδή ο συγγραφέας έβαλε μεγάλη προσπάθεια να εξηγήσει τα μαθηματικά πίσω από τον αλγόριθμο "Andrew Ng".

Για την επιστημονική έρευνα:

Για τις έννοιες της Advance Machine Learning / Deep Learning, ακολουθήστε τα μαθήματα και τα μαθήματα για να μάθετε τις βασικές γνώσεις της Machine Learning και Deep Learning.

Είναι απαραίτητο να ξεκινήσει μια εις βάθος μελέτη της σε βάθος εκμάθησης της Coursera, η οποία περιλαμβάνει εργασίες για χρήση σε πραγματικό χρόνο. Αν ένας υποψήφιος μπορεί να ολοκληρώσει αυτό το μάθημα και όλες τις περιπτώσεις χρήσης χωρίς εξωτερικούς πόρους, θα είναι σε θέση να ολοκληρώσει πολλά καθήκοντα στην βαθιά μάθηση.

Το Udemy έχει πολλά μαθήματα για ένα ευρύ φάσμα περιπτώσεων χρήσης εκτός από ένα συγκεκριμένο θέμα.

Παίρνει πολλή ανάγνωση για να κυριαρχήσει το Data Science Practices και να βρει τους ίδιους συνδέσμους:

Μηχανολόγων Μηχανικών - https://web.stanford.edu/~hastie/Papers/ESLII.pdf

Για σε βάθος μελέτη - https://github.com/janishar/mit-deep-learning-book-pdf

Coursera - https://www.coursera.org/

Udemy - https://www.udemy.com/

Oxford - https://github.com/oxford-cs-deepnlp-2017/lectures

Ανάλυση Vidhya - https://www.analyticsvidhya.com/

MachineLearningMastery - https://machinelearningmastery.com/

Σημείωση:

Το περιεχόμενο προέρχεται από διάφορα blogs και άρθρα Wikipedia, μερικά από το παλιό μου ιστολόγιο. Συνδυασμένη εδώ για να πάρετε μια επισκόπηση των δεδομένων.