Wie man in 12 Schritten wie ein Data Scientist denkt

Einführung

Im Moment erhalten Datenwissenschaftler viel Aufmerksamkeit, und infolgedessen vermehren sich Bücher über Datenwissenschaft. Bei der Suche nach guten Büchern über den Raum scheint es mir, dass sich die Mehrheit von ihnen mehr auf die Werkzeuge und Techniken konzentriert als auf die nuancierte Problemlösung des datenwissenschaftlichen Prozesses. Bis ich Brian Godseys "Think Like a Data Scientist" begegnet bin, der versucht, angehende Datenwissenschaftler als Pfad mit vielen Gabeln und potenziell unbekannten Zielen durch den Prozess zu führen. Es wird erläutert, welche Tools am nützlichsten sind und warum. Das Hauptziel besteht jedoch darin, den Pfad - den datenwissenschaftlichen Prozess - intelligent, effizient und erfolgreich zu steuern, um praktische Lösungen für datenorientierte Probleme zu finden.

Lebenszyklus eines datenwissenschaftlichen Projekts

In dem Buch schlägt Brian vor, dass ein datenwissenschaftliches Projekt aus drei Phasen besteht:

  • Die erste Phase ist die Vorbereitung - Zeit und Mühe beim Sammeln von Informationen zu Beginn eines Projekts können später große Kopfschmerzen ersparen.
  • In der zweiten Phase wird das Produkt von der Planung bis zur Ausführung unter Verwendung der in der Vorbereitungsphase erworbenen Kenntnisse und aller Tools erstellt, die Statistiken und Software bereitstellen können.
  • Die dritte und letzte Phase ist abgeschlossen - Bereitstellung des Produkts, Einholen von Feedback, Vornehmen von Überarbeitungen, Support des Produkts und Abschluss des Projekts.

Wie Sie auf dem Bild sehen können, umfassen diese 3 Phasen 12 verschiedene Aufgaben. Ich möchte diesen Beitrag verwenden, um diese 12 Schritte zusammenzufassen, da ich glaube, dass angehende Datenwissenschaftler davon profitieren können, wenn sie mit ihnen vertraut sind.

Phase I - Vorbereitung

Der Prozess der Datenwissenschaft beginnt mit der Vorbereitung. Sie müssen feststellen, was Sie wissen, was Sie haben, was Sie bekommen können, wo Sie sind und wo Sie gerne sein würden. Dieser letzte ist von äußerster Wichtigkeit; Ein datenwissenschaftliches Projekt muss einen Zweck und entsprechende Ziele haben. Nur wenn Sie genau definierte Ziele haben, können Sie beginnen, die verfügbaren Ressourcen und alle Möglichkeiten zu untersuchen, um diese Ziele zu erreichen.

1 - Ziele setzen

In einem datenwissenschaftlichen Projekt sollten, wie in vielen anderen Bereichen, die Hauptziele zu Beginn des Projekts festgelegt werden. Alles, was Sie nach dem Festlegen von Zielen tun, besteht darin, Daten, Statistiken und Programme zu verwenden, um diese Ziele zu erreichen.

Zuallererst hat jedes datenwissenschaftliche Projekt einen Kunden. Manchmal ist der Kunde jemand, der Sie oder Ihr Unternehmen für die Ausführung des Projekts bezahlt - zum Beispiel ein Kunde oder eine Vertragsagentur. Im akademischen Bereich ist der Kunde möglicherweise ein Laborwissenschaftler, der Sie gebeten hat, ihre Daten zu analysieren. Manchmal sind Sie der Kunde, Ihr Chef oder ein anderer Kollege. Unabhängig davon, wer der Kunde ist, hat er gewisse Erwartungen an das, was er von Ihnen, dem Datenwissenschaftler, der das Projekt erhalten hat, erhalten kann.

Um solche Erwartungen zu verstehen, müssen Sie gute Fragen zu ihren Daten stellen. Das Stellen von Fragen, die zu informativen Antworten und anschließend zu verbesserten Ergebnissen führen, ist eine wichtige und differenzierte Herausforderung, die viel mehr Diskussion verdient, als sie normalerweise erhält. Gute Fragen sind in ihren Annahmen konkret und gute Antworten sind messbarer Erfolg ohne zu hohe Kosten. Die Beantwortung eines datenwissenschaftlichen Projekts sieht normalerweise in etwa so aus wie die nachstehende Formel oder das Rezept.

Obwohl manchmal eine der Zutaten - eine gute Frage, relevante Daten oder aufschlussreiche Analysen - einfacher zu erhalten ist als die anderen, sind alle drei entscheidend, um eine nützliche Antwort zu erhalten. Das Produkt einer alten Frage, Daten und Analyse ist nicht immer eine Antwort, geschweige denn eine nützliche. Es lohnt sich zu wiederholen, dass Sie in jedem Schritt eines Projekts überlegt und nachdenklich sein müssen, und die Elemente dieser Formel sind keine Ausnahmen. Wenn Sie beispielsweise eine gute Frage, aber irrelevante Daten haben, ist eine Antwort schwer zu finden.

Jetzt ist ein guter Zeitpunkt, um die Projektziele im Kontext der Fragen, Daten und Antworten zu bewerten, mit denen Sie voraussichtlich arbeiten werden. In der Regel werden anfängliche Ziele mit Blick auf einen Geschäftszweck festgelegt. Wenn Sie nicht geschäftlich tätig sind - beispielsweise in der Forschung -, besteht der Zweck in der Regel in der externen Verwendung der Ergebnisse, z. B. der Förderung wissenschaftlicher Kenntnisse auf einem bestimmten Gebiet oder der Bereitstellung eines Analysewerkzeugs für eine andere Person.

Obwohl Ziele außerhalb des eigentlichen Projektkontexts entstehen, sollte jedes Ziel einem pragmatischen Filter unterzogen werden, der auf datenwissenschaftlichen Erkenntnissen basiert. Dieser Filter enthält die folgenden Fragen: (1) Was ist möglich? (2) Was ist wertvoll? (3) Was ist effizient? Wenn Sie diesen Filter auf alle mutmaßlichen Ziele im Kontext der guten Fragen, möglichen Antworten, verfügbaren Daten und vorhergesehenen Hindernisse anwenden, können Sie zu einem soliden Satz von Projektzielen gelangen, die durchaus möglich, wertvoll und effizient zu erreichen sind.

2 - Erkunden von Daten

Der zweite Schritt der Vorbereitungsphase des Data-Science-Prozesses besteht darin, die verfügbaren Daten zu untersuchen. Die folgende Abbildung zeigt drei grundlegende Möglichkeiten, wie ein Datenwissenschaftler auf Daten zugreifen kann. Es könnte sich um eine Datei in einem Dateisystem handeln, und der Datenwissenschaftler könnte die Datei in sein bevorzugtes Analysetool einlesen. Die Daten können sich auch in einer Datenbank befinden, die sich ebenfalls in einem Dateisystem befindet. Um jedoch auf die Daten zugreifen zu können, muss der Datenwissenschaftler die Datenbankschnittstelle verwenden, eine Softwareschicht, mit deren Hilfe Daten gespeichert und extrahiert werden können. Schließlich könnten sich die Daten hinter einer Anwendungsprogrammierschnittstelle (API) befinden, die eine Softwareschicht zwischen dem Datenwissenschaftler und einem System darstellt, das möglicherweise völlig unbekannt oder fremd ist.

Machen Sie sich am besten mit einigen der Formen vertraut, die Daten annehmen können, und lernen Sie, wie diese Formen angezeigt und bearbeitet werden. Hier sind einige davon: Flat Files (CSV, TSV), HTML, XML, JSON, relationale Datenbanken, nicht relationale Datenbanken, APIs. Manchmal haben Sie keine Wahl, welches Format Sie wählen möchten. Die Daten kommen in einem bestimmten Format, und Sie müssen damit umgehen. Wenn Sie jedoch feststellen, dass dieses Format ineffizient, unhandlich oder unbeliebt ist, können Sie in der Regel einen sekundären Datenspeicher einrichten, der die Arbeit möglicherweise vereinfacht. Die Einrichtung der sekundären Daten ist jedoch mit zusätzlichen Kosten verbunden Geschäft. Für Anwendungen, bei denen die Zugriffseffizienz von entscheidender Bedeutung ist, können sich die Kosten lohnen. Für kleinere Projekte vielleicht nicht. Sie müssen diese Brücke überqueren, wenn Sie dort ankommen.

Nachdem Sie mit gängigen Datenformen vertraut sind, müssen Sie nach ihnen suchen. Hier sind die Ansätze, die Sie in Betracht ziehen sollten: Google-Suche, Kombination verschiedener Datenquellen, Durchforsten des Webs oder Messen / Sammeln dieser Daten selbst. Persönlich bin ich ein großer Fan von Web Scraping. Zwei wichtige Dinge, die ein Web-Scraper tun muss, sind das programmgesteuerte Aufrufen vieler URLs und das Erfassen der richtigen Informationen von den Seiten. Wenn Sie mehr über Ihr Freundesnetzwerk auf Facebook erfahren möchten, können Sie theoretisch ein Skript schreiben, das die Facebook-Profile aller Ihrer Freunde aufruft, die Profilseiten speichert und dann die Seiten analysiert, um Listen ihrer Freunde abzurufen und die der Freunde aufzurufen. Profile und so weiter. Dies funktioniert nur für Personen, die Ihnen erlaubt haben, ihre Profile und Freundeslisten anzuzeigen, und nicht für private Profile.

3 - Verwirren von Daten

Data Wrangling, der dritte Schritt, ist der Prozess, bei dem Daten und Informationen in schwierigen, unstrukturierten oder auf andere Weise willkürlichen Formaten erfasst und in etwas konvertiert werden, das herkömmliche Software verwenden kann. Wie viele Aspekte der Datenwissenschaft handelt es sich nicht so sehr um einen Prozess, sondern um eine Sammlung von Strategien und Techniken, die im Rahmen einer Gesamtprojektstrategie angewendet werden können. Wrangling ist keine Aufgabe mit Schritten, die genau vorher vorgeschrieben werden können. Jeder Fall ist anders und erfordert eine Problemlösung, um gute Ergebnisse zu erzielen.

Gutes Ringen setzt eine solide Planung voraus, bevor man ringt und dann errät und prüft, was funktioniert. Wenn Sie etwas mehr Zeit für das Daten-Wrangling aufwenden, können Sie später eine Menge Schmerzen sparen. Im Allgemeinen sollte die Wahl des Data Wrangling-Plans stark von allen Informationen abhängen, die Sie bei der ersten Untersuchung der Daten entdecken. Wenn Sie sich vorstellen können, die Daten zu analysieren oder auf eine hypothetische Weise darauf zuzugreifen - ich versuche, die Rolle eines Wrangling-Skripts zu spielen -, können Sie ein Skript schreiben, das dasselbe tut. Stellen Sie sich vor, Sie sind ein Wrangling-Skript, stellen Sie sich vor, was mit Ihren Daten passieren könnte, und schreiben Sie das Skript später. Daten-Wrangling ist ein so ungewisser Prozess, dass es immer am besten ist, ein wenig zu erkunden und einen Wrangling-Plan zu erstellen, der auf dem basiert, was Sie gesehen haben.

Es gibt keinen Weg oder ein Werkzeug, um das Ziel der Bereinigung unordentlicher Daten zu erreichen. Wenn Ihnen jemand mitteilt, dass er ein Tool hat, mit dem alle Daten verarbeitet werden können, ist dieses Tool entweder eine Programmiersprache oder er lügt. Viele Tools eignen sich für viele Aufgaben, aber kein Tool kann beliebige Daten verarbeiten. Daten existieren in so vielen Formen und für so viele Zwecke, dass es wahrscheinlich keine Anwendung geben wird, die in der Lage ist, beliebige Daten mit einem beliebigen Zweck zu lesen. Einfach ausgedrückt, ist Daten-Wrangling eine unsichere Sache, die unter bestimmten Umständen bestimmte Tools erfordert, um die Arbeit zu erledigen. Sie können versuchen, Dateiformatkonverter oder proprietäre Daten-Wrangler zu verwenden und ein Skript zum Wrangeln von Daten zu schreiben.

4 - Daten bewerten

Es kann verlockend sein, so schnell wie möglich mit der Entwicklung eines datenorientierten Produkts oder ausgefeilter statistischer Methoden zu beginnen, aber die Vorteile des Kennenlernens Ihrer Daten sind es wert, ein wenig Zeit und Mühe geopfert zu werden. Wenn Sie mehr über Ihre Daten wissen und sich darüber im Klaren sind und wissen, wie Sie sie analysieren können, treffen Sie in jedem Schritt Ihres Data-Science-Projekts fundiertere Entscheidungen und profitieren später von den Vorteilen. Ohne eine vorläufige Beurteilung (4. Schritt) können Probleme mit Ausreißern, Vorurteilen, Genauigkeit, Spezifität oder einer Reihe anderer inhärenter Aspekte der Daten auftreten. Um diese aufzudecken und die Daten besser kennenzulernen, besteht der erste Schritt der Post-Wrangling-Datenanalyse darin, einige deskriptive Statistiken zu berechnen.

In der deskriptiven Statistik werden die Hauptmerkmale einer Informationssammlung oder die quantitative Beschreibung selbst quantitativ beschrieben. Denken Sie an Beschreibung, max, min, Durchschnittswerte, Zusammenfassungen des Datensatzes. Es ist oft schwierig, deskriptive Statistiken zu diskutieren, ohne Inferenzstatistiken zu erwähnen. Inferenzstatistik ist die Praxis der Verwendung der Daten, die Sie ableiten müssen, um Wissen oder Mengen abzuleiten, für die Sie keine direkten Messungen oder Daten haben. In Bezug auf einen Datensatz können Sie Folgendes sagen:

  • In der beschreibenden Statistik wird gefragt: "Was habe ich?"
  • Inferenzstatistik fragt: "Was kann ich daraus schließen?"

Die meisten Statistiker und Geschäftsleute sind sich einig, dass es einer Inferenzstatistik bedarf, um die meisten coolen Schlussfolgerungen zu ziehen: Wenn die Weltbevölkerung ihren Höhepunkt erreicht und dann wieder sinkt, wie schnell sich eine Virusepidemie ausbreitet, wenn der Aktienmarkt steigt, ob Menschen auf Twitter haben in der Regel positive oder negative Gefühle zu einem Thema und so weiter. Aber deskriptive Statistiken spielen eine unglaublich wichtige Rolle, um diese Schlussfolgerungen zu ermöglichen. Es lohnt sich zu wissen, welche Daten Sie haben und was sie für Sie tun können.

Mit beschreibenden Statistiken können Sie Entitäten in Ihrem Dataset finden, die mit einer bestimmten konzeptionellen Beschreibung übereinstimmen. Wenn Sie im Online-Einzelhandel arbeiten, können Sie Kunden als Ihre Hauptunternehmen betrachten und diejenigen identifizieren, die wahrscheinlich ein neues Videospielsystem oder ein neues Buch von einem bestimmten Autor kaufen. Wenn Sie in der Werbung arbeiten, suchen Sie möglicherweise nach Personen, die am wahrscheinlichsten auf eine bestimmte Werbung reagieren. Wenn Sie im Finanzbereich tätig sind, suchen Sie möglicherweise nach Aktien an der Börse, deren Kurs im Begriff ist, zu steigen. Wenn es möglich wäre, eine einfache Suche nach diesen Charakterisierungen durchzuführen, wäre die Aufgabe einfach und Sie würden keine Datenwissenschaft oder Statistik benötigen. Aber obwohl diese Charakterisierungen den Daten nicht inhärent sind (können Sie sich einen Bestand vorstellen, der Ihnen sagt, wann er steigen wird?), Können Sie sie häufig erkennen, wenn Sie sie sehen, zumindest im Nachhinein. Die größte Herausforderung bei solchen datenwissenschaftlichen Projekten besteht darin, eine Methode zu entwickeln, um diese interessanten Entitäten rechtzeitig zu finden.

Phase II - Bauen

Nachdem Sie einige Fragen gestellt und Ziele festgelegt haben, haben Sie die Welt der Daten untersucht, einige spezifische Daten erarbeitet und diese Daten kennengelernt. In jedem Schritt haben Sie etwas gelernt, und jetzt können Sie möglicherweise bereits einige der Fragen beantworten, die Sie zu Beginn des Projekts gestellt haben. Gehen wir jetzt zur Bauphase über.

5 - Entwicklungsplan

Der 5. Schritt besteht darin, einen Plan zu erstellen. Wie in der früheren Planungsphase sollten Unsicherheiten und flexible Wege im Vordergrund stehen. Sie wissen jetzt mehr über Ihr Projekt, so dass einige der Unsicherheiten, die vorher vorhanden waren, nicht mehr da sind, aber einige neue sind aufgetaucht. Stellen Sie sich Ihren Plan als vorläufige Route durch eine Stadt mit Straßen vor, die ständig im Bau sind. Sie wissen, wohin Sie gehen möchten, und haben ein paar Möglichkeiten, dorthin zu gelangen. An jeder Kreuzung kann es jedoch zu einer Straßensperrung, schlechtem Verkehr oder einem Straßenbelag kommen, der blockiert und zerfällt. Sie müssen Entscheidungen treffen, wenn Sie an diesen Hindernissen ankommen, aber im Moment ist es ausreichend, einen oder zwei Sicherungspläne zu haben.

Pläne und Ziele können sich aufgrund neuer Informationen, neuer Einschränkungen oder aus anderen Gründen jederzeit ändern. Sie müssen allen am Projekt beteiligten Personen, einschließlich dem Kunden, wesentliche Änderungen mitteilen. Der Kunde des Projekts hat offensichtlich ein berechtigtes Interesse daran, wie das Endprodukt des Projekts aussehen sollte - andernfalls würde das Projekt nicht existieren -, sodass der Kunde auf Änderungen der Ziele aufmerksam gemacht werden sollte. Da die meisten Kunden gerne auf dem Laufenden gehalten werden, ist es häufig ratsam, sie über Ihre neuen oder alten Pläne zu informieren, wie Sie diese Ziele erreichen. Ein Kunde könnte auch an einem Fortschrittsbericht interessiert sein, der enthält, welche vorläufigen Ergebnisse Sie bisher haben und wie Sie diese erhalten haben. Diese haben jedoch die niedrigste Priorität.

Konzentrieren Sie sich auf das, was den Kunden interessiert: Es wurden Fortschritte erzielt, und die derzeit erwarteten, erreichbaren Ziele sind X, Y und Z. Sie haben möglicherweise Fragen, was großartig ist, und sie sind möglicherweise daran interessiert, über alle Aspekte Ihres Projekts zu erfahren , aber meiner erfahrung nach sind die meisten nicht. Ihr einziges Muss für ein Treffen mit dem Kunden in dieser Phase ist, dass Sie klar kommunizieren, was die neuen Ziele sind, und dass sie sie genehmigen. Alles andere ist optional.

Sie können auch erwägen, dem Kunden Ihren Grundplan mitzuteilen, insbesondere wenn Sie eine seiner Ressourcen zum Abschließen des Projekts verwenden. Möglicherweise haben sie Vorschläge, Ratschläge oder andere Fachkenntnisse, die Sie noch nicht kennen. Wenn ihre Ressourcen wie Datenbanken, Computer oder andere Mitarbeiter betroffen sind, sind sie mit Sicherheit daran interessiert, wie und in welchem ​​Umfang Sie sie nutzen werden.

6 - Daten analysieren

Der sechste Schritt unseres datenwissenschaftlichen Prozesses ist die statistische Analyse von Daten. Statistische Methoden werden oft als fast die Hälfte oder mindestens ein Drittel der Fähigkeiten und Kenntnisse angesehen, die für eine gute Datenwissenschaft erforderlich sind. Das andere große Stück ist Softwareentwicklung und / oder -anwendung, und das verbleibende, kleinere Stück ist Gegenstand oder Fachwissen.

Auf der einen Seite der Statistik steht die Mathematik und auf der anderen Seite die Daten. Mathematik - insbesondere angewandte Mathematik - bietet Statistiken eine Reihe von Werkzeugen, die die Analyse und Interpretation ermöglichen. In jedem Fall berührt die Mathematik die reale Welt im Allgemeinen nicht. Basierend auf Logik und immer - immer - beginnend mit einer Reihe von Annahmen muss die Mathematik zuerst eine Welt annehmen, die sie beschreiben kann, bevor sie beginnt, sie zu beschreiben. Jede mathematische Aussage kann so formuliert werden, dass sie mit einem Wenn beginnt (wenn die Annahmen wahr sind), und dieses Wenn hebt die Aussage und ihre Schlussfolgerung in die Abstraktheit. Das heißt nicht, dass Mathematik in der realen Welt nicht nützlich ist. ganz im Gegenteil. Mathematik ist eher ein Vokabular, mit dem wir Dinge beschreiben können, als eine Wissenschaft zu sein. Einige dieser Dinge könnten in der realen Welt sein. Wie bei Vokabeln und den Wörtern, die sie enthalten, ist eine Beschreibung selten vollkommen korrekt. Das Ziel ist es, so nah wie möglich an die Richtigkeit zu kommen.

Die Mathematik bietet jedoch einen Großteil der von der Statistik verwendeten schweren Maschinen. Statistische Verteilungen werden häufig durch komplexe Gleichungen mit Wurzeln beschrieben, die im praktischen, wissenschaftlichen Sinne von Bedeutung sind. Das Anpassen statistischer Modelle verwendet häufig mathematische Optimierungstechniken. Auch der Raum, in dem die Daten eines Projekts vermutet werden, muss mathematisch beschrieben werden, auch wenn die Beschreibung lediglich „N-dimensionaler euklidischer Raum“ ist.

Zusätzlich zur Mathematik verfügt die Statistik über eigene Techniken, die in erster Linie datenzentriert sind.

  • Beschreibende Statistiken sind im Allgemeinen intuitive oder einfache Statistiken, die einen guten Überblick über die Daten bieten, ohne zu komplex oder schwer zu verstehen zu sein. Beschreibende Statistiken bleiben normalerweise in gewissem Sinne in der Nähe der Daten.
  • Inferenzstatistik ist inhärent ein oder mehrere Schritte, die aus den Daten entfernt werden. Inferenz ist der Prozess der Schätzung unbekannter Größen basierend auf messbaren, verwandten Größen. Inferenzstatistiken umfassen in der Regel ein statistisches Modell, das messbare und nicht messbare Größen und ihre Beziehungen zueinander definiert. Methoden aus der Inferenzstatistik können von recht einfach bis sehr komplex sein und sich auch in ihrer Präzision, Abstraktheit und Interpretierbarkeit unterscheiden.

Die statistische Modellierung ist die allgemeine Praxis, ein System mit statistischen Konstrukten zu beschreiben und dieses Modell dann zur Analyse und Interpretation systembezogener Daten zu verwenden. Sowohl deskriptive als auch inferentielle Statistiken stützen sich auf statistische Modelle. In einigen Fällen spielt jedoch eine explizite Konstruktion und Interpretation des Modells selbst eine untergeordnete Rolle.

Bei der statistischen Modellierung liegt der Hauptfokus auf dem Verständnis des Modells und des zugrunde liegenden Systems, das es beschreibt. Die mathematische Modellierung ist ein verwandtes Konzept, bei dem die Modellkonstruktion und -interpretation mehr im Vordergrund steht als die Beziehung zu Daten. Die statistische Modellierung konzentriert sich auf die Beziehung des Modells zu Daten. Im Folgenden sind einige wichtige Konzepte für die statistische Modellierung aufgeführt, die Sie berücksichtigen sollten:

  • Lineare, Exponential-, Polynom-, Spline-, Differential-, nichtlineare Gleichungen.
  • Latente Variablen.
  • Quantifizierung der Unsicherheit: Zufälligkeit, Varianz und Fehlerausdrücke.
  • Anpassung eines Modells: Maximum-Likelihood-Schätzung, Maximum-A-posteriori-Schätzung, erwartete Maximierung, Variation Bayes, Markov-Kette Monte Carlo, Überanpassung.
  • Bayesian vs frequentistische Statistik.
  • Hypothesentest.
  • Clustering
  • Komponentenanalyse.

Am weitesten von den Rohdaten entfernt sind statistische Techniken, die häufig als Black-Box-Methoden (besser oder schlechter) bezeichnet werden. Der Begriff Black Box bezieht sich auf die Idee, dass einige statistische Methoden so viele sich bewegende Teile mit komplexen Beziehungen zueinander aufweisen, dass es nahezu unmöglich wäre, die Methode selbst zu zerlegen, da sie auf bestimmte Daten in einem bestimmten Kontext angewendet wurde. Viele Methoden des maschinellen Lernens und der künstlichen Intelligenz passen zu dieser Beschreibung. Wenn Sie versuchen, Personen, die in einem Datensatz vorkommen, in eine von mehreren Kategorien einzuteilen, und Sie eine maschinelle Lernmethode wie eine zufällige Gesamtstruktur oder ein neuronales Netzwerk anwenden, ist es oft schwierig, nachträglich zu sagen, warum eine bestimmte Person vorlag in einer bestimmten Weise klassifiziert. Daten werden in die Blackbox geschrieben, eine Klassifizierung wird ausgegeben, und Sie sind sich normalerweise nicht sicher, was genau dazwischen passiert ist. Hier sind einige der beliebtesten Algorithmen für maschinelles Lernen, die Sie auf die Feature-Werte anwenden würden, die Sie aus Ihren Datenpunkten extrahiert haben:

  • Zufälliger Wald
  • Unterstützung vektor maschine
  • Erhöhen
  • Neurales Netzwerk
  • Tiefes Lernen

7 - Ingenieurprodukt

Unser nächster Schritt ist die Erstellung einer Statistiksoftware. Wenn Statistik der Rahmen für die Analyse und das Ziehen von Schlussfolgerungen aus den Daten ist, dann ist Software das Werkzeug, das diesen Rahmen in die Tat umsetzt. Darüber hinaus muss ein Datenwissenschaftler für jedes Projekt eine Vielzahl von Softwareauswahlen treffen. Wenn Sie eine Lieblingssendung haben, ist dies oft eine gute Wahl, wenn auch aus keinem anderen Grund als Ihrer Vertrautheit damit. Aber es kann gute Gründe geben, sich für etwas anderes zu entscheiden. Wenn Sie noch nicht mit Data Science oder statistischer Software vertraut sind, kann es schwierig sein, einen Einstieg zu finden.

Für alle, die viel Zeit mit Microsoft Excel oder einer anderen Tabellenkalkulationsanwendung verbracht haben, sind Tabellenkalkulationen und GUI-basierte Anwendungen häufig die erste Wahl für die Durchführung von Datenanalysen. Insbesondere wenn die Daten in tabellarischer Form vorliegen, z. B. in CSV-Form, und nicht zu viele Daten vorhanden sind, kann es einfach sein, mit der Analyse in einer Tabelle zu beginnen. Wenn die Berechnungen, die Sie durchführen müssen, nicht komplex sind, kann eine Kalkulationstabelle möglicherweise sogar alle Softwareanforderungen für das Projekt abdecken. Übliche Softwaretools sind hier Excel, SPSS, Stata, SAS und Minitab. Das Erlernen der Programmiersprache eines dieser Tools der Mittelstufe kann ein guter Schritt sein, um eine echte Programmiersprache zu erlernen, wenn dies Ihr Ziel ist. Diese Sprachen können für sich genommen sehr nützlich sein. Insbesondere SAS hat eine breite Fangemeinde in der Statistikbranche, und das Erlernen seiner Sprache ist für sich ein vernünftiges Ziel.

Programmiersprachen sind viel vielseitiger als statistische Mittelstandsanwendungen. Code in jeder gängigen Sprache kann fast alles. Diese Sprachen können auf jedem Computer eine beliebige Anzahl von Anweisungen ausführen, über APIs mit anderen Softwarediensten interagieren und in Skripten und anderen Softwareteilen enthalten sein. Eine Sprache, die an die übergeordnete Anwendung gebunden ist, ist in diesen Funktionen stark eingeschränkt.

MATLAB ist eine proprietäre Softwareumgebung und Programmiersprache, die sich gut für die Arbeit mit Matrizen eignet. MATLAB kostet einiges, aber es gibt erhebliche Rabatte für Studenten und andere mit der Universität verbundene Personen. Einige Leute beschlossen, es in einem Open-Source-Projekt namens Octave zu replizieren. Da Octave gereift ist, ist es MATLAB hinsichtlich der verfügbaren Funktionen und Fähigkeiten immer näher gekommen. Mit Ausnahme von Code, der Add-On-Pakete (ua Toolboxes) verwendet, funktioniert die überwiegende Mehrheit des in MATLAB geschriebenen Codes in Octave und umgekehrt.

Insgesamt eignen sich MATLAB und Octave hervorragend für Ingenieure (insbesondere Elektriker), die unter anderem in den Bereichen Signalverarbeitung, Kommunikation, Bildverarbeitung und Optimierung mit großen Matrizen arbeiten.

R basiert auf der S-Programmiersprache, die bei Bell Labs erstellt wurde. Es ist Open Source, aber die Lizenz ist etwas restriktiver als bei einigen anderen gängigen Sprachen wie Python und Java, insbesondere wenn Sie ein kommerzielles Softwareprodukt erstellen. Im Vergleich zu MATLAB ist es in R einfacher, verschiedene Datentypen zu laden und zu verarbeiten. MATLAB ist gut im Umgang mit Tabellendaten, aber im Allgemeinen ist R besser für Tabellen mit Überschriften, gemischten Spaltentypen (Ganzzahl, Dezimalzahl, Zeichenfolgen usw.), JSON und Datenbankabfragen. Beim Lesen von Tabellendaten gibt R in der Regel standardmäßig ein Objekt vom Typ Datenrahmen zurück. Datenrahmen sind vielseitige Objekte, die Daten in Spalten enthalten, wobei jede Spalte einen anderen Datentyp haben kann - zum Beispiel numerisch, Zeichenfolge oder sogar Matrix -, aber alle Einträge in jeder Spalte müssen gleich sein. Das Arbeiten mit Datenrahmen kann zunächst verwirrend sein, aber ihre Vielseitigkeit und Leistungsfähigkeit werden nach einer Weile offensichtlich.

Einer der Vorteile von R als Open Source ist, dass es für Entwickler weitaus einfacher ist, zur Entwicklung von Sprachen und Paketen beizutragen, wo immer sie dies für angebracht halten. Diese Open-Source-Beiträge haben dazu beigetragen, dass R enorm gewachsen ist und die Kompatibilität mit anderen Softwaretools erweitert wurde. Tausende von Paketen sind für R auf der CRAN-Website verfügbar. Dies ist die größte Stärke der R-Sprache. Möglicherweise finden Sie ein Paket, mit dem Sie die Art der Analyse durchführen können, die Sie durchführen möchten, sodass ein Teil der Arbeit für Sie erledigt wurde. MATLAB hat auch Pakete, aber nicht annähernd so viele, obwohl sie normalerweise sehr gut sind. R hat gute und schlechte und alles dazwischen. Sie werden auch Tonnen von R-Code finden, der in öffentlichen Repos frei verfügbar ist, aber möglicherweise nicht den Status eines offiziellen Pakets erreicht hat.

Insgesamt ist R eine gute Wahl für Statistiker und andere, die mehr datenintensive Erkundungsarbeit betreiben als Produktionssoftware, beispielsweise in der Branche für Analysesoftware.

Python ist eine leistungsstarke Sprache, die sowohl zum Schreiben von Skripten als auch zum Erstellen von Produktionssoftware verwendet werden kann. Es eignet sich besser für nicht statistische Aufgaben wie die Integration in andere Softwaredienste, das Erstellen von APIs und Webdiensten und das Erstellen von Anwendungen. Wahrscheinlich, weil Python ursprünglich eine universelle Programmiersprache war, verfügt es über ein robustes Framework für objektorientiertes Design.

Obwohl Python ursprünglich keine stark statistische Sprache sein sollte, wurden für Python mehrere Pakete entwickelt, die es in Konkurrenz zu R und MATLAB bringen. Das numpy-Paket für numerische Methoden ist für die Arbeit mit Vektoren, Arrays und Matrizen unverzichtbar. Die Pakete scipy und scikit-learn bieten unter anderem Funktionen für Optimierung, Integration, Clustering, Regression, Klassifizierung und maschinelles Lernen. Mit diesen drei Paketen konkurriert Python mit der Kernfunktionalität von R und MATLAB, und in einigen Bereichen wie dem maschinellen Lernen scheint Python unter Datenwissenschaftlern beliebter zu sein. Für das Datenhandling ist das Paket pandas unglaublich beliebt geworden. Es ist ein wenig von der Vorstellung eines Datenrahmens in R beeinflusst, hat diese aber seitdem in der Funktionalität übertroffen. Wenn Ihr Datensatz groß genug ist, um Berechnungen zu verlangsamen, aber klein genug, um in den Arbeitsspeicher Ihres Computers zu passen, sind Pandas möglicherweise genau das Richtige für Sie.

Eines der bemerkenswertesten Python-Pakete in der Datenwissenschaft ist jedoch das Natural Language Toolkit (NLTK). Es ist mit Sicherheit das beliebteste und robusteste Tool für die Verarbeitung natürlicher Sprache (NLP). Wenn heutzutage jemand Text von Twitter, Newsfeeds, dem Enron-E-Mail-Korpus oder einem anderen Ort analysiert, hat er wahrscheinlich NLTK verwendet, um dies zu tun. Es nutzt andere NLP-Tools wie WordNet und verschiedene Methoden zur Tokenisierung und zum Stemming, um die umfassendsten NLP-Funktionen an einem Ort anzubieten.

Insgesamt eignet sich Python hervorragend für Leute, die neben reiner, nicht statistischer Softwareentwicklung auch etwas Data Science betreiben möchten. Es ist die einzige populäre, robuste Sprache, die beides gut kann.

Obwohl Java keine Skriptsprache ist und als solche für explorative Datenwissenschaft nicht gut geeignet ist, ist es eine der bekanntesten Sprachen für die Entwicklung von Softwareanwendungen und wird daher häufig in der Entwicklung analytischer Anwendungen verwendet. Viele der gleichen Gründe, die Java für explorative Datenwissenschaft schlecht machen, machen es für die Anwendungsentwicklung gut.

Java eignet sich nicht für explorative Datenwissenschaft, kann jedoch für umfangreichen oder auf Datenwissenschaft basierenden Produktionscode geeignet sein. Java verfügt über zahlreiche statistische Bibliotheken, mit denen Sie von der Optimierung bis zum maschinellen Lernen alles erledigen können. Viele davon werden von der Apache Software Foundation bereitgestellt und unterstützt.

Beachten Sie bei der Auswahl Ihrer statistischen Softwaretools die folgenden Kriterien:

  • Implementierung von Methoden: Wenn Sie eine relativ häufige Methode verwenden, ist für viele Tools wahrscheinlich bereits eine Implementierung vorhanden, und es ist wahrscheinlich besser, eine davon zu verwenden. Code, der bereits von vielen Leuten verwendet wurde, ist normalerweise relativ fehlerfrei im Vergleich zu Code, den Sie an einem Tag geschrieben und nur ein- oder zweimal verwendet haben.
  • Flexibilität: Neben der Möglichkeit, die gewünschten statistischen Hauptanalysen durchzuführen, ist es häufig hilfreich, wenn ein statistisches Tool einige verwandte Methoden ausführen kann. Oft werden Sie feststellen, dass die von Ihnen gewählte Methode nicht so gut funktioniert, wie Sie es sich erhofft hatten, und was Sie dabei gelernt haben, lässt Sie glauben, dass eine andere Methode möglicherweise besser funktioniert. Wenn Ihr Software-Tool keine Alternativen bietet, bleiben Sie entweder bei der ersten Wahl oder müssen zu einem anderen Tool wechseln.
  • Informativ: Einige statistische Tools, insbesondere übergeordnete Tools wie statistische Programmiersprachen, bieten die Möglichkeit, nahezu alle statistischen Methoden und Ergebnisse, auch Black-Box-Methoden wie maschinelles Lernen, einzusehen. Diese Insides sind nicht immer benutzerfreundlich, aber zumindest verfügbar.
  • Gemeinsamkeit: Mit Software haben mehr Benutzer ein Tool ausprobiert, Ergebnisse erzielt, die Ergebnisse überprüft und möglicherweise die aufgetretenen Probleme gemeldet. Auf diese Weise verfügt Software, insbesondere Open-Source-Software, über eine Feedback-Schleife, mit der Fehler und Probleme rechtzeitig behoben werden können. Je mehr Personen an dieser Rückkopplungsschleife teilnehmen, desto wahrscheinlicher ist es, dass eine Software relativ fehlerfrei und ansonsten robust ist.
  • Gute Dokumentation: Ein statistisches Softwaretool sollte nicht nur allgemein verwendet werden, sondern auch eine umfassende und hilfreiche Dokumentation enthalten. Es ist ein schlechtes Zeichen, wenn Sie keine Antworten auf einige wichtige Fragen finden, z. B. wie Sie Eingaben für die lineare Regression konfigurieren oder wie Sie die Funktionen für maschinelles Lernen formatieren. Wenn die Antworten auf wichtige Fragen nicht in der Dokumentation enthalten sind, wird es noch schwieriger, Antworten auf die spezielleren Fragen zu finden, auf die Sie später unweigerlich stoßen werden.
  • Zweckgebunden: Einige Softwaretools oder deren Pakete wurden für einen bestimmten Zweck erstellt, und später wurden weitere Funktionen hinzugefügt. Zum Beispiel waren die Matrixalgebra-Routinen in MATLAB und R von größter Bedeutung, als die Sprachen erstellt wurden, sodass davon ausgegangen werden kann, dass sie umfassend und robust sind. Im Gegensatz dazu stand die Matrixalgebra in den ersten Versionen von Python und Java nicht im Vordergrund, weshalb diese Funktionen später in Form von Paketen und Bibliotheken hinzugefügt wurden.
  • Interoperabilität: Wenn Sie mit einer Datenbank arbeiten, kann es hilfreich sein, ein Tool zu verwenden, das direkt mit der Datenbank interagiert. Wenn Sie eine Webanwendung basierend auf Ihren Ergebnissen erstellen möchten, möchten Sie möglicherweise ein Tool auswählen, das Webframeworks unterstützt - oder mindestens eines, das Daten in JSON oder einem anderen webfreundlichen Format exportieren kann. Wenn Sie Ihr Statistik-Tool auf verschiedenen Computertypen verwenden, soll die Software auf den verschiedenen Betriebssystemen ausgeführt werden können. Es ist nicht ungewöhnlich, eine statistische Softwaremethode in eine völlig andere Sprache oder ein anderes Tool zu integrieren.
  • Zulässige Lizenzen: Wenn Sie kommerzielle Software für kommerzielle Zwecke verwenden, kann es rechtlich riskant sein, dies mit einer akademischen Lizenz oder einer Studentenlizenz zu tun. Es kann auch gefährlich sein, modifizierte oder nicht modifizierte kommerzielle Software an Dritte zu verkaufen, ohne zu bestätigen, dass die Lizenz dies nicht verbietet.

8 - Daten optimieren

Der achte Schritt in unserem Prozess ist die Optimierung eines Produkts mit zusätzlicher Software. Die Softwaretools in unserem siebten Schritt können vielseitig sein, sind jedoch von Natur aus statistisch. Software kann viel mehr als nur Statistiken. Insbesondere sind viele Tools verfügbar, mit denen Daten effizient gespeichert, verwaltet und verschoben werden können. Einige können fast jeden Aspekt der Berechnung und Analyse schneller und einfacher verwalten. Hier sind 4 beliebte Programme, die Ihnen die Arbeit als Datenwissenschaftler erleichtern können.

Datenbanken sind weit verbreitet, und die Wahrscheinlichkeit, dass Sie während eines Projekts auf eine Datenbank stoßen, ist ziemlich hoch, insbesondere wenn Sie Daten verwenden, die von anderen häufig verwendet werden. Es kann sich aber auch lohnen, selbst eine Datenbank einzurichten, um Sie bei Ihrem Projekt zu unterstützen, anstatt nur auf eine zu stoßen. Die 2 häufigsten Typen sind relational (SQL) und dokumentenorientiert (NoSQL, ElasticSearch). Datenbanken und andere verwandte Arten von Datenspeichern können eine Reihe von Vorteilen gegenüber dem Speichern Ihrer Daten im Dateisystem eines Computers haben. In den meisten Fällen können Datenbanken - über Abfragen - einen schnelleren willkürlichen Zugriff auf Ihre Daten ermöglichen als das Dateisystem. Außerdem können sie auf bequeme und der Dateisystemskalierung überlegene Weise redundant auf große Größen skaliert werden.

Hochleistungsrechnen (HPC) ist der allgemeine Begriff für Fälle, in denen viel zu rechnen ist und Sie dies so schnell wie möglich tun möchten. Sie können entweder einen Supercomputer (der millionenfach schneller als ein Personalcomputer ist) oder Computercluster (eine Reihe von Computern, die normalerweise über ein lokales Netzwerk miteinander verbunden sind und so konfiguriert sind, dass sie bei der Ausführung von Computing gut zusammenarbeiten) verwenden Aufgaben) oder Grafikprozessoren (die sich hervorragend für hochparallelisierbare Berechnungen eignen). Wenn Sie Zugriff haben, ist HPC eine gute Alternative dazu, darauf zu warten, dass Ihr PC alle zu berechnenden Dinge berechnet. Der Vorteil der Verwendung eines Cloud-HPC-Angebots - und es stehen einige ziemlich leistungsfähige Maschinen zur Verfügung - muss vor der Anmeldung gegen die Kosten abgewogen werden.

Die größten Anbieter von Cloud-Diensten sind meist große Technologieunternehmen, deren Kerngeschäft etwas anderes ist. Unternehmen wie Amazon, Google und Microsoft verfügten bereits über enorme Rechen- und Speicherressourcen, bevor sie sie der Öffentlichkeit zugänglich machten. Da die Ressourcen jedoch nicht immer optimal genutzt wurden, beschlossen sie, sowohl Überkapazitäten zu vermieten als auch ihre Gesamtkapazität zu erweitern, was sich als eine Reihe lukrativer Geschäftsentscheidungen herausstellte. Die angebotenen Dienste entsprechen in der Regel in etwa der Funktionalität eines PCs, eines Computerclusters oder eines lokalen Netzwerks. Alle sind in geografischen Regionen auf der ganzen Welt verfügbar und über eine Online-Verbindung und Standardverbindungsprotokolle sowie in der Regel über eine Webbrowser-Oberfläche zugänglich. Wenn Sie nicht über genügend Ressourcen verfügen, um Ihre datenwissenschaftlichen Anforderungen adäquat zu erfüllen, sollten Sie einen Cloud-Service in Betracht ziehen.

Zuletzt können Sie Big-Data-Technologien ausprobieren: Hadoop, HBase und Hive - unter anderem. Big Data-Technologien sind so konzipiert, dass sie nicht viel Daten bewegen. Dies spart Zeit und Geld, wenn die Datensätze in dem sehr großen Maßstab vorliegen, für den die Technologien entwickelt wurden. Immer wenn Rechenaufgaben an die Datenübertragung gebunden sind, kann Big Data die Effizienz steigern. Im Gegensatz zu den anderen in diesem Kapitel beschriebenen Technologien erfordert Big Data-Software einige Anstrengungen, um mit Ihrer Software zum Laufen zu kommen. Sie sollten den Sprung nur dann machen, wenn Sie die Zeit und die Ressourcen haben, um mit der Software und ihren Konfigurationen zu experimentieren, und wenn Sie fast sicher sind, dass Sie beträchtliche Vorteile daraus ziehen werden.

9 - Plan ausführen

Der letzte Schritt der Erstellungsphase ist die Ausführung des Erstellungsplans für das Produkt. Die meisten Softwareentwickler sind wahrscheinlich mit den Schwierigkeiten und Problemen beim Erstellen einer komplizierten Software vertraut, sie kennen jedoch möglicherweise nicht die Schwierigkeit, Software zu erstellen, die mit Daten von zweifelhafter Qualität umgeht. Auf der anderen Seite wissen Statistiker, wie es ist, schmutzige Daten zu haben, haben aber möglicherweise wenig Erfahrung mit der Erstellung hochwertigerer Software. Ebenso erwarten und bereiten sich Personen in unterschiedlichen Rollen im Zusammenhang mit dem Projekt auf unterschiedliche Dinge vor, von denen jede über unterschiedliche Erfahrungen und Schulungen verfügt.

  • Wenn Sie ein Statistiker sind, kennen Sie unsaubere Daten und wissen, wie voreingenommen und überbewertet Ergebnisse sind. Auf der anderen Seite haben Sie möglicherweise nicht viel Erfahrung mit der Erstellung von Software für Unternehmen, insbesondere von Produktionssoftware. Wenden Sie sich an Softwareingenieure mit praktischen Erfahrungen, um zu erfahren, wie Sie die Robustheit Ihrer Software verbessern können.
  • Als Softwareentwickler wissen Sie, wie ein Entwicklungslebenszyklus aussieht, und Sie wissen, wie Software vor der Bereitstellung und Bereitstellung getestet wird. Möglicherweise wissen Sie jedoch nichts über Daten, und unabhängig davon, wie gut Sie mit Software-Design und -Entwicklung vertraut sind, können Daten Ihre Anwendung auf eine Weise beschädigen, die Ihnen noch nie in den Sinn gekommen ist. Dies erfordert neue Denkmuster beim Erstellen von Software und eine neue Toleranz für Fehler und Bugs, da diese sehr viel häufiger auftreten. Sie sollten sich an Statistiker wenden, die mit der Vorhersage und dem Umgang mit problematischen Daten wie Ausreißern, fehlenden und beschädigten Werten vertraut sind.
  • Wenn Sie in der Datenwissenschaft anfangen und nicht viel Erfahrung mit Statistik oder Software-Engineering haben, kann Ihnen wahrscheinlich jeder, der über Erfahrung verfügt, fundierte Ratschläge geben, wenn Sie ihm Ihr Projekt und Ihre Ziele erläutern können. Als Anfänger haben Sie in dieser Phase des Prozesses eine doppelte Pflicht, um den Mangel an Erfahrung auszugleichen.
  • Wenn Sie nur ein Mitglied eines Teams für die Zwecke dieses Projekts sind, sind Kommunikation und Koordination von größter Bedeutung. Es ist nicht erforderlich, dass Sie alles wissen, was im Team vor sich geht, aber es ist erforderlich, dass Ziele und Erwartungen klar sind und dass jemand das Team als Ganzes leitet.

Der Plan sollte mehrere Wege und Optionen enthalten, die alle von den Ergebnissen, Zielen und Fristen des Projekts abhängen. Unabhängig davon, wie gut ein Plan ist, besteht immer die Möglichkeit, dass er im Verlauf des Projekts überarbeitet wird. Auch wenn Sie an alle Unsicherheiten gedacht und sich aller möglichen Ergebnisse bewusst waren, können sich Dinge außerhalb des Geltungsbereichs des Plans ändern. Der häufigste Grund für einen Plan, der geändert werden muss, besteht darin, dass neue Informationen von einer Quelle außerhalb des Projekts zutage treten und sich entweder einer oder mehrere der Pfade des Plans oder die Ziele selbst ändern.

Mit fortschreitendem Projektverlauf häufen sich in der Regel immer mehr Ergebnisse, sodass Sie die Möglichkeit haben, sicherzustellen, dass sie Ihren Erwartungen entsprechen. In einem datenwissenschaftlichen Projekt mit Statistik basieren die Erwartungen im Allgemeinen entweder auf dem Begriff der statistischen Signifikanz oder auf einem anderen Konzept der praktischen Nützlichkeit oder Anwendbarkeit dieser Ergebnisse oder auf beiden. Statistische Signifikanz und praktischer Nutzen hängen oft eng zusammen und schließen sich keineswegs aus. Als Teil Ihres Planes für das Projekt haben Sie wahrscheinlich das Ziel verfolgt, bei den Ergebnissen Ihrer statistischen Analysen eine gewisse Genauigkeit oder Signifikanz zu erzielen. Das Erreichen dieser Ziele wäre ein Erfolg für das Projekt.

Phase III - Fertigstellung

Sobald ein Produkt erstellt wurde, haben Sie noch ein paar Dinge zu tun, um das Projekt erfolgreicher zu machen und Ihr zukünftiges Leben einfacher zu gestalten. Wie können wir unser Data Science-Projekt abschließen?

10 - Lieferung des Produkts

Der erste Schritt der Endbearbeitungsphase ist die Produktlieferung. Um ein effektives Produkt zu erstellen, das Sie an den Kunden liefern können, müssen Sie zunächst die Kundenperspektive verstehen. Zweitens müssen Sie die besten Medien für das Projekt und den Kunden auswählen. Und schließlich müssen Sie auswählen, welche Informationen und Ergebnisse in das Produkt aufgenommen werden sollen und was ausgelassen werden soll. Wenn Sie während der gesamten Produkterstellung und -lieferung gute Entscheidungen treffen, können sich die Erfolgschancen des Projekts erheblich verbessern.

Die Übermittlungsmedien können viele Formen annehmen. In der Datenwissenschaft ist einer der wichtigsten Aspekte eines Produkts, ob der Kunde passiv Informationen daraus konsumiert oder ob der Kunde das Produkt aktiv in Anspruch nimmt und in der Lage ist, mit dem Produkt eine Vielzahl möglicher Fragen zu beantworten. Verschiedene Arten von Produkten können im gesamten Spektrum zwischen passiv und aktiv liegen:

  • Die wahrscheinlich einfachste Möglichkeit, einem Kunden Ergebnisse, einen Bericht oder ein Whitepaper zu liefern, besteht aus Text, Tabellen, Abbildungen und anderen Informationen, die einige oder alle Fragen beantworten, die Ihr Projekt beantworten sollte. Berichte und Whitepapers können auf Papier gedruckt oder als PDF oder in einem anderen elektronischen Format geliefert werden.
  • In einigen Data-Science-Projekten können die Analysen und Ergebnisse aus dem Datensatz auch für Daten außerhalb des ursprünglichen Projektbereichs verwendet werden. Dazu können Daten gehören, die (in Zukunft) nach den ursprünglichen Daten generiert wurden, ähnliche Daten aus einer anderen Quelle. oder andere Daten, die aus dem einen oder anderen Grund noch nicht analysiert wurden. In diesen Fällen kann es für den Kunden hilfreich sein, ein Analyse-Tool für ihn zu erstellen, mit dem diese Analysen durchgeführt und Ergebnisse für neue Datensätze generiert werden können. Wenn der Kunde dieses Analysetool effektiv einsetzen kann, kann er möglicherweise eine beliebige Anzahl von Ergebnissen generieren und seine wichtigsten Fragen auch in Zukunft und zu verschiedenen (aber ähnlichen) Datensätzen beantworten.
  • Wenn Sie ein Produkt bereitstellen möchten, das aktiver ist als ein Analysetool, müssen Sie wahrscheinlich eine vollständige Anwendung erstellen. Wenn Sie überlegen, eine interaktive grafische Anwendung bereitzustellen, ist es am wichtigsten, diese zu entwerfen, zu erstellen und bereitzustellen. Oft ist keine davon eine kleine Aufgabe. Wenn Sie möchten, dass die Anwendung viele Funktionen bietet und flexibel ist, wird das Entwerfen und Erstellen noch schwieriger.

Sie müssen nicht nur entscheiden, auf welchem ​​Medium Ihre Ergebnisse geliefert werden sollen, sondern auch, welche Ergebnisse sie enthalten sollen. Sobald Sie ein Produkt ausgewählt haben, müssen Sie herausfinden, mit welchem ​​Inhalt Sie es füllen möchten.

Einige Ergebnisse und Inhalte sind möglicherweise naheliegende Optionen für die Aufnahme, bei anderen Informationen ist die Entscheidung jedoch möglicherweise nicht so naheliegend. In der Regel möchten Sie so viele hilfreiche Informationen und Ergebnisse wie möglich einfügen, aber Sie möchten vermeiden, dass der Kunde die von Ihnen ausgewählten Ergebnisse falsch interpretiert oder missbraucht. Dies kann in vielen Situationen ein heikles Gleichgewicht sein und hängt in hohem Maße vom konkreten Projekt sowie vom Wissen und der Erfahrung des Kunden und des übrigen Publikums ab, um die Ergebnisse zu erzielen.

11 - Revisionen vornehmen

Nach der Auslieferung des Produkts überarbeiten wir das Produkt nach ersten Rückmeldungen. Sobald der Kunde das Produkt einsetzt, kann es zu einer ganzen Reihe neuer Probleme und Probleme kommen. Trotz Ihrer Bemühungen haben Sie möglicherweise nicht alle Aspekte der Art und Weise, wie Ihre Kunden Ihr Produkt verwenden (oder versuchen, es zu verwenden), vorweggenommen. Selbst wenn das Produkt die Dinge tut, die es tun soll, tun Ihre Kunden und Benutzer diese Dinge möglicherweise nicht und führen sie nicht effizient aus.

Feedback zu bekommen ist schwierig. Einerseits ist es oft schwierig, konstruktives Feedback von Kunden, Benutzern oder anderen Personen zu erhalten. Andererseits kann es schwierig sein, Feedback und Kritik zu hören, ohne dass dies als Angriff auf das Produkt oder als Missverständnis des Produkts angesehen wird, für dessen Entwicklung Sie viel Zeit und Mühe aufgewendet haben. Einige Datenwissenschaftler liefern Produkte und vergessen sie. Einige Datenwissenschaftler liefern Produkte aus und warten darauf, dass Kunden Feedback geben. Einige Datenwissenschaftler liefern Produkte und stören diese Kunden ständig. Es ist oft eine gute Idee, sich mit Ihren Kunden in Verbindung zu setzen, um sicherzustellen, dass das von Ihnen gelieferte Produkt einige der Probleme behebt, die behoben werden sollen.

Das Vornehmen von Produktrevisionen kann schwierig sein. Die Suche nach einer geeigneten Lösung und Implementierungsstrategie hängt von der Art des Problems ab, auf das Sie gestoßen sind, und davon, was Sie ändern müssen, um das Problem zu beheben. Wenn Sie sich während des gesamten Projekts der Unsicherheit und der vielen möglichen Ergebnisse bei jedem Schritt auf dem Weg bewusst waren, ist es wahrscheinlich nicht verwunderlich, dass Sie jetzt mit einem anderen Ergebnis konfrontiert sind, als Sie es bisher erwartet hatten. Aber dasselbe Bewusstsein kann praktisch garantieren, dass Sie zumindest einer funktionierenden Lösung nahe sind. In der Praxis bedeutet dies, dass Sie nie erwartet haben, dass Sie beim ersten Mal alles zu 100% korrekt durchmachen, also gibt es natürlich Probleme. Wenn Sie jedoch fleißig waren, sind die Probleme gering und die Behebungen relativ einfach.

Sobald Sie ein Problem mit dem Produkt erkennen und herausfinden, wie es behoben werden kann, bleibt die Entscheidung, ob es behoben werden soll. Die anfängliche Neigung einiger Leute ist, dass jedes Problem behoben werden muss; Das ist nicht unbedingt wahr. Es gibt Gründe, warum Sie möglicherweise keine Produktrevision durchführen möchten, die ein Problem behebt, genauso wie es Gründe gibt, warum Sie dies tun würden. Das Wichtigste ist, anzuhalten und die Optionen in Betracht zu ziehen, anstatt jedes gefundene Problem blind zu beheben, was viel Zeit und Mühe kosten kann.

12 - Projekt abschließen

Der letzte Schritt in unserem datenwissenschaftlichen Prozess besteht darin, ihn abzuschließen. Wenn ein datenwissenschaftliches Projekt zu Ende geht, sieht es so aus, als ob die gesamte Arbeit erledigt wurde. Sie müssen nur noch die verbleibenden Fehler oder andere Probleme beheben, bevor Sie aufhören können, sich ganz mit dem Projekt zu befassen, und mit dem nächsten fortfahren eine (ungeachtet fortgesetzter Produktunterstützung und Verbesserung). Aber bevor Sie das Projekt als erledigt bezeichnen, können Sie einige Dinge tun, um Ihre Erfolgschancen in der Zukunft zu erhöhen, sei es mit einer Erweiterung desselben Projekts oder mit einem völlig anderen Projekt.

Es gibt zwei Möglichkeiten, wie Sie Ihre Erfolgschancen in Zukunft erhöhen können, wenn Sie jetzt etwas tun. Eine Möglichkeit besteht darin, sicherzustellen, dass Sie dieses Projekt jederzeit problemlos wieder aufnehmen und erneut ausführen, erweitern oder ändern können. Auf diese Weise erhöhen Sie Ihre Erfolgschancen in diesem Folgeprojekt im Vergleich zu dem Fall, in dem Sie in einigen Monaten oder Jahren Ihre Projektmaterialien und Ihren Code ausgraben und feststellen, dass Sie sich nicht genau an das erinnern, was Sie sind tat oder wie du es getan hast. Zwei praktische Möglichkeiten sind Dokumentation und Speicherung.

Eine andere Möglichkeit, Ihre Erfolgschancen in zukünftigen Projekten zu erhöhen, besteht darin, so viel wie möglich aus diesem Projekt zu lernen und dieses Wissen in jedes zukünftige Projekt mitzunehmen. Wenn Sie ein Projekt postmortem durchführen, können Sie hoffen, die nützlichen Lehren aus dem Rest herauszuholen. Dazu gehört die Überprüfung der alten Ziele, des alten Plans, Ihrer Technologieentscheidungen, der Teamzusammenarbeit usw. Unabhängig davon, ob es eine bestimmte Lektion gibt, die Sie für zukünftige Projekte anwenden können, oder eine allgemeine Lektion, die dazu beiträgt, dass Sie mögliche, unerwartete Ergebnisse erkennen und über das Projekt nachdenken Während eines Post-Mortem-Reviews können Sie nützliches Wissen aufdecken, das es Ihnen ermöglicht, die Dinge beim nächsten Mal anders - und hoffentlich besser - zu machen.

Wenn Sie von jedem Projekt nur eine Lektion wegnehmen, sollte dies wahrscheinlich die größte Überraschung sein, die sich auf dem Weg ereignet hat. Unsicherheit kann sich in jeden Aspekt Ihrer Arbeit einschleichen, und wenn Sie sich an alle Unsicherheiten erinnern, die in der Vergangenheit zu Problemen geführt haben, können Sie hoffentlich verhindern, dass ähnliche Probleme erneut auftreten. Von den Daten über die Analyse bis hin zu den Projektzielen kann sich kurzfristig fast alles ändern. Alle Möglichkeiten im Auge zu behalten, ist nicht nur eine schwierige Herausforderung, sondern nahezu unmöglich. Der Unterschied zwischen einem guten Datenwissenschaftler und einem hervorragenden Datenwissenschaftler besteht in der Fähigkeit, Fehler vorherzusagen und sich darauf vorzubereiten.

Fazit

Die Datenwissenschaft hat immer noch die Ausstrahlung eines neuen Feldes. Die meisten seiner Komponenten - Statistiken, Softwareentwicklung, evidenzbasierte Problemlösung usw. - stammen direkt aus etablierten, sogar alten Bereichen, aber die Datenwissenschaft scheint eine neue Ansammlung dieser Teile zu etwas Neuem zu sein. Der Kern der Datenwissenschaft befasst sich nicht mit spezifischen Datenbankimplementierungen oder Programmiersprachen, auch wenn diese für Praktiker unverzichtbar sind. Der Kern ist das Zusammenspiel von Dateninhalten, den Zielen eines bestimmten Projekts und den datenanalytischen Methoden, mit denen diese Ziele erreicht werden.

Wir möchten Sie bitten, in Brians Buch nachzulesen, um weitere Informationen zu den einzelnen Schritten des Data-Science-Prozesses zu erhalten. Es ist für Nicht-Experten in den Bereichen Data Science, Software und Statistik sehr zugänglich. Es zeichnet ein lebendiges Bild der Datenwissenschaft als Prozess mit vielen Nuancen, Vorbehalten und Ungewissheiten. Die Macht der Datenwissenschaft besteht nicht darin, herauszufinden, was als nächstes passieren soll, sondern zu erkennen, was als nächstes passieren könnte und schließlich herauszufinden, was als nächstes passieren wird.

- -

Wenn dir dieses Stück gefallen hat, würde ich es lieben, wenn du auf den Klatschknopf drückst, damit andere darüber stolpern könnten. Sie finden meinen eigenen Code auf GitHub und weitere Artikel und Projekte unter https://jameskle.com/. Sie können mir auch auf Twitter folgen, mir direkt eine E-Mail senden oder mich auf LinkedIn finden. Melden Sie sich für meinen Newsletter an, um meine neuesten Gedanken zu Datenwissenschaft, maschinellem Lernen und künstlicher Intelligenz direkt in Ihrem Posteingang zu erhalten!