Einführung in die Datenintegrität

Video 114

Kurs 4 im Überblick: Setzen Sie Ihre Erwartungen

Willkommen zum vierten Kurs des Programms! Auf Ihrem Weg durch das Zertifikat werden sich dieser Kurs und die folgenden Kurse mehr auf praktische, kompetenzbasierte Aufgaben und Projekte konzentrieren.

In diesem Kurs lernen Sie, Daten zu bereinigen, indem Sie sie auf Vollständigkeit und Korrektheit überprüfen. Sie lernen eine Vielzahl von Ansätzen zur Bereinigung von Daten in Tabellen und Datenbanken kennen. Anschließend erlernen Sie wichtige Fähigkeiten zur Fehlerbehebung, mit denen Sie eventuelle Fehler beheben können. Ein wichtiger Schritt bei der Bereinigung von Daten ist die Erstellung von Berichten, um die von Ihnen vorgenommenen Änderungen anderen mitzuteilen. Sie werden verstehen, wie Sie dies tun können, um die Genauigkeit und Zuverlässigkeit der Daten zu gewährleisten. Zusammengenommen werden diese Fähigkeiten dazu beitragen, dass Ihre Datenanalyse erfolgreich ist.

Course menu showing courses 1 to 8. Courses 1, 2, and 3 are complete. Course 4 is active.

Überblick über den Kurs

  1. Grundlagen: Daten, Daten, überall

  2. Fragen stellen, um datengesteuerte Entscheidungsfindungen zu treffen

  3. Daten für die Erforschung vorbereiten

  4. Daten von Schmutzig bis Bereinigt verarbeiten (dieser Kurs)

  5. Analysieren Sie Daten, um Fragen zu beantworten

  6. Daten durch die Kunst der Visualisierung weitergeben

  7. Datenanalyse mit R-Programmierung

  8. Google Data Analytics Capstone: Vervollständigen Sie eine Fallstudie

Inhalt von Kurs 4

Jeder Kurs ist in Module unterteilt. Hier ein kurzer Überblick über die Fähigkeiten, die Sie in jedem der fünf Module von Kurs 4 erwerben werden.

Modul 1: Die Bedeutung der Integrität

Die Integrität der Daten ist für eine erfolgreiche Analyse entscheidend. In diesem Teil des Kurses lernen Sie die Methoden und Schritte kennen, die Analysten unternehmen, um ihre Daten auf Integrität zu prüfen. Dazu gehört auch zu wissen, was zu tun ist, wenn Sie nicht genügend Daten haben. Sie lernen auch etwas über Stichproben und erfahren, wie Sie Voreingenommenheit bei Stichproben vermeiden können. All diese Methoden werden Ihnen auch dabei helfen, sicherzustellen, dass Ihre Analyse erfolgreich ist.

Modul 2: Bereinigte Daten für genauere Statistiken

Jede Fachkraft für Datenanalyse möchte saubere Daten analysieren. In diesem Teil des Kurses lernen Sie den Unterschied zwischen bereinigten und verschmutzten Daten kennen. Anschließend üben Sie die Bereinigung von Daten in Tabellen und anderen Tools.

Modul 3: Datenbereinigung mit SQL

Die Kenntnis einer Vielzahl von Möglichkeiten, Daten zu bereinigen, kann die Arbeit einer Fachkraft für Datenanalyse erheblich erleichtern. In diesem Teil des Kurses werden Sie SQL verwenden, um Daten aus Datenbanken zu bereinigen. Insbesondere erfahren Sie, wie Sie mit SQL-Abfragen und -Funktionen Ihre Daten vor einer Analyse bereinigen und umwandeln können.

Modul 4: Überprüfen und Berichten der Bereinigungsergebnisse

Wenn Sie Daten bereinigen, nehmen Sie Änderungen an dem ursprünglichen Dataset vor. Es ist wichtig, dass Sie die Richtigkeit der vorgenommenen Änderungen überprüfen und Ihre Teamkollegen über die Änderungen informieren. In diesem Teil des Kurses lernen Sie, wie Sie überprüfen, ob die Daten bereinigt sind, und wie Sie über die Ergebnisse der Datenbereinigung berichten. Mit den bereinigten Daten können Sie nun mit der Analyse beginnen!

Modul 5: Optional: Daten zu Ihrem Lebenslauf hinzufügen

Die Erstellung eines effektiven Lebenslaufs wird Ihnen bei Ihrer Data Analytics-Karriere helfen. In diesem Teil des Kurses werden Sie alles über den Prozess der Bewerbung lernen. Sie werden sich auf die Erstellung eines Lebenslaufs konzentrieren, der Ihre Stärken und relevanten Erfahrungen hervorhebt.

Modul 6: Nachbereitung des Kurses

Überprüfen Sie das Kursglossar und bereiten Sie sich auf den nächsten Kurs des Google Data Analytics Zertifikatsprogramms vor.

Was Sie erwarten können

Jedes Modul umfasst eine Reihe von Lektionen mit vielen Arten von Lernmöglichkeiten. Dazu gehören:

  • Videos für Ausbilder, um neue Konzepte zu vermitteln und die Verwendung von Tools zu demonstrieren

  • Fragen im Video, die von Zeit zu Zeit auftauchen und Ihnen helfen, Ihr Verständnis der Schlüsselkonzepte und -fähigkeiten zu überprüfen

  • Schritt-für-Schritt-Anleitungen , mit denen Sie den Ausbildern bei der Demonstration der Tools folgen können

  • Lektüre , um Themen zu vertiefen und auf den Konzepten aus den Videos aufzubauen

  • Diskussionsforen zum Austausch, zur Erkundung und zur Vertiefung der Lektionsthemen

  • Diskussions-Prompts zur Förderung des Denkens und der Einbindung in die Diskussionsforen

  • Übungsquiz zur Vorbereitung auf benotete Quizze

  • Benotete Quizfragen, um Ihren Fortschritt zu messen und Ihnen wertvolles Feedback zu geben

Dieses Programm wurde so konzipiert, dass Sie in Ihrem eigenen Tempo arbeiten können – Ihre persönlichen Fristen sind nur ein Richtwert. Für verspätete Aufgaben gibt es keine Strafe. Um Ihr Zertifikat zu erhalten, müssen Sie lediglich alle Aufgaben erledigen.

Wenn Sie zwei Bewertungstermine hintereinander verpassen oder einen Bewertungstermin um zwei Wochen versäumen, sehen Sie auf der Seite Noten die Option Termine zurücksetzen. Klicken Sie darauf, um zu einem neuen Kursplan mit aktualisierten Fristen zu wechseln. Sie können diese Option so oft nutzen, wie Sie möchten – sie löscht keine Fortschritte, die Sie bereits im Kurs gemacht haben, aber Sie finden möglicherweise neue Kursinhalte, wenn der Kursleiter den Kurs aktualisiert hat, nachdem Sie angefangen haben. Wenn Sie ein Abonnement kündigen und es dann wieder aktivieren, werden Ihre Fristen automatisch zurückgesetzt.

In diesem Kurs werden Sie mit benoteten Quizzen und Aktivitäten bewertet. Beide basieren auf der großen Vielfalt an Lernmaterialien und Aktivitäten, die die wichtigen Fähigkeiten, die Sie entwickeln werden, verstärken. Und beide können mehr als einmal absolviert werden.

Tipps für den Erfolg

  • Es wird dringend empfohlen, dass Sie die einzelnen Lektionen in der Reihenfolge durcharbeiten, in der sie erscheinen, da neue Informationen und Konzepte auf dem bisherigen Wissen aufbauen.

  • Nehmen Sie an allen Lernangeboten teil, um so viel Wissen und Erfahrung wie möglich zu sammeln.

  • Wenn etwas verwirrend ist, zögern Sie nicht, ein Video abzuspielen, eine Lektüre zu wiederholen oder eine Aktivität zur Selbstüberprüfung zu wiederholen.

  • Nutzen Sie die zusätzlichen Ressourcen, auf die in diesem Kurs verwiesen wird. Sie sind dazu gedacht, Ihr Lernen zu unterstützen. Sie finden alle diese Ressourcen auf der Registerkarte Ressourcen.

  • Wenn Sie in diesem Kurs auf nützliche Links stoßen, setzen Sie ein Lesezeichen, damit Sie die Informationen später zum Lernen oder zur Wiederholung aufrufen können.

  • Verstehen und befolgen Sie den Coursera-Verhaltenskodex, um sicherzustellen, dass die Lerngemeinschaft ein einladender, freundlicher und unterstützender Ort für alle Mitglieder bleibt.

Aktualisierungen des Kurses

Während Sie diesen Kurs absolvieren, werden Sie möglicherweise Aktualisierungen des Inhalts bemerken, wie neue Übungsmaterialien und zusätzliche Beispiele. Diese Aktualisierungen gewährleisten, dass das Programm aktuelle Fähigkeiten und Anleitungen bietet, die Ihnen bei Ihrer Data Analytics-Karriere helfen werden. Wenn Sie bereits eine benotete Aktivität absolviert haben, müssen Sie die Bewertung möglicherweise wiederholen, um diesen Kurs abzuschließen. Weitere Informationen finden Sie im Diskussionsforum des Kurses.

Warum Datenintegrität wichtig ist

Video 115

Mehr über Datenintegrität und Compliance

Diese Lektüre veranschaulicht die Bedeutung der Datenintegrität am Beispiel der Daten eines globalen Unternehmens. Definitionen von Begriffen, die für die Datenintegrität von Bedeutung sind, werden am Ende gegeben.

Szenario: Kalenderdaten für ein globales Unternehmen

Kalenderdaten werden in vielen verschiedenen Kurzformen dargestellt. Je nachdem, wo Sie leben, wird möglicherweise ein anderes Format verwendet.

  • In einigen Ländern steht der 12/10/20 (TT/MM/JJ) für den 12. Oktober 2020.

  • In anderen Ländern ist der nationale Standard JJJJ-MM-TT, so dass der 12. Oktober 2020 zu 2020-10-12 wird.

  • In den Vereinigten Staaten ist (MM/TT/JJ) das akzeptierte Format, also wird der 12. Oktober 2020 zum 10/12/20.

Überlegen Sie nun, was passieren würde, wenn Sie als Fachkraft für Datenanalyse für ein globales Unternehmen arbeiten und die Datumsformate nicht überprüfen würden. Nun, Ihre Datenintegrität wäre wahrscheinlich fragwürdig. Jede Analyse der Daten wäre ungenau. Stellen Sie sich vor, Sie bestellen zusätzliches Inventar für Dezember, obwohl es eigentlich schon im Oktober benötigt wurde!

Eine gute Analyse hängt von der Integrität der Daten ab, und die Datenintegrität hängt in der Regel von der Verwendung eines gemeinsamen Formats ab. Es ist also wichtig, die Formatierung der Daten zu überprüfen, um sicherzustellen, dass das, was Sie für den 10. Dezember 2020 halten, nicht wirklich der 12. Oktober 2020 ist und umgekehrt.

Hier sind noch einige andere Dinge, auf die Sie achten sollten:

  • Datenreplikation, die die Datenintegrität gefährdet: Stellen Sie sich vor, Sie bitten Ihre internationalen Kollegen, die Daten zu überprüfen und sich an ein Format zu halten. Ein Analyst kopiert ein großes Dataset, um die Daten zu überprüfen. Aufgrund von Speicherproblemen wird jedoch nur ein Teil des Datasets tatsächlich kopiert. Der Analyst würde unvollständige Daten verifizieren und standardisieren. Dieser partielle Dataset würde als konform zertifiziert werden, aber der vollständige Dataset würde immer noch Daten enthalten, die nicht verifiziert wurden. Zwei Versionen eines Datasets können zu inkonsistenten Ergebnissen führen. Eine abschließende Prüfung der Ergebnisse wäre unerlässlich, um aufzudecken, was passiert ist, und um alle Daten zu korrigieren.

  • Datenübertragung, die die Datenintegrität gefährdet: Ein anderer Analyst überprüft die Daten in einer Tabelle und entscheidet sich, die validierten und standardisierten Daten zurück in die Datenbank zu importieren. Aber nehmen wir an, das Datumsfeld aus der Tabelle wurde während des Prozesses des Datenimports (der Datenübertragung) fälschlicherweise als Textfeld klassifiziert. Nun sind einige der Datumsangaben in der Datenbank als Textzeichenfolgen gespeichert. An diesem Punkt müssen die Daten bereinigt werden, um ihre Integrität wiederherzustellen.

  • Datenmanipulationen, die die Datenintegrität gefährden: Bei der Überprüfung von Daten bemerkt ein anderer Analyst einen scheinbar doppelten Datensatz in der Datenbank und entfernt ihn. Es stellt sich jedoch heraus, dass der Analyst einen eindeutigen Datensatz für die Tochtergesellschaft eines Unternehmens entfernt hat und nicht einen doppelten Datensatz für das Unternehmen. In Ihrem Dataset fehlen nun Daten und die Daten müssen der Vollständigkeit halber wiederhergestellt werden.

Fazit

Glücklicherweise lässt sich die Integrität der Daten durch ein standardisiertes Datumsformat und die Einhaltung durch alle Personen und Systeme, die mit den Daten arbeiten, aufrechterhalten. Aber egal, woher Ihre Daten stammen, stellen Sie immer sicher, dass sie gültig, vollständig und sauber sind, bevor Sie mit einer Analyse beginnen.

A trio of icons: A lightbulb with a checkmark, a checklist, and a person on a laptop

Referenz: Dateneinschränkungen und Beispiele

Im Laufe Ihrer Datenreise werden Sie auf viele Arten von Dateneinschränkungen (oder Kriterien, die die Gültigkeit bestimmen) stoßen. In der folgenden Tabelle finden Sie Definitionen und Beispiele für Dateneinschränkungen, auf die Sie stoßen könnten.

Dateneinschränkungen

Definition

Beispiele

Datentyp

Werte müssen von einem bestimmten Typ sein: Datum, Zahl, Prozentsatz, Boolescher Wert, usw.

Wenn der Datentyp ein Datum ist, würde eine einzelne Zahl wie 30 die Einschränkung nicht erfüllen und wäre ungültig

Datenbereich

Die Werte müssen zwischen den vordefinierten Höchst- und Mindestwerten liegen

Wenn der Datenbereich 10-20 beträgt, würde ein Wert von 30 die Einschränkung nicht erfüllen und wäre ungültig

Obligatorisch

Werte können nicht leer gelassen werden

Wenn das Alter obligatorisch ist, muss dieser Wert ausgefüllt werden

Eindeutig

Werte dürfen keine Duplikate enthalten

Zwei Personen können nicht dieselbe Handynummer innerhalb desselben Servicebereichs haben

Muster für reguläre Ausdrücke (regex)

Werte müssen mit einem vorgegebenen Muster übereinstimmen

Eine Telefonnummer muss ###-###-#### entsprechen (keine anderen Zeichen erlaubt)

Feldübergreifende Validierung

Bestimmte Bedingungen für mehrere Felder müssen erfüllt sein

Werte sind Prozentwerte und Werte aus mehreren Feldern müssen sich zu 100% addieren

Primärschlüssel

(nur Datenbanken) Wert muss pro Spalte eindeutig sein

Eine Datenbanktabelle kann nicht zwei Zeilen mit demselben Wert des Primärschlüssels haben. Ein Primärschlüssel ist ein Bezeichner in einer Datenbank, der auf eine Spalte verweist, in der jeder Wert eindeutig ist. Weitere Informationen zu Primär- und Fremdschlüsseln finden Sie später im Programm.

Mitglieder festlegen

(nur Datenbanken) Werte für eine Spalte müssen aus einer Menge diskreter Werte stammen

Werte für eine Spalte müssen auf Ja, Nein oder Nicht zutreffend gesetzt werden

Fremdschlüssel

(nur Datenbanken) Werte für eine Spalte müssen eindeutige Werte sein, die aus einer Spalte in einer anderen Tabelle stammen

In einer US-Steuerzahlerdatenbank muss die Spalte Staat ein gültiger Staat oder ein gültiges Territorium sein, wobei die Menge der akzeptablen Werte in einer separaten Tabelle Staaten definiert ist

Genauigkeit

Der Grad, in dem die Daten mit der tatsächlich gemessenen oder beschriebenen Einheit übereinstimmen

Wenn die Werte für Postleitzahlen nach Straßenlage validiert werden, erhöht sich die Genauigkeit der Daten.

Vollständigkeit

Der Grad, in dem die Daten alle gewünschten Komponenten oder Maßnahmen enthalten

Wenn Daten für persönliche Profile die Haar- und Augenfarbe erfordern und beides erfasst wird, sind die Daten vollständig.

Einheitlichkeit

Der Grad, in dem die Daten von verschiedenen Eingabe- oder Erfassungspunkten aus wiederholbar sind

Wenn ein Kunde in der Verkaufs- und der Reparaturdatenbank die gleiche Adresse hat, sind die Daten konsistent.

Gleichgewicht zwischen Zielen und Datenintegrität

Video 116

Gut abgestimmte Ziele und Daten

Sie können aussagekräftige Statistiken erstellen und genaue Schlussfolgerungen ziehen, wenn die Daten gut auf die Unternehmensziele abgestimmt sind. Als Fachkraft für Datenanalyse ist die Abstimmung etwas, das Sie beurteilen müssen. Eine gute Abstimmung bedeutet, dass die Daten relevant sind und Ihnen helfen können, ein Geschäftsproblem zu lösen oder eine Vorgehensweise zu bestimmen, um ein bestimmtes Ziel zu erreichen.

In dieser Lektüre werden Sie die mit drei Szenarien verbundenen Geschäftsziele überprüfen. Sie werden herausfinden, wie saubere Daten und gut abgestimmte Ziele Ihnen helfen können, genaue Schlussfolgerungen zu ziehen. Darüber hinaus erfahren Sie, wie neue Variablen, die bei der Datenanalyse entdeckt werden, dazu führen können, dass Sie Dateneinschränkungen einrichten müssen, damit die Daten weiterhin auf ein Geschäftsziel ausgerichtet sind.

Bereinigte Daten + Abstimmung auf das Ziel des Unternehmens = genaue Schlussfolgerungen

Geschäftliches Ziel

Die Kundenbetreuer von Impress Me, einem Abonnementdienst für Online-Inhalte, möchten wissen, wie schnell die Nutzer die Inhalte nach der Aktivierung ihres Abonnements ansehen.

Image of a web video player and image of an analog clock set to 3:03

Zunächst prüft die Fachkraft für Datenanalyse, ob die in Tabellen exportierten Daten sauber sind und bestätigt, dass die benötigten Daten (wann Nutzer auf Inhalte zugreifen) verfügbar sind. Mit diesem Wissen entscheidet der Analyst, dass die Daten gut auf das Unternehmensziel abgestimmt sind. Alles, was noch fehlt, ist, genau herauszufinden, wie lange jeder Nutzer braucht, um die Inhalte anzusehen, nachdem sein Abonnement aktiviert wurde.

Hier sind die Datenverarbeitungsschritte, die der Analyst für einen Nutzer von einem Konto namens V&L Consulting durchführt. (Diese Schritte würden für jedes abonnierende Konto und für jeden mit diesem Konto verbundenen Nutzer wiederholt werden.)

Schritt 1

Schritt zur Verarbeitung der Daten

Quelle der Daten

Suchen Sie das Aktivierungsdatum für V&L Consulting

Tabelle mit den Konten

 

Relevante Daten in der Tabelle:

Screenshot of two columns of a spreadsheet for Account Name and Activation Date. The date 10/21/2019 is highlighted

Ergebnis: 21. Oktober 2019

Schritt 2

Schritt zur Verarbeitung der Daten

Quelle der Daten

Nachschlagen des Namens eines Nutzers, der zum V&L Consulting-Konto gehört

Tabelle mit den Konten (Registerkarte Nutzer)

 

Relevante Daten in der Tabelle:

Screenshot of two columns of a spreadsheet for Account Name and Users. The name Maria Ballantyne is highlighted

Ergebnis: Maria Ballantyne

Schritt 3

Schritt zur Verarbeitung der Daten

Quelle der Daten

Finden Sie das Datum des ersten Zugriffs auf Inhalte für Maria B.

Tabelle zur Nutzung von Inhalten

 

Relevante Daten in der Tabelle:

Screenshot of two columns of a spreadsheet for Users and Access Dates. The date 10/31/2019 is highlighted

Ergebnis: Oktober 31, 2019

Schritt 4

Schritt zur Verarbeitung der Daten

Quelle der Daten

Berechnen Sie die Zeit zwischen der Aktivierung und der ersten Nutzung von Inhalten für Maria B.

Neue Berechnung in der Tabelle

 

Relevante Daten in der Tabelle:

Screenshot of spreadsheet with Account, Users, Activation Date, 1st Access Date, and Number of Days. Number 10 is highlighted

Ergebnis: 10 Tage

Profi-Tipp 1

In dem obigen Prozess könnte der Analyst VLOOKUP verwenden, um die Daten aus den Schritten 1, 2 und 3 nachzuschlagen, um die Werte in der Tabelle in Schritt 4 aufzufüllen. SVERWEIS ist eine Tabellenkalkulationsfunktion, die nach einem bestimmten Wert in einer Spalte sucht, um eine damit verbundene Information zurückzugeben. Die Verwendung von VLOOKUP kann viel Zeit sparen; ohne diese Funktion müssen Sie Daten und Namen manuell nachschlagen.

Auf der Seite SVERWEIS im Google Help Center erfahren Sie, wie Sie die Funktion in Google Sheets verwenden.

Profi-Tipp 2

In Schritt 4 des obigen Prozesses könnte der Analyst die Funktion DATEDIF verwenden, um automatisch die Differenz zwischen den Daten in Spalte C und Spalte D zu berechnen.

Wie Sie die Funktion in Excel verwenden, erfahren Sie auf der Microsoft Support-Seite DATEDIF. Die Funktion DAYS360 leistet dasselbe in Ressourcenerfassungen, die ein 360-Tage-Jahr (zwölf 30-Tage-Monate) verwenden.

Auf der DATEDIF-Seite im Google Help Center erfahren Sie, wie Sie die Funktion in Google Sheets verwenden.

Abstimmung auf das Unternehmensziel + zusätzliche Datenbereinigung = genaue Schlussfolgerungen

Geschäftliches Ziel

Cloud Gate, ein Software-Unternehmen, hat vor kurzem eine Reihe von öffentlichen Webinaren als kostenlose Produkteinführungen veranstaltet. Die Fachkraft für Datenanalyse und der Programmmanagende für das Webinar möchten die Unternehmen ermitteln, bei denen fünf oder mehr Personen an diesen Sitzungen teilgenommen haben. Sie möchten diese Liste von Unternehmen an die Vertriebsmanager weitergeben, die sie für potenzielle Verkäufe nachfassen können.

An image of a group of people chatting and an image of an online page

Die Webinar-Teilnahmedaten enthalten die unten aufgeführten Felder und Daten.

Name

<Vorname><Nachname>

Dies waren die erforderlichen Informationen, die die Teilnehmer angeben mussten

E-Mail Adresse

xxxxx@company.com

Diese Informationen mussten von den Teilnehmern angegeben werden

Unternehmen

<Firmenname>

Diese Informationen waren optional und konnten von den Teilnehmern angegeben werden

Bereinigung der Daten

Die Webinar-Teilnehmerdaten scheinen mit dem Unternehmensziel übereinzustimmen. Aber die Fachkraft für Datenanalyse und der Programmmanagende entscheiden, dass vor der Analyse eine Datenbereinigung erforderlich ist. Sie halten die Datenbereinigung für erforderlich, weil:

  • Der Firmenname war kein obligatorisches Feld. Wenn der Firmenname leer ist, könnte er über die E-Mail-Adresse ermittelt werden. Wenn die E-Mail-Adresse z.B. username@google.com lautet, könnte das Feld für das Unternehmen für die Datenanalyse mit Google ausgefüllt werden. Bei diesem Schritt der Datenbereinigung wird davon ausgegangen, dass Personen mit vom Unternehmen zugewiesenen E-Mail-Adressen aus geschäftlichen Gründen an einem Webinar teilgenommen haben.

  • Die Teilnehmer können einen beliebigen Namen eingeben. Da die Teilnahme an einer Reihe von Webinaren untersucht wird, müssen Sie die Namen mit eindeutigen E-Mail-Adressen abgleichen. Wenn zum Beispiel Joe Cox an zwei Webinaren teilgenommen hat, sich aber bei einem als Joe Cox und beim anderen als Joseph Cox angemeldet hat, würde er als zwei verschiedene Personen gezählt werden. Um dies zu verhindern, müssen sie seine eindeutige E-Mail-Adresse überprüfen, um festzustellen, dass es sich um dieselbe Person handelt. Nach der Überprüfung könnte Joseph Cox in Joe Cox geändert werden, um mit der anderen Instanz übereinzustimmen.

Abstimmung auf das Unternehmensziel + neu entdeckte Variablen + Beschränkungen = genaue Schlussfolgerungen

Ziel des Unternehmens

Das Unternehmen A+ Education, das Nachhilfeunterricht anbietet, möchte wissen, wie viele Nachhilfestunden mindestens erforderlich sind, damit sich die Noten der Schüler um mindestens 10% verbessern.

An image of a person writing on a pad and an image of a gauge meter

Die Fachkraft für Datenanalyse ist der Meinung, dass die verfügbaren Daten gut mit dem Ziel des Unternehmens übereinstimmen, denn:

  • Die Schüler loggen sich für jede Nachhilfesitzung in ein System ein und wieder aus, und die Anzahl der Stunden wird protokolliert

  • Die Bewertungsergebnisse werden regelmäßig aufgezeichnet

Dateneinschränkungen für neue Variablen

Nachdem die Fachkraft für Datenanalyse sich die Daten angesehen hat, stellt sie fest, dass es weitere Variablen zu berücksichtigen gibt. Einige Schüler hatten konstante wöchentliche Sitzungen, während andere Schüler ihre Sitzungen eher zufällig angesetzt hatten, obwohl die Gesamtzahl ihrer Nachhilfestunden gleich war. Die Daten stimmen nicht so gut mit dem ursprünglichen Ziel des Unternehmens überein, wie zunächst angenommen. Daher fügt der Analyst eine Dateneinschränkung hinzu, um sich nur auf die Schüler mit gleichbleibenden wöchentlichen Sitzungen zu konzentrieren. Diese Änderung hilft, ein genaueres Bild von der Einschreibezeit zu erhalten, die erforderlich ist, um eine 10%ige Verbesserung der Bewertungsergebnisse zu erreichen.

Die wichtigsten Erkenntnisse

Wir hoffen, dass Ihnen diese Beispiele einen Eindruck davon vermitteln, worauf Sie achten müssen, um zu wissen, ob Ihre Daten mit Ihrem Ziel übereinstimmen.

  • Bei sauberen Daten und guter Abstimmung können Sie genaue Statistiken erhalten und Schlussfolgerungen ziehen, die von den Daten gestützt werden.

  • Wenn eine gute Abstimmung vorliegt, die Daten aber bereinigt werden müssen, bereinigen Sie die Daten, bevor Sie Ihre Analyse durchführen.

  • Wenn die Daten nur teilweise mit einem Ziel übereinstimmen, sollten Sie überlegen, wie Sie das Ziel ändern können, oder Dateneinschränkungen verwenden, um sicherzustellen, dass die Teilmenge der Daten besser mit dem Geschäftsziel übereinstimmt.

Umgang mit unzureichenden Daten

Video 117

Wenn Sie ein Problem mit Ihren Daten feststellen

Wenn Sie sich auf die Datenanalyse vorbereiten, stellen Sie vielleicht fest, dass Sie nicht über die benötigten Daten verfügen oder nicht genug davon haben. In einigen Fällen können Sie anstelle der echten Daten so genannte Proxy-Daten verwenden. Stellen Sie sich das so vor, als würden Sie in einem Rezept die Butter durch Öl ersetzen, wenn Sie keine Butter haben. In anderen Fällen gibt es keinen vernünftigen Ersatz und Ihre einzige Möglichkeit ist, mehr Daten zu sammeln.

Betrachten Sie die folgenden Probleme mit Daten und Vorschläge, wie Sie sie umgehen können.

Datenproblem 1: keine Daten

Mögliche Lösungen

Beispiele für Lösungen aus dem wirklichen Leben

Sammeln Sie die Daten in kleinem Umfang, um eine erste Analyse durchzuführen, und bitten Sie dann um zusätzliche Zeit, um die Analyse abzuschließen, nachdem Sie mehr Daten gesammelt haben.

Wenn Sie die Mitarbeiter zu ihrer Meinung über einen neuen Leistungs- und Bonusplan befragen, verwenden Sie eine Stichprobe für eine vorläufige Analyse. Bitten Sie dann um weitere 3 Wochen, um die Daten von allen Mitarbeitern zu sammeln.

Wenn Sie keine Zeit haben, Daten zu sammeln, führen Sie die Analyse mit Proxy-Daten aus anderen Datasets durch. Dies ist die häufigste Abhilfe.

Wenn Sie die Hauptreisezeiten für Pendler analysieren, aber nicht über die Daten einer bestimmten Stadt verfügen, verwenden Sie die Daten einer anderen Stadt mit ähnlicher Größe und Demografie.

Datenproblem 2: zu wenig Daten

Mögliche Lösungen

Beispiele für Lösungen aus der Praxis

Führen Sie die Analyse anhand von Proxy-Daten zusammen mit den tatsächlichen Daten durch.

Wenn Sie Trends für Besitzer von Golden Retrievern analysieren, vergrößern Sie Ihr Dataset, indem Sie die Daten von Besitzern von Labradoren einbeziehen.

Passen Sie Ihre Analyse an die Daten an, über die Sie bereits verfügen.

Wenn Ihnen Daten für 18- bis 24-Jährige fehlen, führen Sie die Analyse durch, aber beachten Sie in Ihrem Bericht die folgende Einschränkung: Diese Schlussfolgerung gilt nur für Erwachsene ab 25 Jahren.

Datenproblem 3: falsche Daten, einschließlich fehlerhafter Daten*

Mögliche Lösungen

Beispiele für Lösungen aus dem wirklichen Leben

Wenn Sie die falschen Daten haben, weil die Anforderungen missverstanden wurden, kommunizieren Sie die Anforderungen erneut.

Wenn Sie die Daten für weibliche Wähler benötigen und die Daten für männliche Wähler erhalten haben, formulieren Sie Ihren Bedarf neu.

Identifizieren Sie Fehler in den Daten und korrigieren Sie sie, wenn möglich, an der Quelle, indem Sie nach einem Muster in den Fehlern suchen.

Wenn sich Ihre Daten in einer Tabelle befinden und eine bedingte Anweisung oder ein Boolescher Wert zu falschen Berechnungen führt, ändern Sie die bedingte Anweisung, anstatt nur die berechneten Werte zu korrigieren.

Wenn Sie Datenfehler nicht selbst korrigieren können, können Sie die falschen Daten ignorieren und mit der Analyse fortfahren, wenn Ihr Stichprobenumfang noch groß genug ist und das Ignorieren der Daten keine systematische Voreingenommenheit verursacht.

Wenn Ihr Dataset aus einer anderen Sprache übersetzt wurde und einige der Übersetzungen keinen Sinn ergeben, ignorieren Sie die schlecht übersetzten Daten und fahren Sie mit der Analyse der anderen Daten fort.

* Wichtiger Hinweis: Manchmal können fehlerhafte Daten ein Warnzeichen dafür sein, dass die Daten nicht zuverlässig sind. Verwenden Sie Ihr bestes Urteilsvermögen.

Verwenden Sie den folgenden Entscheidungsbaum als Erinnerung daran, wie Sie mit Datenfehlern oder nicht ausreichenden Daten umgehen sollten:

 

This illustration is a decision tree showing four possible decisions to make in order to work around data issues.

Die Bedeutung der Stichprobengröße

Video 118

Berechnen Sie die Stichprobe

Bevor Sie sich näher mit der Stichprobe befassen, sollten Sie sich mit den folgenden Begriffen und Definitionen vertraut machen:

Terminologie

Definitionen

Population

Die gesamte Gruppe, an der Sie für Ihre Studie interessiert sind. Wenn Sie z.B. eine Umfrage in Ihrem Unternehmen durchführen, wären die Population alle Mitarbeiter Ihres Unternehmens.

Stichprobe

Eine Teilmenge Ihrer Population. Genau wie eine Lebensmittelprobe wird sie als Stichprobe bezeichnet, weil sie nur eine Kostprobe ist. Wenn Ihr Unternehmen also zu groß ist, um alle Personen zu befragen, können Sie eine repräsentative Stichprobe Ihrer Population befragen.

Fehlerspanne

Da eine Stichprobe verwendet wird, um eine Population zu repräsentieren, ist zu erwarten, dass die Ergebnisse der Stichprobe von dem Ergebnis abweichen, das bei einer Umfrage in der gesamten Population erzielt worden wäre. Diese Differenz wird Fehlerspanne genannt. Je kleiner die Fehlerspanne ist, desto näher liegen die Ergebnisse der Stichprobe an dem Ergebnis, das Sie erhalten hätten, wenn Sie die gesamte Population befragt hätten.

Konfidenzniveau

Wie viel Vertrauen Sie in die Ergebnisse der Umfrage haben. Ein Konfidenzniveau von 95 % bedeutet beispielsweise, dass Sie bei einer 100-maligen Durchführung der gleichen Umfrage in 95 von 100 Fällen ähnliche Ergebnisse erhalten würden. Das Konfidenzniveau wird angestrebt, bevor Sie mit Ihrer Studie beginnen, da es sich darauf auswirkt, wie groß Ihre Fehlerspanne am Ende der Studie ist.

Konfidenzintervall

Der Bereich der möglichen Werte, die das Ergebnis der Population bei dem Konfidenzniveau der Studie aufweisen würde. Dieser Bereich entspricht dem Ergebnis der Stichprobe +/- der Fehlerspanne.

Statistische Signifikanz

Die Feststellung, ob Ihr Ergebnis auf einen Zufall zurückzuführen sein könnte oder nicht. Je höher die Signifikanz, desto weniger ist das Ergebnis auf Zufall zurückzuführen.

Was Sie bei der Bestimmung des Umfangs Ihrer Stichprobe beachten sollten

Bei der Bestimmung des Stichprobenumfangs sollten Sie folgende Dinge beachten:

  • Verwenden Sie keine Stichprobe mit einem Umfang von weniger als 30. Es ist statistisch erwiesen, dass 30 die kleinste Stichprobengröße ist, bei der ein durchschnittliches Ergebnis einer Stichprobe beginnt, das durchschnittliche Ergebnis einer Population zu repräsentieren.

  • Das am häufigsten verwendete Konfidenzniveau ist 95%, aber auch 90% kann in einigen Fällen funktionieren.

Erhöhen Sie den Stichprobenumfang, um den spezifischen Anforderungen Ihres Projekts gerecht zu werden:

  • Um ein höheres Konfidenzniveau zu erreichen, verwenden Sie eine größere Stichprobe

  • Um die Fehlerspanne zu verringern, verwenden Sie eine größere Stichprobe

  • Für eine größere statistische Signifikanz verwenden Sie eine größere Stichprobe

Hinweis: Die Rechner für den Stichprobenumfang verwenden statistische Formeln, um den Stichprobenumfang zu bestimmen. Mehr über diese Formeln erfahren Sie in diesem Kurs! Bleiben Sie dran.

Warum eine Mindeststichprobe von 30?

Diese Empfehlung basiert auf dem zentralen Grenzwertsatz (CLT) auf dem Feld der Wahrscheinlichkeit und der Statistik. Mit zunehmender Stichprobengröße ähneln die Ergebnisse immer mehr der normalen (glockenförmigen) Bereitstellung einer großen Anzahl von Stichproben. Eine Stichprobe von 30 ist die kleinste Stichprobengröße, für die der CLT noch gültig ist. Forscher, die sich auf die Regressionsanalyse stützen – statistische Methoden zur Ermittlung der Beziehungen zwischen kontrollierten und abhängigen Variablen – bevorzugen ebenfalls eine Stichprobe von mindestens 30.

Immer noch neugierig? Ohne zu sehr in die Mathematik einzusteigen, schauen Sie sich diese Artikel an:

  • Zentrales Limit-Theorem (CLT): Dieser Artikel von Investopedia erklärt das Central Limit Theorem und beschreibt kurz, wie es auf die Analyse eines Aktienindexes angewendet werden kann.

  • Formel für den Stichprobenumfang: Dieser Artikel von Statistik Solutions erläutert etwas ausführlicher, warum einige Forscher 30 als Mindeststichprobengröße verwenden.

Stichprobengrößen variieren je nach Geschäftsproblem

Die Stichprobengröße hängt von der Art des Geschäftsproblems ab, das Sie zu lösen versuchen.

Wenn Sie z.B. in einer Stadt mit 200.000 Einwohnern leben und 180.000 Menschen dazu bringen, an einer Umfrage teilzunehmen, ist das eine große Stichprobe. Aber wie würde eine akzeptable, kleinere Stichprobe aussehen, ohne dass Sie das tatsächlich tun?

Wären 200 in Ordnung, wenn die befragten Personen jeden Bezirk der Stadt repräsentieren würden?

Antwort: Das hängt von der Beteiligung ab.

  • Eine Stichprobe von 200 Personen könnte ausreichend sein, wenn Sie herausfinden möchten, wie die Einwohner über die neue Mediathek denken

  • Eine Stichprobe von 200 Personen ist möglicherweise nicht ausreichend, wenn es darum geht, herauszufinden, wie die Einwohner über die Finanzierung der Mediathek abstimmen würden

Sie könnten wahrscheinlich eine größere Fehlerspanne in Kauf nehmen, wenn Sie die Meinung der Einwohner über die neue Mediathek erfragen, als wenn Sie die Einwohner befragen, wie sie über die Finanzierung der Bibliothek abstimmen würden. Aus diesem Grund würden Sie wahrscheinlich eine größere Stichprobe für die Umfrage unter den Wählern verwenden.

An icon of a person scratching their head with a question mark floating above them

Größere Stichproben sind mit höheren Kosten verbunden

Sie müssen auch die Kosten gegen den Nutzen der genaueren Ergebnisse einer größeren Stichprobe abwägen. Jemand, der versucht, die Verbraucherpräferenzen für eine neue Produktlinie zu verstehen, würde keine so große Stichprobe benötigen wie jemand, der versucht, die Auswirkungen eines neuen Medikaments zu verstehen. Bei der Arzneimittelsicherheit überwiegen die Vorteile die Kosten einer größeren Stichprobe. Aber für die Verbraucherpräferenzen könnte eine kleinere Stichprobe zu geringeren Kosten ausreichend gute Ergebnisse liefern.

An icon of a magnifying glass with a dollar sign

Die Grundlagen zu kennen ist hilfreich

Die Kenntnis der Grundlagen wird Ihnen helfen, die richtigen Entscheidungen zu treffen, wenn es um die Größe der Stichprobe geht. Sie können jederzeit Bedenken äußern, wenn Sie auf eine zu kleine Stichprobe stoßen. Ein Stichproben-Rechner ist auch hierfür ein hervorragendes Hilfsmittel. Mit einem Stichprobenrechner können Sie das gewünschte Konfidenzniveau und die Fehlerspanne für eine bestimmte Populationsgröße eingeben. Anschließend wird der Stichprobenumfang berechnet, der erforderlich ist, um diese Ergebnisse statistisch zu erreichen.

Eine Demonstration eines Stichprobenrechners finden Sie im Video Bestimmen Sie die beste Stichprobengröße oder in der Lektüre Stichprobenberechnung für weitere Informationen.

An icon of a check list with the third box unchecked

Die wichtigsten Erkenntnisse

AS Sie Ihre Data Analytics-Reise fortsetzen, sollten Sie sich vor der Berechnung der Stichprobengröße mit den Schlüsselbegriffen wie Population, Stichprobe, Fehlerspanne, Konfidenzniveau und Konfidenzintervall vertraut machen. Denken Sie daran, dass eine Stichprobe von mindestens 30 Personen empfohlen wird und dass die Stichprobengröße je nach dem spezifischen Geschäftsproblem variiert. Berücksichtigen Sie bei der Festlegung des Stichprobenumfangs auch den Zielkonflikt zwischen Genauigkeit und Kosten, da größere Stichproben genauere Ergebnisse liefern, allerdings zu höheren Kosten. Verwenden Sie schließlich Stichprobenrechner, um den geeigneten Stichprobenumfang für Ihre Studie zu ermitteln.

Nutzung der Teststärke/Statistische Power

Video 119

Wenn Daten nicht ohne weiteres verfügbar sind

Vorhin haben Sie gelernt, wie Sie eine Analyse mit Proxy-Daten durchführen können, wenn Sie keine Daten haben. Vielleicht haben Sie einige Fragen zu Proxy-Daten. In dieser Lektüre finden Sie daher einige weitere Beispiele für die Arten von Datasets, die als alternative Datenquellen dienen können.

Beispiele für Proxy Daten

Manchmal sind die Daten zur Unterstützung eines Geschäftsziels nicht ohne weiteres verfügbar. In diesem Fall sind Proxy Daten nützlich. Werfen Sie einen Blick auf die folgenden Szenarien und darauf, wo Proxy-Daten in den einzelnen Beispielen zum Einsatz kommen:

Geschäftsszenario

Wie Proxy Daten verwendet werden können

Ein neues Automodell wurde erst vor wenigen Tagen auf den Markt gebracht und das Autohaus kann nicht bis zum Ende des Monats warten, bis die Verkaufsdaten eintreffen. Sie wollen jetzt Projektionen für die Verkäufe.

Der Analyst setzt die Anzahl der Klicks auf die Fahrzeugspezifikationen auf der Website des Autohauses als Proxy für die potenziellen Verkäufe des Autohauses ein.

Ein brandneues Fleischprodukt auf pflanzlicher Basis wurde erst vor kurzem in den Lebensmittelgeschäften eingeführt und der Lieferant muss die Nachfrage in den nächsten vier Jahren schätzen.

Der Analyst erstellt einen Proxy für die Verkaufsdaten eines Truthahnersatzes aus Tofu, der bereits seit einigen Jahren auf dem Markt ist.

Die Handelskammer möchte wissen, wie sich eine Tourismuskampagne auf das Reiseaufkommen in ihrer Stadt auswirken wird, aber die Ergebnisse der Kampagne sind noch nicht öffentlich zugänglich.

Der Analyst stellt die historischen Daten für Flugbuchungen in die Stadt ein bis drei Monate nach der Durchführung einer ähnlichen Kampagne sechs Monate zuvor als Proxy zur Verfügung.

Offene (öffentliche) Datasets

Wenn Sie Teil einer großen Organisation sind, haben Sie vielleicht Zugang zu vielen Datenquellen. Wenn Sie aber etwas Bestimmtes oder etwas außerhalb Ihres Geschäftsbereichs suchen, können Sie auch auf offene oder öffentliche Datasets zurückgreifen. (In diesem Medium-Artikel finden Sie eine kurze Erklärung des Unterschieds zwischen offenen und öffentlichen Daten)

Hier ist ein Beispiel. Eine nasale Version eines Impfstoffs wurde vor kurzem auf den Markt gebracht. Eine Klinik möchte wissen, welche Kontraindikationen zu erwarten sind, hat aber gerade erst begonnen, Erstanbieterdaten von ihren Patienten zu sammeln. Eine Kontraindikation ist ein Zustand, der einen Patienten dazu veranlassen kann, einen Impfstoff nicht einzunehmen, weil er ihm schaden würde, wenn er ihn einnimmt. Um die Anzahl der möglichen Kontraindikationen abzuschätzen, stellt eine Fachkraft für Datenanalyse einen offenen Dataset aus einer Studie mit der Injektionsversion des Impfstoffs als Proxy zur Verfügung. Der Analytiker wählt eine Teilmenge der Daten mit Patientenprofilen aus, die am ehesten mit der Zusammensetzung der Patienten in der Klinik übereinstimmen.

Es gibt viele Möglichkeiten, Daten innerhalb einer Community zu teilen und zusammenzuarbeiten. Kaggle (kaggle.com), das wir bereits vorgestellt haben, bietet Datasets in einer Vielzahl von Formaten an, darunter auch das einfachste Format, CSV-Dateien (Comma-Separated Werte, kommagetrennte Werte).

An image of a magnifying glass and an image of a puzzle piece being added to a puzzle

CSV-, JSON-, SQLite- und BigQuery-Datasets

  • CSV: Sehen Sie sich dies an Kreditkarten-Kunden dataset, das Informationen von 10.000 Kunden enthält, darunter Alter, Gehalt, Familienstand, Kreditkartenlimit, Kreditkartenkategorie usw. (CC0: Public Domain, Sakshi Goyal).

  • JSON: Sehen Sie sich dieses JSON Dataset für trendigen YouTube-Videos (CC0: Public Domain, Mitchell J).

  • SQLite: Sehen Sie sich dieses SQLite Dataset mit Daten aus 24 Jahren an U.S. Daten zu Waldbränden (CC0: Public Domain, Rachael Tatman).

  • BigQuery: Sehen Sie sich diese Google Analytics 360 stichprobe Dataset aus dem Google Merchandise Store (CC0 Public Domain, Google BigQuery).

Schauen Sie in der Kaggle dokumentation für Datasets für weitere Informationen und suchen Sie selbst nach Datasets unter kaggle.com/datasets.

AS wie bei allen anderen Arten von Datasets sollten Sie auf doppelte Daten und NULL-Werte in Open Datasets achten. NULL bedeutet meistens, dass ein Feld nicht zugewiesen wurde (leer gelassen wurde), aber manchmal kann NULL auch als der Wert 0 interpretiert werden. Es ist wichtig zu verstehen, wie NULL verwendet wurde, bevor Sie einen Dataset mit NULL-Daten analysieren.

Die wichtigsten Erkenntnisse

AS Sie an Projekten zur Datenanalyse arbeiten, können Proxy-Daten häufig zur Schätzung oder Vorhersage von Ergebnissen verwendet werden, wenn die tatsächlichen Daten nicht verfügbar sind. Offene oder öffentliche Datasets können als Proxy-Datenquellen verwendet werden, und es gibt viele Online-Repositories, in denen Sie relevante Datasets finden können. Seien Sie jedoch vorsichtig bei der Verwendung von Proxy Daten und stellen Sie sicher, dass sie für den beabsichtigten Zweck gut geeignet sind. Prüfen Sie schließlich, ob es in offenen Datasets doppelte Daten und NULL-Werte gibt, bevor Sie sie zur Analyse verwenden.

Bestimmen Sie die beste Stichprobengröße

Video 120

Rechner für Stichprobengröße

In dieser Lektüre lernen Sie die Grundlagen von Stichprobenrechnern kennen, wie Sie sie verwenden und wie Sie die Ergebnisse verstehen können. Ein Rechner für den Stichprobenumfang sagt Ihnen, wie viele Personen Sie befragen müssen (oder was Sie testen müssen), um Ergebnisse zu erhalten, die die Zielpopulation repräsentieren. Lassen Sie uns einige Begriffe durchgehen, die Ihnen bei der Verwendung eines Stichprobenrechners begegnen werden:

  • Konfidenzniveau: Die Wahrscheinlichkeit, dass Ihr Stichprobenumfang die größere Grundgesamtheit genau widerspiegelt.

  • Fehlerspanne: Der maximale Betrag, um den die Ergebnisse der Stichprobe voraussichtlich von denen der tatsächlichen Population abweichen.

  • Population: Dies ist die Gesamtzahl, aus der Sie Ihre Stichprobe zu ziehen hoffen.

  • Stichprobe: Ein Teil einer Population, der für die Population repräsentativ ist.

  • Geschätzte Rücklaufquote: Wenn Sie eine Umfrage unter Einzelpersonen durchführen, ist dies der Prozentsatz der Personen, von denen Sie erwarten, dass sie Ihre Umfrage ausfüllen werden, bezogen auf diejenigen, die die Umfrage erhalten haben.

So verwenden Sie einen Rechner für den Stichprobenumfang

Um einen Stichprobenrechner verwenden zu können, müssen Sie die Populationsgröße, das Konfidenzniveau und die akzeptable Fehlerspanne bereits festgelegt haben, damit Sie diese in das Tool eingeben können. Wenn Sie diese Informationen bereit haben, können Sie sich die folgenden Stichprobenrechner ansehen:

Was Sie mit den Ergebnissen tun können

Nachdem Sie Ihre Informationen in einen dieser Rechner eingegeben haben, erhalten Sie eine empfohlene Stichprobengröße. Denken Sie daran, dass die berechnete Stichprobe das Minimum dessen ist, was Sie für das Konfidenzniveau und die Fehlerspanne eingegeben haben. Wenn Sie mit einer Umfrage arbeiten, müssen Sie auch die geschätzte Rücklaufquote berücksichtigen, um herauszufinden, wie viele Umfragen Sie verschicken müssen. Wenn Sie beispielsweise eine Stichprobe von 100 Personen benötigen und Ihre geschätzte Rücklaufquote 10 % beträgt, müssen Sie Ihre Umfrage an 1.000 Personen senden, um die 100 Beantwortungen zu erhalten, die Sie für Ihre Analyse benötigen.

Jetzt, da Sie die Grundlagen kennen, können Sie einige Berechnungen mit dem Stichprobenumfangsrechner durchführen und diese Lektüre zur Auffrischung der Definitionen heranziehen.

Bewerten Sie die Zuverlässigkeit der Daten

Video 121

Alles über Fehlerspannen

DieFehlerspanne ist der maximale Betrag, um den die Ergebnisse der Stichprobe voraussichtlich von denen der tatsächlichen Population abweichen. Technisch gesehen definiert die Fehlerspanne einen Bereich von Werten unterhalb und oberhalb des durchschnittlichen Ergebnisses der Stichprobe. Es wird erwartet, dass das durchschnittliche Ergebnis für die gesamte Population innerhalb dieses Bereichs liegt. Anhand einiger Beispiele können wir die Fehlerspanne besser verstehen.

Fehlerspanne beim Baseball

An image of a baseball batter hitting a baseball with an umpire kneeling behind him

Stellen Sie sich vor, Sie spielen Baseball und sind am Schlag. Die Menge brüllt und Sie machen sich bereit, den Ball zu schlagen. Der Pitcher wirft einen Fastball mit einer Geschwindigkeit von etwa 90-95 mph, der etwa 400 Millisekunden (ms) braucht, um den Handschuh des Fängers zu erreichen. Sie schwingen und verfehlen den ersten Wurf, weil Ihr Timing nicht ganz richtig war. Sie fragen sich, ob Sie etwas früher oder etwas später hätten ausholen sollen, um einen Homerun zu schlagen. Diese Zeitdifferenz kann als Fehlerspanne betrachtet werden und gibt Aufschluss darüber, wie nah oder weit Ihr Timing vom durchschnittlichen Homerun-Schwung entfernt war.

Fehlerspanne im Marketing

Die Fehlerspanne ist auch im Marketing wichtig. Nehmen wir das A/B-Testing als Beispiel. Bei A/B-Tests (oder Split-Tests) werden zwei Varianten derselben Webseite getestet, um festzustellen, welche Seite erfolgreicher ist, um Nutzer anzuziehen und Umsatz zu generieren. Der Nutzerverkehr, der monetarisiert wird, wird als Conversion-Rate bezeichnet. Mit A/B-Tests können Marketingexperten E-Mails, Anzeigen und Landing Pages testen, um die Daten zu ermitteln, die hinter dem stehen, was funktioniert und was nicht funktioniert. Marketer verwenden das Konfidenzintervall (bestimmt durch die Conversion-Rate und die Fehlerspanne), um die Ergebnisse zu verstehen.

Nehmen wir zum Beispiel an, Sie führen einen A/B-Test durch, um die Effektivität von zwei verschiedenen E-Mail-Betreffzeilen zu vergleichen, mit denen Eigentümer zum Öffnen der E-Mail verleitet werden sollen. Sie stellen fest, dass die Betreffzeile A: „Sonderangebot nur für Sie“ zu einer Öffnungsrate von 5 % führt, verglichen mit der Betreffzeile B: „Verpassen Sie diese Gelegenheit nicht“ mit 3 %.

Bedeutet das, dass die Betreffzeile A besser ist als die Betreffzeile B? Das hängt von Ihrer Fehlerspanne ab. Wenn die Fehlerspanne 2 % beträgt, dann liegt die tatsächliche Öffnungsrate oder das Konfidenzintervall von Betreffzeile A irgendwo zwischen 3 % und 7 %. Da sich das untere Ende des Intervalls mit den Ergebnissen von Betreffzeile B bei 3 % überschneidet, können Sie nicht zu dem Schluss kommen, dass ein statistisch signifikanter Unterschied zwischen Betreffzeile A und B besteht. Die Untersuchung der Fehlerspanne ist wichtig, wenn Sie auf der Grundlage Ihrer Testergebnisse Schlussfolgerungen ziehen.

Möchten Sie Ihre Fehlerspanne berechnen?

Alles, was Sie brauchen, sind die Populationsgröße, das Konfidenzniveau und die Stichprobe. Um diesen Rechner besser zu verstehen, sollten Sie sich diese Begriffe ansehen:

  • Konfidenzniveau: Ein Prozentsatz, der angibt, wie wahrscheinlich es ist, dass Ihre Stichprobe die Grundgesamtheit genau widerspiegelt

  • Population: Die Gesamtzahl, aus der Sie Ihre Stichprobe ziehen

  • Stichprobe: Ein Teil einer Population, der für die Population repräsentativ ist

  • Fehlerspanne: Die maximale Abweichung der Stichprobenergebnisse von denen der tatsächlichen Population

In den meisten Fällen wird ein Konfidenzniveau von 90% oder 95% verwendet. Aber je nach Branche sollten Sie vielleicht ein strengeres Konfidenzniveau festlegen. Ein Konfidenzniveau von 99% ist in einigen Branchen angemessen, z.B. in der Pharmaindustrie.

Nachdem Sie sich auf Ihre Populationsgröße, die Stichprobe und das Konfidenzniveau geeinigt haben, geben Sie die Informationen in einen Fehlerspannen-Rechner wie den unten stehenden ein:

Die wichtigsten Erkenntnisse

Die Fehlerspanne wird verwendet, um festzustellen, wie nahe das Ergebnis Ihrer Stichprobe an dem Ergebnis liegt, das wahrscheinlich zustande gekommen wäre, wenn Sie die gesamte Population hätten befragen oder testen können. Die Fehlerspanne hilft Ihnen, Umfrage- oder Testergebnisse in der Praxis zu verstehen und zu interpretieren. Die Berechnung der Fehlerspanne ist besonders hilfreich, wenn Sie die Daten zur Analyse erhalten. Nachdem Sie die Fehlerspanne mit einem Rechner berechnet haben, wissen Sie, wie stark die Ergebnisse der Stichprobe von den Ergebnissen der gesamten Population abweichen könnten.

Glossarbegriffe aus Modul 1

Begriffe und Definitionen für Kurs 4, Modul 1

Genauigkeit: Der Grad, in dem die Daten mit der tatsächlich gemessenen oder beschriebenen Einheit übereinstimmen

Vollständigkeit: Der Grad, in dem die Daten alle gewünschten Komponenten oder Maße enthalten

Konfidenzintervall: Ein Bereich von Werten, der angibt, wie wahrscheinlich es ist, dass eine statistische Schätzung die Bevölkerung widerspiegelt

Konfidenzniveau: Die Wahrscheinlichkeit, dass eine Stichprobe die Grundgesamtheit genau widerspiegelt

Einheitlichkeit: Das Ausmaß, in dem Daten von verschiedenen Angriffspunkten oder Erhebungen aus wiederholbar sind

Feldübergreifende Validierung: Ein Prozess, der sicherstellt, dass bestimmte Bedingungen für mehrere Datenfelder erfüllt sind

Dateneinschränkungen: Die Kriterien, die bestimmen, ob ein Teil der Daten sauber und gültig ist

Datenintegrität: Die Genauigkeit, Vollständigkeit, Konsistenz und Vertrauenswürdigkeit von Daten während ihres gesamten Lebenszyklus

Datenmanipulation: Der Prozess der Änderung von Daten, um sie übersichtlicher und leichter lesbar zu machen

Datenbereich: Numerische Werte, die zwischen vordefinierten Höchst- und Mindestwerten liegen

Datenreplikation: Der Prozess der Speicherung von Daten an mehreren Orten

DATEDIF: Eine Funktion in einer Tabelle, die die Anzahl der Tage, Monate oder Jahre zwischen zwei Daten berechnet

Geschätzte Rücklaufquote: Die durchschnittliche Anzahl der Personen, die eine Umfrage typischerweise ausfüllen

Hypothesentest: Ein Prozess, mit dem festgestellt wird, ob eine Umfrage oder ein Experiment aussagekräftige Ergebnisse liefert

Obligatorisch: Ein Datenwert, der nicht leer gelassen werden kann

Fehlerspanne: Die maximale Abweichung der Stichprobenergebnisse von denen der tatsächlichen Population

Zufallsstichproben: Ein Verfahren zur Auswahl einer Stichprobe aus einer Population, bei dem jeder mögliche Typ der Stichprobe die gleiche Chance hat, ausgewählt zu werden

Regulärer Ausdruck (RegEx): Eine Regel, die besagt, dass die Werte in einer Tabelle einem vorgegebenen Muster entsprechen müssen

Räumen Sie auf!

Video 122

Warum Datenbereinigung so wichtig ist

Video 123

Angie: Ich liebe es, Daten zu bereinigen

Video 124

Was sind schmutzige Daten?

 

Wir haben bereits besprochen, dass es sich bei schmutzigen Daten um Daten handelt, die unvollständig, falsch oder irrelevant für das Problem sind, das Sie zu lösen versuchen. Diese Lektüre fasst zusammen:

  • Arten von schmutzigen Daten, denen Sie begegnen können

  • Was kann die Ursache für die Verschmutzung der Daten sein?

  • Wie schmutzige Daten für Unternehmen schädlich sind

Arten von schmutzigen Daten

Icons of the 6 types of dirty data: duplicate, outdated, incomplete, incorrect and inconsistent data

Doppelte Daten

Beschreibung

Mögliche Ursachen

Potenzieller Schaden für Unternehmen

Jeder Datensatz, der mehr als einmal auftaucht

Manuelle Dateneingabe, Batch-Datenimporte oder Datenmigration

Verzerrte Metriken oder Analysen, überhöhte oder ungenaue Zählungen oder Vorhersagen oder Verwirrung beim Abrufen von Daten

Veraltete Daten

Beschreibung

Mögliche Ursachen

Potenzieller Schaden für Unternehmen

Alle alten Daten, die durch neuere und genauere Informationen ersetzt werden sollten

Personen, die ihre Rolle oder ihr Unternehmen wechseln, oder Software und Systeme, die veraltet sind

Ungenaue Einblicke, Entscheidungsfindung und Analytics

Unvollständige Daten

Beschreibung

Mögliche Ursachen

Potenzieller Schaden für Unternehmen

Alle Daten, bei denen wichtige Felder fehlen

Unsachgemäße Datenerfassung oder falsche Dateneingabe

Geringere Produktivität, ungenaue Statistiken oder die Unfähigkeit, wichtige Dienstleistungen zu erbringen

Falsche/ungenaue Daten

Beschreibung

Mögliche Ursachen

Potenzieller Schaden für Unternehmen

Daten, die zwar vollständig, aber ungenau sind

Menschliche Fehler bei der Dateneingabe, gefälschte Informationen oder Scheindaten

Ungenaue Statistiken oder Entscheidungsfindung auf der Grundlage schlechter Informationen, die zu Umsatzverlusten führen

Uneinheitliche Daten

Beschreibung

Mögliche Ursachen

Potenzieller Schaden für Unternehmen

Alle Daten, die unterschiedliche Formate zur Darstellung derselben Sache verwenden

Falsch gespeicherte Daten oder bei der Datenübertragung eingefügte Fehler

Widersprüchliche Datenpunkte, die zu Verwirrung oder zur Unfähigkeit führen, Kunden zu klassifizieren oder zu segmentieren

Geschäftliche Auswirkungen schmutziger Daten

Wenn Sie mehr über die geschäftlichen Auswirkungen schmutziger Daten erfahren möchten, geben Sie den Begriff „Schmutzige Daten“ in die Suchleiste Ihres Browsers ein, um zahlreiche Artikel zu diesem Thema anzuzeigen. Hier sind einige Auswirkungen für bestimmte Branchen, die bei einer früheren Suche gefunden wurden:

  • Bankwesen: Ungenauigkeiten kosten Unternehmen zwischen 15% und 25% des Umsatzes(Quelle).

  • Digitaler Handel: Bis zu 25% der B2B-Datenbankkontakte weisen Ungenauigkeiten auf(Quelle).

  • Marketing und Vertrieb: 99% der Unternehmen befassen sich in irgendeiner Form aktiv mit der Datenqualität(Quelle).

  • Gesundheitswesen: Doppelte Datensätze können 10 % und sogar bis zu 20 % der elektronischen Gesundheitsdaten eines Krankenhauses ausmachen(Quelle).

Die wichtigsten Erkenntnisse

Schmutzige Daten umfassen doppelte Daten, veraltete Daten, unvollständige Daten, falsche oder ungenaue Daten und inkonsistente Daten. Jede Art von schmutzigen Daten kann erhebliche Auswirkungen auf Analysen haben und zu ungenauen Statistiken, schlechten Entscheidungen und Umsatzverlusten führen. Es gibt eine Reihe von Ursachen für schmutzige Daten, darunter Fehler bei der manuellen Dateneingabe, Batch-Datenimporte, Datenmigration, veraltete Software, unsachgemäße Datenerfassung und menschliche Fehler bei der Dateneingabe. Als Datenexperte können Sie die Auswirkungen schmutziger Daten durch die Implementierung effektiver Prozesse für die Datenqualität eindämmen.

Schmutzige Daten erkennen und beseitigen

Video 125

Tools und Techniken zur Bereinigung von Daten

Video 126

Bereinigte Daten aus mehreren Quellen

Video 127

 

Häufige Fallstricke bei der Bereinigung von Daten

In dieser Lektüre erfahren Sie, wie wichtig die Datenbereinigung ist und wie Sie häufige Fehler erkennen können. Einige der Fehler, auf die Sie bei der Bereinigung Ihrer Daten stoßen könnten, sind:

list of common errors in data cleaning

Häufige Fehler, die Sie vermeiden sollten

  • Keine Überprüfung auf Rechtschreibfehler: Rechtschreibfehler können so einfach sein wie Tipp- oder Eingabefehler. In den meisten Fällen lassen sich falsche Schreibweisen oder gewöhnliche grammatikalische Fehler erkennen, aber bei Dingen wie Namen oder Adressen wird es schwieriger. Wenn Sie zum Beispiel mit einer Tabelle mit Kundendaten arbeiten, stoßen Sie vielleicht auf einen Kunden namens „John“, dessen Name an einigen Stellen fälschlicherweise als „Jon“ eingegeben wurde. Die Rechtschreibprüfung der Tabelle wird dies wahrscheinlich nicht bemerken. Wenn Sie also nicht noch einmal auf Rechtschreibfehler prüfen und diese entdecken, wird Ihre Analyse Fehler enthalten.

  • Vergessen Sie, Fehler zu dokumentieren: Das Dokumentieren von Fehlern kann eine große Zeitersparnis bedeuten, da es Ihnen hilft, diese Fehler in Zukunft zu vermeiden, indem es Ihnen zeigt, wie Sie sie behoben haben. Sie könnten zum Beispiel einen Fehler in einer Formel in Ihrer Tabelle finden. Sie stellen fest, dass einige der Datumsangaben in einer Ihrer Spalten nicht korrekt formatiert wurden. Wenn Sie sich diese Korrektur notieren, können Sie beim nächsten Mal, wenn Ihre Formel fehlerhaft ist, darauf verweisen und sich einen Vorsprung bei der Fehlerbehebung verschaffen. Die Dokumentation Ihrer Fehler hilft Ihnen auch dabei, Änderungen an Ihrer Arbeit zu verfolgen, so dass Sie zurückverfolgen können, wenn eine Korrektur nicht funktioniert hat.

  • Keine Überprüfung auf falsch eingegebene Werte: Ein falsch eingegebener Wert entsteht, wenn die Werte in das falsche Feld eingegeben werden. Diese Werte können immer noch korrekt formatiert sein, was es schwieriger macht, sie zu erkennen, wenn Sie nicht vorsichtig sind. Ein Beispiel: Sie haben ein Dataset mit Spalten für Städte und Länder. Da es sich dabei um denselben Datentyp handelt, sind sie leicht zu verwechseln. Wenn Sie jedoch versuchen, alle Instanzen von Spanien in der Länderspalte zu finden, und Spanien versehentlich in die Stadtspalte eingegeben wurde, würden Ihnen wichtige Datenpunkte entgehen. Die korrekte Eingabe Ihrer Daten ist der Schlüssel zu einer genauen und vollständigen Analyse.

  • FehlendeWerte übersehen: Fehlende Werte in Ihrem Dataset können Fehler verursachen und zu ungenauen Schlussfolgerungen führen. Wenn Sie beispielsweise versuchen, die Gesamtzahl der Verkäufe der letzten drei Monate zu ermitteln, aber eine Woche der Transaktionen fehlt, wären Ihre Berechnungen ungenau. Versuchen Sie, Ihre Daten so sauber wie möglich zu halten, indem Sie auf Vollständigkeit und Einheitlichkeit achten.

  • Betrachten Sie nur eine Teilmenge der Daten: Es ist wichtig, dass Sie bei der Bereinigung an alle relevanten Daten denken. So stellen Sie sicher, dass Sie die gesamte Story verstehen, die die Daten erzählen, und dass Sie auf alle möglichen Fehler achten. Wenn Sie z.B. mit Daten über Vogelzugmuster aus verschiedenen Quellen arbeiten, aber nur eine Quelle bereinigen, bemerken Sie vielleicht nicht, dass einige der Daten wiederholt werden. Dies wird später in Ihrer Analyse zu Problemen führen. Wenn Sie häufige Fehler wie Duplikate vermeiden wollen, müssen Sie jedem Feld Ihrer Daten die gleiche Aufmerksamkeit widmen.

  • Sie verlieren dieZiele des Unternehmens aus den Augen: Wenn Sie Daten bereinigen, machen Sie vielleicht neue und interessante Entdeckungen über Ihr Dataset – aber Sie wollen nicht, dass diese Entdeckungen Sie von der eigentlichen Aufgabe ablenken. Wenn Sie z.B. mit Wetterdaten arbeiten, um die durchschnittliche Anzahl der Regentage in Ihrer Stadt zu ermitteln, könnten Sie auch einige interessante Muster in Bezug auf Schneefall entdecken. Das ist wirklich interessant, aber es hat nichts mit der Frage zu tun, die Sie gerade zu beantworten versuchen. Neugierig zu sein ist großartig! Aber lassen Sie sich davon nicht von der aktuellen Aufgabe ablenken.

  • Sie beheben die Fehlerursache nicht: Die Behebung des Fehlers selbst ist wichtig. Aber wenn dieser Fehler Teil eines größeren Problems ist, müssen Sie die Ursache des Problems finden. Sonst müssen Sie denselben Fehler immer wieder beheben. Stellen Sie sich zum Beispiel vor, Sie haben eine Tabelle für Ihr Team, in der Sie den Fortschritt aller Mitarbeiter verfolgen. Die Tabelle bricht ständig zusammen, weil verschiedene Personen unterschiedliche Werte eingeben. Sie können alle diese Probleme einzeln beheben oder Sie können Ihre Tabelle so einrichten, dass die Dateneingabe rationalisiert wird, so dass alle auf derselben Seite stehen. Wenn Sie die Fehler in Ihren Daten an der Wurzel packen, sparen Sie auf lange Sicht viel Zeit.

  • Keine Analyse des Systems vor der Datenbereinigung: Wenn wir unsere Daten bereinigen und künftige Fehler vermeiden wollen, müssen wir die Grundursache für Ihre schmutzigen Daten verstehen. Stellen Sie sich vor, Sie sind ein Automechaniker. Sie würden die Ursache des Problems herausfinden, bevor Sie mit der Reparatur des Autos beginnen, richtig? Das Gleiche gilt für Daten. Zuerst finden Sie heraus, woher die Fehler kommen. Vielleicht liegt es an einem Fehler bei der Dateneingabe, an einer nicht eingerichteten Rechtschreibprüfung, an fehlenden Formaten oder an Duplikaten. Wenn Sie dann wissen, woher schlechte Daten kommen, können Sie sie kontrollieren und Ihre Daten sauber halten.

  • Keine Sicherung Ihrer Daten vor der Datenbereinigung: Es ist immer gut, proaktiv zu sein und eine Datensicherung zu erstellen, bevor Sie mit der Datenbereinigung beginnen. Wenn Ihr Programm abstürzt oder Ihre Änderungen ein Problem in Ihrem Dataset verursachen, können Sie jederzeit zu der gesicherten Version zurückkehren und diese wiederherstellen. Das einfache Verfahren der Datensicherung kann Ihnen stundenlange Arbeit ersparen – und vor allem Kopfschmerzen.

  • Keine Ressourcenerfassung für die Datenbereinigung in Ihren Fristen/Prozessen: Alles Gute braucht seine Zeit, und das gilt auch für die Datenbereinigung. Es ist wichtig, dass Sie dies berücksichtigen, wenn Sie Ihren Prozess durchgehen und sich Ihre Fristen ansehen. Wenn Sie Zeit für die Datenbereinigung einplanen, erhalten Sie eine genauere Schätzung der ETAs für die Stakeholder und können wissen, wann Sie eine Anpassung der ETA beantragen müssen.

Die wichtigsten Erkenntnisse

Die Bereinigung von Daten ist für eine genaue Analyse und Entscheidungsfindung unerlässlich. Zu den häufigen Fehlern, die Sie bei der Bereinigung von Daten vermeiden sollten, gehören Rechtschreibfehler, falsch eingegebene Werte, fehlende Werte, die Betrachtung nur einer Teilmenge der Daten, die Vernachlässigung von Geschäftszielen, die Nichtbehebung der Fehlerquelle, die Nichtanalyse des Systems vor der Datenbereinigung, die fehlende Sicherung Ihrer Daten vor der Datenbereinigung und die fehlende Ressourcenerfassung in Ihren Fristen/Prozessen. Wenn Sie diese Fehler vermeiden, können Sie sicherstellen, dass Ihre Daten sauber und genau sind, was zu besseren Ergebnissen für Ihr Unternehmen führt.

Zusätzliche Ressourcen

Diese „Top Ten“-Listen zur Datenbereinigung in Microsoft Excel und Google Sheets helfen Ihnen, die häufigsten Fehler zu vermeiden:

Datenbereinigungsfunktionen in Tabellen

Video 128

Optimieren Sie den Prozess zur Bereinigung der Daten

Video 129

Automatisierung von Arbeitsabläufen

In dieser Lektüre erfahren Sie etwas über Workflow-Automatisierung und wie Sie damit schneller und effizienter arbeiten können. Grundsätzlich ist Workflow-Automatisierung der Prozess der Automatisierung von Teilen Ihrer Arbeit. Das könnte bedeuten, dass Sie einen Ereignisauslöser erstellen, der eine Benachrichtigung sendet, wenn ein System aktualisiert wird. Oder es könnte bedeuten, Teile des Prozesses der Datenbereinigung zu automatisieren. Wie Sie sich wahrscheinlich vorstellen können, können Sie durch die Automatisierung verschiedener Teile Ihrer Arbeit viel Zeit sparen, die Produktivität steigern und mehr Zeit für andere wichtige Aspekte Ihrer Arbeit haben.

An image of an alarm clock and an image of a person sitting at a desk with a computer

Was kann automatisiert werden?

Automatisierung klingt fantastisch, nicht wahr? Aber so praktisch sie auch ist, es gibt immer noch einige Teile der Arbeit, die nicht automatisiert werden können. Lassen Sie uns einen Blick auf einige Dinge werfen, die wir automatisieren können, und einige, die nicht automatisiert werden können.

Aufgabe

Kann sie automatisiert werden?

Und warum?

Kommunikation mit Ihrem Team und Ihren Stakeholdern

Nein

Kommunikation ist der Schlüssel zum Verständnis der Bedürfnisse Ihres Teams und Ihrer Stakeholder bei der Erledigung der Aufgaben, an denen Sie arbeiten. Es gibt keinen Ersatz für die Kommunikation von Mensch zu Mensch.

Präsentation Ihrer Ergebnisse

Nein

Die Präsentation Ihrer Daten ist ein wichtiger Teil Ihrer Arbeit als Fachkraft für Datenanalyse. Daten für Stakeholder zugänglich und verständlich zu machen und Datenvisualisierungen zu erstellen, kann aus denselben Gründen nicht automatisiert werden wie die Kommunikation.

Aufbereitung und Bereinigung von Daten

Teilweise

Einige Aufgaben bei der Datenvorbereitung und -bereinigung können durch die Einrichtung spezifischer Prozesse automatisiert werden, wie z.B. die Verwendung eines Scripting-Skripts zur automatischen Erkennung fehlender Werte.

Erkundung von Daten

Teilweise

Manchmal ist der beste Weg, Daten zu verstehen, sie zu sehen. Glücklicherweise gibt es eine Vielzahl von Tools, die den Prozess der Visualisierung von Daten automatisieren können. Diese Tools können den Prozess der Visualisierung und des Verständnisses der Daten beschleunigen, aber die eigentliche Exploration muss immer noch von einer Fachkraft für Datenanalyse durchgeführt werden.

Modellierung der Daten

Ja

Die Datenmodellierung ist ein schwieriger Prozess, bei dem viele verschiedene Faktoren eine Rolle spielen. Glücklicherweise gibt es Tools, die die verschiedenen Phasen vollständig automatisieren können.

Mehr über die Automatisierung der Datenbereinigung

Eine der wichtigsten Möglichkeiten zur Rationalisierung Ihrer Datenbereinigung besteht darin, die Daten dort zu bereinigen, wo sie sich befinden. Davon profitiert Ihr gesamtes Team, und es bedeutet auch, dass Sie den Prozess nicht ständig wiederholen müssen. Sie könnten zum Beispiel ein Programmierscript erstellen, das die Anzahl der Wörter in jeder in einem bestimmten Ordner gespeicherten Tabellendatei zählt. Die Verwendung von Tools, die dort eingesetzt werden können, wo Ihre Daten gespeichert sind, bedeutet, dass Sie Ihre Bereinigungsschritte nicht wiederholen müssen, was Ihnen und Ihrem Team Zeit und Energie spart.

Weitere Ressourcen

Es gibt eine Vielzahl von Tools, die Ihnen bei der Automatisierung Ihrer Prozesse helfen können, und diese Tools werden ständig verbessert. Hier finden Sie einige Artikel und Blogs, die Sie lesen können, wenn Sie mehr über die Automatisierung von Arbeitsabläufen und die verschiedenen Tools erfahren möchten, die Ihnen zur Verfügung stehen:

Die wichtigsten Erkenntnisse

Als Fachkraft für Datenanalyse können Sie durch Automatisierung viel Zeit und Energie sparen und sich mehr auf andere Teile Ihres Projekts konzentrieren. Je mehr Analysen Sie durchführen, desto mehr Möglichkeiten werden Sie finden, um Ihre Prozesse zu vereinfachen und zu rationalisieren.

Unterschiedliche Datenperspektiven

Video 130

Noch mehr Techniken zur Bereinigung von Daten

Video 131

Arbeiten mit .csv-Dateien

In einem früheren Kurs dieses Programms haben Sie mit .csv-Dateien gearbeitet. Da Fachkräfte für Datenanalyse häufig CSV-Dateien verwenden, werden Sie in diesem Kurs weiterhin CSV-Dateien verwenden, um Daten in Datenanalyseprogramme zur weiteren Analyse und Visualisierung zu übertragen. .csv-Dateien sind einfache Textdateien mit einer organisierten Tabellenstruktur, die Zeilen und Spalten enthält. Die Werte in jeder Zeile sind durch Kommas getrennt. Dank dieser Tabellenstruktur sind sie leicht zu verstehen, zu bearbeiten, zu manipulieren und für die Datenanalyse zu verwenden.

Ein großer Vorteil von CSV-Dateien ist ihre weitreichende Kompatibilität: Sie können von einer Vielzahl von Tools und Programmen zur Datenanalyse importiert und exportiert werden.

.csv-Dateien herunterladen

Um .csv-Dateien zu verwenden und sie in Datenanalyseprogramme hochzuladen, müssen Sie sie zunächst auf Ihr lokales Gerät herunterladen. Das Herunterladen einer .csv-Datei von einer Website kann je nach Betriebssystem oder Internet-Browser variieren. Hier sind einige Möglichkeiten, wie Sie eine CSV-Datei herunterladen können:

  • Klicken Sie auf den Download-Link oder den .csv-Anhang: Suchen Sie den Link für die CSV-Datei oder den Anhang auf der Website. Klicken Sie darauf, und der Prozess des Herunterladens wird gestartet.

  • Klicken Sie mit der rechten Maustaste und speichern Sie: Klicken Sie mit der rechten Maustaste auf die Datentabelle oder das Element, das die CSV-Daten enthält. Wählen Sie Speichern unter... oder eine ähnliche Option. Benennen Sie die Datei und achten Sie darauf, dass die Dateiendung „.csv“ lautet.

  • Download erzwingen: Sie können die Alt-Taste auf Ihrer Tastatur drücken, während Sie auf den Link klicken. Dadurch wird der Download ausgelöst, und Sie können die CSV-Datei in Ihrem Download-Ordner finden.

Hinweis: Wenn Sie den Chrome-Browser oder ChromeOS verwenden, werden CSV-Dateien möglicherweise in einer neuen Registerkarte geöffnet, anstatt auf Ihren Computer heruntergeladen zu werden. Befolgen Sie in diesem Fall die folgenden Anweisungen:

  • Wählen Sie in der Menüleiste “ Datei“ und dann „ Als Google Sheets speichern„. Dadurch wird die CSV-Datei als Google Sheet geöffnet.

  • Wählen Sie in der Menüleiste Datei und dann Download aus dem Dropdown-Menü und wählen Sie Kommagetrennte Werte (.csv).

Hochladen von .csv-Dateien

Während des Prozesses der Datenanalyse werden Sie häufig .csv-Dateien hochladen müssen. So gehen Sie vor:

  • Suchen Sie die Upload-Option: Jede Plattform für die Datenanalyse verfügt über eine Schaltfläche, eine Menüoption oder einen Drag-and-Drop-Bereich mit der Bezeichnung Upload oder Import. Hier können Sie Ihre CSV-Datei hochladen.

  • Wählen Sie Ihre .csv-Datei: Klicken Sie auf der von Ihnen verwendeten Plattform auf Hochladen oder Importieren, um Ihren Datei-Explorer zu öffnen. Wählen Sie Ihre .csv-Datei. Wenn Sie gerade eine CSV-Datei aus dem Internet heruntergeladen haben, befindet sie sich im Ordner Downloads Ihres Computers.

  • Initiieren Sie den Upload: Sobald Sie Ihre CSV-Datei ausgewählt haben, klicken Sie auf Hochladen oder Importieren.Die Plattform zeigt möglicherweise einen Fortschrittsbalken oder eine Meldung an, die besagt, dass der Upload abgeschlossen ist.

Hinweis: Einige Plattformen haben Beschränkungen hinsichtlich der Dateigröße oder des Formats von CSV-Dateien. Stellen Sie vor dem Hochladen sicher, dass Ihre CSV-Dateien diesen Anforderungen entsprechen.

Die wichtigsten Erkenntnisse

Programme zur Datenanalyse helfen uns dabei, aus Daten Erkenntnisse und Wissen zu gewinnen. Die Verwendung von .csv-Dateien ist für die Datenanalyse unerlässlich. Wenn Sie verstehen, wie Sie Daten einfach aus dem Internet herunterladen oder Ihre Daten zu diesen Programmen hinzufügen können, können Sie Datenbereinigung, Visualisierung, Analyse und vieles mehr durchführen!

Entwickeln Sie Ihren Ansatz zur Bereinigung von Daten

Wenn Sie Ihre Datenreise fortsetzen, werden Sie wahrscheinlich feststellen, dass Daten oft unordentlich sind – und Sie können davon ausgehen, dass rohe, primäre Daten unvollkommen sind. In dieser Lektüre werden Sie überlegen, wie Sie Ihren persönlichen Ansatz zur Bereinigung von Daten entwickeln können. Sie werden die Idee einer Bereinigungscheckliste kennenlernen, die Sie als Leitfaden für Ihren Bereinigungsprozess verwenden können. Dann werden Sie Ihre bevorzugten Methoden zur Bereinigung von Daten definieren. Wenn Sie diese Lektüre beendet haben, werden Sie besser verstehen, wie Sie den Prozess der Datenbereinigung methodisch angehen können. So sparen Sie bei der Datenbereinigung Zeit und können sicherstellen, dass Ihre Daten sauber und brauchbar sind.

Überlegen Sie, wie Sie bei der Bereinigung von Daten vorgehen

Die Datenbereinigung erfordert in der Regel viel Zeit, Energie und Aufmerksamkeit. Es gibt jedoch zwei Schritte, die Sie im Vorfeld unternehmen können, um Ihren Prozess zu rationalisieren: Erstellen Sie eine Bereinigungscheckliste und entscheiden Sie sich für Ihre bevorzugten Methoden. So stellen Sie sicher, dass Sie genau wissen, wie Sie an die Datenbereinigung herangehen wollen und was Sie tun müssen, um sich auf die Integrität Ihrer Daten verlassen zu können.

Ihre Bereinigungscheckliste

Beginnen Sie mit der Entwicklung Ihres persönlichen Ansatzes zur Datenbereinigung, indem Sie eine Checkliste erstellen, die Ihnen hilft, Probleme in Ihren Daten effizient zu identifizieren und den Umfang Ihres Datasets zu bestimmen. Betrachten Sie diese Checkliste als Ihre Standardliste „wonach Sie suchen müssen“.

Im Folgenden finden Sie einige Beispiele für gängige Datenbereinigungsaufgaben, die Sie in Ihre Checkliste aufnehmen könnten:

  • Bestimmen Sie den Umfang des Datasets: Bei großen Datasets gibt es möglicherweise mehr Probleme mit der Datenqualität und die Verarbeitung dauert länger. Dies kann Auswirkungen auf die Wahl der Datenbereinigungstechniken haben und darauf, wie viel Zeit Sie für das Projekt einplanen müssen.

  • Bestimmen Sie die Anzahl der Kategorien oder Beschriftungen: Wenn Sie die Anzahl und Art der Kategorien und Beschriftungen in einem Dataset verstehen, können Sie die Diversität des Datasets besser einschätzen. Dieses Verständnis hilft auch bei der Festlegung von Datenzusammenführungs- und Migrationsstrategien.

  • Identifizieren Sie fehlende Daten: Das Erkennen fehlender Daten hilft Ihnen, die Datenqualität zu verstehen, damit Sie geeignete Schritte zur Behebung des Problems unternehmen können. Datenintegrität ist wichtig für eine genaue und unvoreingenommene Analyse.

  • Identifizieren Sie unformatierte Daten: Das Erkennen von unsachgemäß oder inkonsistent formatierten Daten hilft Fachkräften, die Einheitlichkeit der Daten sicherzustellen. Dies ist für eine genaue Analyse und Visualisierung unerlässlich.

  • Erforschen Sie die verschiedenen Datentypen: Das Verständnis der Datentypen in Ihrem Dataset (z.B. numerisch, kategorisch, Text) hilft Ihnen bei der Auswahl geeigneter Bereinigungsmethoden und der Anwendung relevanter Datenanalyseverfahren.

Vielleicht gibt es noch andere Datenbereinigungsaufgaben, die Sie kennengelernt haben und die Sie ebenfalls in Ihrer Checkliste priorisieren möchten. Ihre Checkliste bietet Ihnen die Möglichkeit, genau festzulegen, woran Sie sich bei der Bereinigung Ihrer Daten erinnern wollen; machen Sie sie zu Ihrer eigenen.

Ihre bevorzugten Bereinigungsmethoden

Erstellen Sie nicht nur eine Checkliste, sondern legen Sie auch fest, welche Aktionen oder Tools Sie bei der Bereinigung von Daten am liebsten verwenden. Sie werden diese Tools und Techniken bei jedem neuen Dataset verwenden – oder immer dann, wenn Sie in einem Dataset auf Probleme stoßen – daher sollte diese Liste mit Ihrer Checkliste kompatibel sein.

Nehmen wir zum Beispiel an, Sie haben ein großes Dataset mit fehlenden Daten. Bevor Sie mit der Bereinigung beginnen, sollten Sie wissen, wie Sie in größeren Datasets auf fehlende Daten prüfen und wie Sie mit fehlenden Daten umgehen wollen. Wenn Sie Ihre bevorzugten Methoden skizzieren, können Sie viel Zeit und Energie sparen.

Die wichtigsten Erkenntnisse

Die Daten, auf die Sie als Analytiker stoßen, werden nicht immer Ihrer Checkliste oder Ihren bevorzugten Maßnahmen und Tools entsprechen. Aber wenn Sie diese Dinge haben, können Sie die üblichen Datenbereinigungsaufgaben viel einfacher erledigen. Wie so oft ist eine sorgfältige Planung die Grundlage für den Erfolg eines jeden Projekts!

Glossarbegriffe aus Modul 2

Begriffe und Definitionen für Kurs 4, Modul 2

Bereinigte Daten: Daten, die vollständig, korrekt und für das zu lösende Problem relevant sind

Kompatibilität: Wie gut zwei oder mehr Datasets zusammenarbeiten können

VERKETTEN: Eine Funktion der Tabellenkalkulation, die zwei oder mehr Textzeichenfolgen miteinander verbindet

Bedingte Formatierung: Ein Tabellenkalkulationstool, das die Darstellung von Zellen ändert, wenn Werte bestimmte Bedingungen erfüllen

Data Engineer: Ein Fachmann, der Daten in ein für die Analyse nützliches Format umwandelt und ihnen eine zuverlässige Infrastruktur verleiht

Datenzuordnung: Der Prozess des Abgleichs von Feldern aus einer Datenquelle mit einer anderen

Datenzusammenführung: Der Prozess der Kombination von zwei oder mehr Datasets zu einem einzigen Dataset

Datenvalidierung: Ein Werkzeug zur Überprüfung der Genauigkeit und Qualität von Daten

Data-Warehousing-Spezialist: Ein Fachmann, der Prozesse und Verfahren entwickelt, um Daten effektiv zu speichern und zu organisieren

Trennzeichen: Ein Zeichen, das den Anfang oder das Ende eines Datenelements angibt

Schmutzige Daten: Daten, die unvollständig, falsch oder für das zu lösende Problem irrelevant sind

Doppelte Daten: Jeder Datensatz, der versehentlich Daten mit einem anderen Datensatz teilt

Feldlänge: Ein Tool, mit dem Sie bestimmen können, wie viele Zeichen in ein Feld der Tabelle eingegeben werden können

Unvollständige Daten: Daten, bei denen wichtige Felder fehlen

Uneinheitliche Daten: Daten, die unterschiedliche Formate verwenden, um das Gleiche darzustellen

Falsche/ungenaue Daten: Daten, die zwar vollständig, aber ungenau sind

LEFT: Eine Funktion, die eine bestimmte Anzahl von Zeichen von der linken Seite einer Textzeichenfolge zurückgibt

LÄNGE: Eine Funktion, die die Länge einer Textzeichenfolge zurückgibt, indem sie die Anzahl der darin enthaltenen Zeichen zählt

Länge: Die Anzahl der Zeichen in einer Textzeichenfolge

Fusion: Eine Vereinbarung, die zwei Organisationen zu einer einzigen neuen vereinigt

TEIL: Eine Funktion, die ein Segment aus der Mitte einer Textzeichenfolge zurückgibt

NULL-Wert: Ein Hinweis darauf, dass ein Wert in einem Dataset nicht vorhanden ist

Veraltete Daten: Alle Daten, die durch neuere und genauere Informationen ersetzt wurden

Duplikate entfernen: Ein Tool für Tabellenkalkulationen, das automatisch nach doppelten Einträgen in einer Tabelle sucht und diese eliminiert

Aufteilen: Eine Funktion, die den Text um ein bestimmtes Zeichen herum aufteilt und jedes Fragment in eine neue, separate Zelle setzt

Teilzeichenfolge: Eine kleinere Teilmenge einer Textzeichenfolge

Textzeichenfolge: Eine Gruppe von Zeichen innerhalb einer Zelle, die meist aus Buchstaben besteht

TRIM: Eine Funktion, die führende, nachgestellte und wiederholte Leerzeichen in Daten entfernt

Einzigartig: Ein Wert, für den es keine Duplikate geben kann

Bereinigen Sie Daten mit SQL

Video 132

Sally: Aus Liebe zu SQL

Video 133

Verstehen der SQL-Funktionen

Video 134

Wie eine Junior Fachkraft für Datenanalyse SQL verwendet

In dieser Lektüre erfahren Sie mehr darüber, wie Sie entscheiden, wann Sie SQL oder die Structured Query Language verwenden sollten. Als Fachkraft für Datenanalyse werden Sie mit einer Vielzahl von Daten umgehen müssen, und SQL ist eines der Tools, die Ihnen die Arbeit erleichtern können. SQL ist die wichtigste Methode, mit der Fachkräfte für Datenanalyse Daten aus Datenbanken extrahieren. Als Fachkraft für Datenanalyse werden Sie ständig mit Datenbanken arbeiten, weshalb SQL eine wichtige Schlüsselqualifikation darstellt. Lassen Sie uns mitverfolgen, wie eine Junior-Fachkraft für Datenanalyse SQL zur Lösung einer unternehmensbezogenen Aufgabe einsetzt.

Die Unternehmensbezogene Aufgabe und der Kontext

Die Junior Fachkraft für Datenanalyse in diesem Beispiel arbeitet für ein Social Media Unternehmen. Am 15. Februar 2020 wurde ein neues Geschäftsmodell eingeführt und das Unternehmen möchte verstehen, wie die Nutzerzahlen im Vergleich zum Vorjahr gestiegen sind. Insbesondere wurde die Fachkraft für Datenanalyse gebeten, herauszufinden, wie viele Nutzer seit dem 15. Februar 2020 beigetreten sind.

An image of a person holding a laptop containing different data and an image of a multi-colored outline of 3 people

Funktionen und Formeln für Tabellen oder SQL-Abfragen?

Bevor sie sich dieser Frage widmen können, muss die Fachkraft für Datenanalyse entscheiden, welches Tool sie verwenden möchte. Zunächst muss er sich überlegen, wo die Daten gespeichert sind. Wenn die Daten in einer Datenbank gespeichert sind, dann ist SQL das beste Tool für diese Aufgabe. Wenn die Daten jedoch in einer Tabelle gespeichert sind, müssen sie ihre Analyse in dieser Tabelle durchführen. In diesem Szenario könnten sie eine Pivot-Tabelle der Daten erstellen und dann bestimmte Formeln und Filter auf ihre Daten anwenden, bis sie die Anzahl der Nutzer erhalten, die nach dem 15. Februar beigetreten sind. Das ist kein wirklich komplizierter Prozess, aber er würde eine Menge Schritte erfordern.

In diesem Fall sind die Daten in einer Datenbank gespeichert, so dass sie mit SQL arbeiten müssen. Und diese Fachkraft für Datenanalyse weiß, dass sie die gleichen Ergebnisse mit einer einzigen SQL-Abfrage erhalten könnte:

SELECT
     COUNT(DISTINCTuser_id) AS count_of_unique_users
FROM
     table
WHERE
    join_date >= ‚2020-02-15‘

Tabellen und SQL haben beide ihre Vor- und Nachteile:

Eigenschaften von TabellenkalkulationenMerkmale von SQL-Datenbanken
Kleinere DatenmengenGrößere Datasets
Manuelle Eingabe von DatenBarrierefreier Zugriff auf Tabellen in einer Datenbank
Erstellen Sie Diagramme und Visualisierungen im selben ProgrammBereiten Sie Daten für die weitere Analyse in einer anderen Software vor
Eingebaute Rechtschreibprüfung und andere nützliche FunktionenSchnelle und leistungsstarke Funktionen
Am besten geeignet, wenn Sie alleine an einem Projekt arbeitenHervorragend geeignet für die Zusammenarbeit und die Verfolgung von Abfragen, die von allen Nutzern ausgeführt werden

Tabellen versus SQL

Video 135

SQL-Dialekte und ihre Verwendung

In dieser Lektüre erfahren Sie mehr über SQL-Dialekte und einige ihrer unterschiedlichen Verwendungen. Zur Auffrischung: Structured Query Language, kurz SQL, ist eine Sprache, mit der Sie mit Datenbanken kommunizieren. Das Erlernen von SQL kann dem Erlernen einer neuen Sprache sehr ähnlich sein – einschließlich der Tatsache, dass Sprachen in der Regel verschiedene Dialekte haben. Einige Datenbankprodukte haben ihre eigene SQL-Variante, und diese verschiedenen SQL-Dialekte helfen Ihnen bei der Kommunikation mit den einzelnen Datenbankprodukten.

Diese Dialekte sind von Unternehmen zu Unternehmen unterschiedlich und können sich im Laufe der Zeit ändern, wenn das Unternehmen zu einem anderen Datenbanksystem wechselt. Daher beginnen viele Analysten mit Standard SQL und passen dann den verwendeten Dialekt an die Datenbank an, mit der sie arbeiten. Standard SQL funktioniert mit den meisten Datenbanken und erfordert nur wenige Syntax-Änderungen zur Anpassung an andere Dialekte.

Als Junior-Fachkraft für Datenanalyse ist es wichtig zu wissen, dass es leichte Unterschiede zwischen den Dialekten gibt. Wenn Sie jedoch Standard SQL beherrschen, den Dialekt, mit dem Sie in diesem Programm arbeiten werden, werden Sie darauf vorbereitet sein, SQL in jeder Datenbank zu verwenden.

Weitere Informationen

Sie müssen vielleicht nicht jeden SQL-Dialekt kennen, aber es ist nützlich zu wissen, dass es diese verschiedenen Dialekte gibt. Wenn Sie daran interessiert sind, mehr über SQL-Dialekte und ihre Verwendung zu erfahren, finden Sie in diesen Ressourcen weitere Informationen:

Rückblick: Die ersten Schritte mit BigQuery

Hinweis: Diese Lektüre ist auch in den Kursen 3 und 5 dieses Programms enthalten. Wenn Sie die Kurse der Reihe nach besuchen, können Sie sie entweder noch einmal lesen oder mit dem nächsten Kursabschnitt, Praktische Übungen, fortfahren: Verarbeitung von Zeit mit SQL. Wenn Sie die Kurse 3 und 5 nicht belegt haben, sollten Sie diese Lektüre abschließen, bevor Sie mit dem nächsten Kursabschnitt fortfahren.

BigQuery ist ein Data Warehouse auf der Google Cloud Plattform, mit dem Sie große Datasets abfragen und filtern, Ergebnisse aggregieren und komplexe Operationen durchführen können. In diesem Programm werden Sie BigQuery verwenden, um Ihre SQL-Kenntnisse zu trainieren und Daten zu sammeln, aufzubereiten und zu analysieren. Zu diesem Zeitpunkt haben Sie Ihr eigenes Konto eingerichtet. Lernen Sie nun einige der wichtigen Elemente des SQL-Arbeitsbereichs kennen. Dies wird Sie auf die kommenden Aktivitäten vorbereiten, bei denen Sie BigQuery verwenden werden. Beachten Sie, dass BigQuery seine Schnittstelle häufig aktualisiert, so dass Ihre Konsole möglicherweise etwas anders aussieht als in dieser Lektüre beschrieben. Das ist in Ordnung; nutzen Sie Ihre Fähigkeiten zur Fehlerbehebung, um das zu finden, was Sie brauchen!

Anmelden bei BigQuery

Wenn Sie sich über die Landing Page bei BigQuery anmelden, wird automatisch Ihr Projektraum geöffnet. Dies ist eine Übersicht über Ihr Projekt, einschließlich der Projektinformationen und der aktuell verwendeten Ressourcen. Von hier aus können Sie Ihre jüngsten Aktivitäten überprüfen.

Bigquery project dashboard page

Navigieren Sie zum BigQuery Studio Ihres Projekts, indem Sie BigQuery aus dem Navigationsmenü und BigQuery Studio aus dem Dropdown-Menü auswählen.

BigQuery navigation menu open with the BigQuery Studio option selected.

BiqQuery Studio Komponenten

Sobald Sie vom Projektraum aus zu BigQuery navigiert haben, sind die meisten der wichtigsten Komponenten der BigQuery-Konsole vorhanden: das Navigationsfenster , das Explorer-Fenster und der SQL-Arbeitsbereich.

The BigQuery Console with the three major menus open: the Navigation pane, the Explorer pane, and the SQL Workspace

Der Navigationsbereich

Auf der Konsolenseite finden Sie das Navigationsfenster . Hier können Sie vom Projektbereich zum BigQuery-Tool navigieren. Dieses Menü enthält auch eine Liste anderer Daten-Tools für das Google Cloud Projekt (GCP). In diesem Programm werden Sie sich auf BigQuery konzentrieren, aber es ist nützlich zu verstehen, dass das GCP über eine Sammlung verbundener Tools verfügt, die Datenexperten jeden Tag verwenden.

Das Explorer-Fenster

Das Explorer-Fenster enthält eine Liste Ihrer aktuellen Projekte und aller mit Sternen versehenen Projekte, die Sie Ihrer Konsole hinzugefügt haben. Hier finden Sie auch die Schaltfläche + HINZUFÜGEN, mit der Sie Datasets hinzufügen können.

The + Add button in the Explorer pane.

Mit dieser Schaltfläche öffnen Sie das Dialogfeld Hinzufügen , in dem Sie eine Vielzahl von Datasets öffnen oder importieren können.

The Add dialog, displaying options to search for a data source or add popular or additional data sources.

Öffentliche Datasets hinzufügen

BigQuery bietet eine Vielzahl von öffentlichen Datasets aus dem Google Cloud Public Dataset Programm. Scrollen Sie im Dialogfeld Hinzufügen nach unten zur Option Öffentliche Datasets.

The Public Datasets option in the Add dialog.

Wählen Sie Öffentliche Datasets. Dadurch gelangen Sie zum Public Datasets Marketplace, wo Sie nach öffentlichen Datasets suchen und diese auswählen können, um sie zu Ihrer BigQuery Konsole hinzuzufügen. Suchen Sie zum Beispiel in der Suchleiste des Marktplatzes nach dem Dataset „noaa lightning“. Wenn Sie nach diesem Dataset suchen, finden Sie die Cloud-to-Ground Lightning Strikes Daten der NOAA.

The BigQuery Console showing NOAA’s Cloud to Ground Lightning Strikes as a search result in Datasets.

Wählen Sie das Dataset aus, um seine Beschreibung zu lesen. Wählen Sie Dataset anzeigen, um eine Registerkarte mit den Informationen zu dem Dataset im SQL-Arbeitsbereich zu erstellen.

The noaa_lightning dataset in a tab in the SQL workspace. The SQL workspace displays the dataset’s information.

Öffentliche Datasets starten und untersuchen

Sie haben das öffentliche Dataset noaa_lightning zu Ihrem BigQuery Arbeitsbereich hinzugefügt, so dass das Explorer-Fenster das Dataset noaa_lightning zusammen mit der Liste der anderen öffentlichen Datasets anzeigt. Diese Datasets sind unter bigquery-public-data verschachtelt. Markieren Sie bigquery-public-data, indem Sie zum oberen Rand des Explorer-Fensters navigieren und den Stern neben bigquery-public-data auswählen.

The bigquery-public-dataset with the star filled in, indicating it has been starred.

Wenn Sie bigquery-public-data mit einem Sternchen versehen, können Sie öffentliche Datasets suchen und hinzufügen, indem Sie im Explorer-Fenster blättern oder in der Explorer-Suchleiste nach ihnen suchen.

Sie könnten zum Beispiel ein anderes öffentliches Dataset auswählen wollen. Wenn Sie das zweite Dataset, austin_311, auswählen, wird es erweitert, um die darin gespeicherte Tabelle, 311_service_requests, aufzulisten.

Wenn Sie eine Tabelle auswählen, werden ihre Informationen im SQL Arbeitsbereich angezeigt. Wählen Sie die Tabelle 311_service_requests, um mehrere Registerkarten zu sehen, die die Tabelle beschreiben, darunter:

  • Schema, das die Spaltennamen im Dataset anzeigt

  • Details, die zusätzliche Metadaten enthalten, wie z.B. das Erstellungsdatum des Datasets

  • Vorschau, die die ersten Zeilen aus dem Dataset anzeigt

The table preview of the 311_service_requests table with the Schema tab open

Außerdem können Sie die Schaltfläche Abfrage in der Menüleiste des SQL-Arbeitsbereichs auswählen, um diese Tabelle abzufragen.

Der SQL-Arbeitsbereich

Der letzte Menübereich in Ihrer Konsole ist der SQL-Arbeitsbereich. Hier werden Sie die Abfragen in BigQuery schreiben und ausführen.

Blank query editor tab

Über den SQL-Arbeitsbereich haben Sie auch Zugriff auf Ihre persönliche und projektbezogene Geschichte, in der ein Datensatz mit den von Ihnen ausgeführten Abfragen gespeichert ist. Dies kann nützlich sein, wenn Sie zu einer Abfrage zurückkehren möchten, um sie erneut auszuführen oder einen Teil davon in einer anderen Abfrage zu verwenden.

Hochladen Ihrer Daten

BigQuery bietet Ihnen nicht nur Zugang zu öffentlichen Datasets, sondern auch die Möglichkeit, Ihre eigenen Daten direkt in Ihren Arbeitsbereich hochzuladen. Rufen Sie diese Funktion auf, indem Sie das Menü + HINZUFÜGEN erneut öffnen oder indem Sie im Explorer-Fenster auf die drei vertikalen Punkte neben dem Namen Ihres Projekts klicken. Dadurch erhalten Sie die Möglichkeit, Ihr eigenes Dataset zu erstellen und Ihre eigenen Tabellen hochzuladen. Sie werden in einer der nächsten Aktivitäten die Möglichkeit haben, Ihre eigenen Daten hochzuladen, um den Umgang mit dieser Funktion zu üben!

Die wichtigsten Erkenntnisse

Mit dem SQL-Arbeitsbereich von BigQuery können Sie nach öffentlichen Datasets suchen, SQL-Abfragen durchführen und sogar Ihre eigenen Daten zur Analyse hochladen. Ganz gleich, ob Sie mit öffentlichen Datasets arbeiten, SQL-Abfragen ausführen oder Ihre eigenen Daten hochladen, der SQL-Arbeitsbereich von BigQuery bietet eine Reihe von Funktionen zur Unterstützung aller Arten von Datenanalyseaufgaben. Während dieses Programms werden Sie BigQuery verwenden, um Ihre SQL-Kenntnisse zu trainieren. Wenn Sie also mit den wichtigsten Komponenten Ihrer BigQuery-Konsole vertraut sind, werden Sie sie in Zukunft effizient nutzen können!

Weit verbreitete SQL Abfragen

Video 136

Evan: Viel Spaß mit SQL

Video 137

String-Variablen mit SQL bereinigen

Video 138

Erweiterte Funktionen zur Bereinigung von Daten, Teil 1

Video 139