Einführung in die Datenexploration
Kurs 3 im Überblick: Setzen Sie Ihre Erwartungen
Im Laufe dieses Kurses werden Sie verschiedene Arten von Daten und Datenstrukturen identifizieren und untersuchen, die verwendet werden können, um ein Geschäftsproblem zu verstehen und zu lösen. Dann lernen Sie, Voreingenommenheiten in Daten zu erkennen und deren Glaubwürdigkeit zu überprüfen. Sie werden Ihre Fachkraft für Datenanalyse weiter ausbauen, indem Sie sich mit Daten in Tabellen und Datenbanken beschäftigen. Schließlich lernen Sie mehr über die Einbindung in die Datengemeinschaft und die Verwaltung Ihrer Online-Präsenz. All diese Fähigkeiten werden Ihnen nützlich sein, ganz gleich, wohin Ihre Karriere als Fachkraft für Datenanalyse Sie führt.
-
Fragen stellen, um datengesteuerte Entscheidungsfindungen zu treffen
-
Daten für die Exploration vorbereiten (dieser Kurs)
-
Google Data Analytics Capstone: Vervollständigen Sie eine Fallstudie
Inhalt des Kurses
Jeder Kurs in diesem Programm ist in Module unterteilt. Jedes Modul soll Sie mit verschiedenen Datenstrukturen vertraut machen und Ihnen zeigen, wie man Daten sammelt, prüft und organisiert. Sie werden an einem breiten Bereich von Aktivitäten arbeiten, die den Aufgaben ähneln, mit denen Fachkräfte für Datenanalyse täglich konfrontiert werden.
Hier finden Sie einen Überblick über die Fähigkeiten, die Sie in den einzelnen Modulen erlernen.
Modul 1: Datentypen und Strukturen
Jeden Tag wird eine riesige Menge an Daten erzeugt. In diesem Teil des Kurses erfahren Sie, wie diese Daten erzeugt werden und wie Analysten entscheiden, welche Daten sie für die Analyse verwenden. Außerdem lernen Sie etwas über strukturierte und unstrukturierte Daten, Datentypen und Datenformate, während Sie darüber nachdenken, wie Sie Ihre Daten für die Analyse vorbereiten können.
Modul 2: Verantwortung für Daten
Bevor Sie mit Daten arbeiten, müssen Sie sicherstellen, dass diese unvoreingenommen und glaubwürdig sind. Denn wenn Sie Ihre Analyse mit unzuverlässigen Daten beginnen, werden Sie Ihren Ergebnissen nicht trauen können. In diesem Teil des Kurses werden Sie lernen, Voreingenommenheit in Daten zu erkennen und sicherzustellen, dass Ihre Daten glaubwürdig sind. Sie werden auch Open Data und die Bedeutung von Datenethik und Datenschutz erkunden.
Modul 3: Grundlagen der Datenbank
Wenn Sie große Datasets analysieren, werden Sie auf viele der Daten aus einer Datenbank zugreifen. In diesem Teil des Kurses lernen Sie etwas über Datenbanken und wie Sie auf sie zugreifen und die darin enthaltenen Daten extrahieren, filtern und sortieren können. Sie werden sich auch mit Metadaten befassen, um ihre vielen Facetten zu entdecken und zu erfahren, wie Fachleute sie nutzen, um ihre Daten besser zu verstehen.
Modul 4: Organisieren und Schützen von Daten
Gute organisatorische Fähigkeiten sind ein wichtiger Bestandteil der meisten Arbeitsbereiche, insbesondere der Data Analytics. In diesem Teil des Kurses lernen Sie die besten Methoden kennen, um Daten zu organisieren und sicher zu halten. Sie werden auch verstehen, wie Analysten Namenskonventionen für Dateien verwenden, um ihre Arbeit zu organisieren.
Modul 5: Engagieren Sie sich in der Daten-Community
Eine starke Online-Präsenz kann für Arbeitssuchende aller Art eine große Hilfe sein. In diesem Teil des Kurses erfahren Sie, wie Sie Ihre Online-Präsenz verwalten können. Außerdem erfahren Sie, welchen Nutzen die Vernetzung mit anderen Data Analytics-Experten hat.
Was Sie erwarten können
Jeder Kurs bietet viele Arten von Lernmöglichkeiten:
-
Videos , in denen die Dozenten neue Konzepte vermitteln und die Verwendung von Tools demonstrieren
-
Fragen im Video, die von Zeit zu Zeit auftauchen und Ihnen helfen, Ihr Verständnis der Schlüsselkonzepte und -fähigkeiten zu überprüfen
-
Schritt-für-Schritt-Anleitungen , mit denen Sie den Ausbildern bei der Demonstration der Tools folgen können
-
Lektüre , um Themen zu vertiefen und auf den Konzepten aus den Videos aufzubauen
-
Diskussionsforen zum Austausch, zur Erkundung und zur Vertiefung der Lektionsthemen
-
Diskussions-Prompts zur Förderung des Denkens und der Einbindung in die Diskussionsforen
-
Übungsquiz zur Vorbereitung auf benotete Quizze
-
Benotete Quizfragen, um Ihren Fortschritt zu messen und Ihnen wertvolles Feedback zu geben
Dieses Programm wurde so konzipiert, dass Sie in Ihrem eigenen Tempo arbeiten können – Ihre persönlichen Fristen sind nur ein Richtwert. Für verspätete Aufgaben gibt es keine Strafe. Um Ihr Zertifikat zu erhalten, müssen Sie lediglich alle Aufgaben erledigen.
Wenn Sie zwei Bewertungstermine hintereinander verpassen oder einen Bewertungstermin um zwei Wochen versäumen, sehen Sie auf der Seite Noten die Option Termine zurücksetzen. Klicken Sie darauf, um zu einem neuen Kursplan mit aktualisierten Fristen zu wechseln. Sie können diese Option so oft nutzen, wie Sie möchten – sie löscht keine Fortschritte, die Sie bereits im Kurs gemacht haben, aber Sie finden möglicherweise neue Kursinhalte, wenn der Kursleiter den Kurs aktualisiert hat, nachdem Sie angefangen haben. Wenn Sie ein Abonnement kündigen und es dann wieder aktivieren, werden Ihre Fristen automatisch zurückgesetzt.
In diesem Kurs werden Sie mit benoteten Quizzen und Aktivitäten bewertet. Beide basieren auf der großen Vielfalt an Lernmaterialien und Aktivitäten, die die wichtigen Fähigkeiten, die Sie entwickeln werden, verstärken. Und beide können mehr als einmal absolviert werden.
Tipps für den Erfolg
-
Es wird dringend empfohlen, dass Sie die einzelnen Lektionen in der Reihenfolge durcharbeiten, in der sie erscheinen, da neue Informationen und Konzepte auf dem bisherigen Wissen aufbauen.
-
Nehmen Sie an allen Lernangeboten teil, um so viel Wissen und Erfahrung wie möglich zu sammeln.
-
Wenn etwas verwirrend ist, zögern Sie nicht, ein Video abzuspielen, eine Lektüre zu wiederholen oder eine Aktivität zur Selbstüberprüfung zu wiederholen.
-
Nutzen Sie die zusätzlichen Ressourcen, auf die in diesem Kurs verwiesen wird. Sie sind dazu gedacht, Ihr Lernen zu unterstützen. Sie finden alle diese Ressourcen auf der Registerkarte Ressourcen .
-
Wenn Sie in diesem Kurs auf nützliche Links stoßen, setzen Sie ein Lesezeichen, damit Sie die Informationen später zum Studium oder zur Wiederholung aufrufen können.
-
Verstehen und befolgen Sie den Coursera-Verhaltenskodex, um sicherzustellen, dass die Lerngemeinschaft ein einladender, freundlicher und unterstützender Ort für alle Mitglieder bleibt.
Aktualisierungen des Kurses
Während Sie diesen Kurs absolvieren, werden Sie möglicherweise Aktualisierungen des Inhalts bemerken, wie neue Übungsmaterialien und zusätzliche Beispiele. Diese Aktualisierungen stellen sicher, dass das Programm aktuelle Fähigkeiten und Anleitungen bietet, die Ihnen bei Ihrer Data Analytics-Karriere helfen werden. Wenn Sie bereits eine benotete Aktivität absolviert haben, müssen Sie die Bewertung möglicherweise wiederholen, um diesen Kurs abzuschließen. Weitere Informationen finden Sie im Diskussionsforum des Kurses.
Hallie: Faszinierende Daten-Statistiken
Datenerfassung in unserer Welt
Bestimmen Sie, welche Daten Sie sammeln möchten
Wählen Sie die richtigen Daten
Im Folgenden finden Sie einige Überlegungen zur Datenerfassung, die Sie bei Ihrer Analyse beachten sollten:
Wie die Daten gesammelt werden sollen
Entscheiden Sie, ob Sie die Daten mit Ihren eigenen Ressourcen sammeln oder ob Sie sie von einer anderen Partei erhalten (und möglicherweise kaufen). Daten, die Sie selbst sammeln, werden als Erstanbieterdaten bezeichnet.
Daten-Quellen
Wenn Sie die Daten nicht mit Ihren eigenen Ressourcen erheben, können Sie Daten von Zweit- oder Drittanbietern beziehen. Zweitanbieterdaten werden direkt von einer anderen Gruppe gesammelt und dann verkauft. Drittanbieterdaten werden von einem Anbieter verkauft, der die Daten nicht selbst erhoben hat. Daten von Drittanbietern können aus einer Reihe verschiedener Quellen stammen.
Lösen Sie Ihr Geschäftsproblem
Datasets können eine Menge interessanter Informationen enthalten. Achten Sie aber darauf, dass Sie Daten auswählen, die tatsächlich zur Lösung Ihrer Fragestellung beitragen können. Wenn Sie beispielsweise Trends im Zeitverlauf analysieren, sollten Sie unbedingt Zeitreihendaten verwenden, d.h. Daten, die ein Datum enthalten.
Wie viele Daten Sie sammeln sollten
Wenn Sie Ihre eigenen Daten erheben, sollten Sie eine vernünftige Entscheidung über die Größe der Stichprobe treffen. Eine Stichprobe aus vorhandenen Daten kann für einige Projekte ausreichend sein. Andere Projekte benötigen möglicherweise eine strategischere Datenerfassung, um sich auf bestimmte Kriterien zu konzentrieren. Jedes Projekt hat seine eigenen Bedürfnisse.
Zeitlicher Rahmen
Wenn Sie Ihre eigenen Daten erheben, entscheiden Sie, wie lange Sie die Daten sammeln müssen, insbesondere wenn Sie Trends über einen langen Zeitraum verfolgen. Wenn Sie eine sofortige Antwort benötigen, haben Sie möglicherweise keine Zeit, neue Daten zu sammeln. In diesem Fall müssten Sie auf bereits vorhandene historische Daten zurückgreifen.
Verwenden Sie das Flussdiagramm unten, wenn die Datenerfassung stark davon abhängt, wie viel Zeit Sie haben:
Datenformate entdecken
Datenformate in der Praxis
Beispiele für Datenformate
Wie bei den meisten Dingen ist es einfacher, Definitionen zu verstehen, wenn Sie sie mit Beispielen koppeln können, die Ihnen im Alltag begegnen. Schauen Sie sich zunächst die Definition jedes Datenformats an und verwenden Sie dann die Beispiele, um Ihr Verständnis zu festigen.
Primäre versus sekundäre Daten
Die folgende Tabelle hebt die Unterschiede zwischen Primär- und Sekundärdaten hervor und zeigt Beispiele für jedes Format.
Klassifizierung der Datenformate |
Definition |
Beispiele |
---|---|---|
Primäre Daten |
Von einem Forscher aus erster Hand zusammengetragene Daten |
|
Sekundäre Daten |
Von anderen Personen oder aus anderen Untersuchungen zusammengetragene Daten |
|
Interne versus externe Daten
Die folgende Tabelle hebt die Unterschiede zwischen internen und externen Daten hervor und stellt jeweils Beispiele vor.
Klassifizierung der Datenformate |
Definition |
Beispiele |
---|---|---|
Interne Daten |
Daten, die innerhalb der eigenen Systeme eines Unternehmens gespeichert sind |
|
Externe Daten |
Daten, die außerhalb eines Unternehmens oder einer Organisation gespeichert sind |
|
Kontinuierliche versus diskrete Daten
Die folgende Tabelle hebt die Unterschiede zwischen kontinuierlichen und diskreten Daten hervor und stellt Beispiele für beide dar.
Klassifizierung der Datenformate |
Definition |
Beispiele |
---|---|---|
Kontinuierliche Daten |
Daten, die gemessen werden und fast jeden numerischen Wert haben können |
|
Diskrete Daten |
Daten, die gezählt werden und eine begrenzte Anzahl von Werten haben |
|
Qualitative Daten versus quantitative Daten
Die folgende Tabelle hebt die Unterschiede zwischen qualitativen und quantitativen Daten hervor und zeigt Beispiele für beide.
Klassifizierung der Datenformate |
Definition |
Beispiele |
---|---|---|
Qualitativ |
Ein subjektives und erklärendes Maß für eine Qualität oder ein Merkmal |
|
Quantitativ |
Ein spezifisches und objektives Maß, wie etwa eine Zahl, eine Menge oder ein Bereich |
|
Nenndaten versus Ordinaldaten
Die folgende Tabelle hebt die Unterschiede zwischen nominalen und ordinalen Daten hervor und stellt Beispiele für beide dar.
Klassifizierung der Datenformate |
Definition |
Beispiele |
---|---|---|
Nominal |
Ein Typ von qualitativen Daten, der ohne feste Reihenfolge kategorisiert wird |
|
Ordinal |
Ein Typ von qualitativen Daten mit einer festgelegten Reihenfolge oder Skala |
|
Strukturierte Daten versus unstrukturierte Daten
Die folgende Tabelle hebt die Unterschiede zwischen strukturierten und unstrukturierten Daten hervor und stellt jeweils ein Beispiel dafür vor.
Klassifizierung der Datenformate |
Definition |
Beispiele |
---|---|---|
Strukturierte Daten |
Daten, die in einem bestimmten Format organisiert sind, z.B. Zeilen und Spalten |
|
Unstrukturierte Daten |
Daten, die nicht als Spalten und Zeilen in einer relationalen Datenbank gespeichert werden können. |
|
Strukturierte Daten weiter erforschen
Die Auswirkungen der verschiedenen Strukturen
-
Strukturierte Daten: In einem bestimmten Format organisiert, z.B. in Zeilen und Spalten.
-
Unstrukturierte Daten: Nicht auf eine leicht zu identifizierende Weise organisiert.
Wenn Sie zum Beispiel Ihr Lieblingsrestaurant online bewerten, erstellen Sie strukturierte Daten. Wenn Sie jedoch Google Earth verwenden, um sich ein Satellitenbild des Restaurants anzusehen, verwenden Sie unstrukturierte Daten.
Hier eine Auffrischung der Merkmale von strukturierten und unstrukturierten Daten:
Strukturierte Daten
Wie wir bereits beschrieben haben, sind strukturierte Daten in einem bestimmten Format organisiert. Dadurch lassen sie sich für geschäftliche Zwecke leichter speichern und abfragen. Wenn die Daten exportiert werden, geht die Struktur mit den Daten einher.
Unstrukturierte Daten
Unstrukturierte Daten lassen sich nicht auf eine leicht erkennbare Weise organisieren. Und es gibt viel mehr unstrukturierte als strukturierte Daten auf der Welt. Video- und Audiodateien, Textdateien, Social Media-Inhalte, Satellitenbilder, Präsentationen, PDF-Dateien, Antworten auf offene Umfragen und Websites zählen zu den unstrukturierten Daten.
Das Problem der Fairness
Das Fehlen einer Struktur macht es schwierig, unstrukturierte Daten zu suchen, zu verwalten und zu analysieren. Doch die jüngsten Fortschritte bei der künstlichen Intelligenz und den Algorithmen des maschinellen Lernens ändern dies. Die neue Herausforderung für Datenwissenschaftler besteht nun darin, dafür zu sorgen, dass diese Tools inklusiv und unvoreingenommen sind. Andernfalls werden bestimmte Elemente eines Datasets stärker gewichtet und/oder dargestellt als andere. Und wie Sie gerade lernen, repräsentiert ein unfaires Dataset die Population nicht genau, was zu verzerrten Ergebnissen, geringer Genauigkeit und unzuverlässigen Analysen führt.
Ebenen und Techniken der Datenmodellierung
Wichtiger Hinweis: Als Junior-Fachkraft für Datenanalyse wird man Sie nicht bitten, ein Datenmodell zu entwerfen. Aber vielleicht stoßen Sie auf bestehende Datenmodelle, die in Ihrem Unternehmen bereits vorhanden sind.
Was ist Datenmodellierung?
Datenmodellierung ist der Prozess der Erstellung von Diagrammen, die visuell darstellen, wie Daten organisiert und strukturiert sind. Diese visuellen Darstellungen werden als Datenmodelle bezeichnet. Sie können sich die Datenmodellierung wie einen Bauplan für ein Haus vorstellen. An diesem Bauplan können Elektriker, Zimmerleute und Klempner arbeiten. Jeder dieser Bauherren hat eine andere Beziehung zum Bauplan, aber sie alle brauchen ihn, um die Gesamtstruktur des Hauses zu verstehen. Ähnlich verhält es sich mit Datenmodellen. Verschiedene Nutzer haben zwar unterschiedliche Datenbedürfnisse, aber das Datenmodell vermittelt ihnen ein Verständnis für die Struktur als Ganzes.
Ebenen der Datenmodellierung
Jede Ebene der Datenmodellierung hat einen anderen Detaillierungsgrad.
-
Diekonzeptionelle Datenmodellierung bietet einen Überblick über die Datenstruktur, z.B. darüber, wie die Daten in einem Unternehmen interagieren. Ein konzeptionelles Datenmodell kann zum Beispiel dazu dienen, die geschäftlichen Anforderungen für eine neue Datenbank zu definieren. Ein konzeptionelles Datenmodell enthält keine technischen Details.
-
Dielogische Datenmodellierung konzentriert sich auf die technischen Details einer Datenbank wie Beziehungen, Attribute und Entitäten. Ein logisches Datenmodell definiert zum Beispiel, wie einzelne Datensätze in einer Datenbank eindeutig identifiziert werden. Aber es legt nicht die tatsächlichen Namen der Datenbanktabellen fest. Das ist die Aufgabe eines physischen Datenmodells.
-
Diephysische Datenmodellierung stellt dar, wie eine Datenbank funktioniert. Ein physisches Datenmodell definiert alle Entitäten und Attribute, die verwendet werden. Es enthält z.B. Tabellennamen, Spaltennamen und Datentypen für die Datenbank.
Weitere Informationen finden Sie in diesem Vergleich von Datenmodellen.
Techniken zur Datenmodellierung
Es gibt viele Ansätze für die Entwicklung von Datenmodellen, aber zwei gängige Methoden sind das Entity Relationship Diagram (ERD) und das Unified Modeling Language (UML) -Diagramm. ERDs sind eine visuelle Methode, um die Beziehungen zwischen Entitäten im Datenmodell zu verstehen. UML-Diagramme sind sehr detaillierte Diagramme, die die Struktur eines Systems beschreiben, indem sie die Entitäten, Attribute, Operationen und Beziehungen des Systems darstellen. Als Junior-Fachkraft für Datenanalyse müssen Sie verstehen, dass es verschiedene Datenmodellierungstechniken gibt, aber in der Praxis werden Sie wahrscheinlich die in Ihrem Unternehmen vorhandene Technik verwenden.
Mehr über ERD, UML und Daten-Wörterbücher erfahren Sie in diesem artikel über Datenmodellierungstechniken.
Datenanalyse und Datenmodellierung
Datenmodellierung kann Ihnen dabei helfen, die Details Ihrer Daten auf hoher Ebene zu erkunden und herauszufinden, wie sie in den Informationssystemen Ihres Unternehmens miteinander in Beziehung stehen. Die Datenmodellierung erfordert manchmal eine Datenanalyse, um zu verstehen, wie die Daten zusammengesetzt sind. Und schließlich machen es Datenmodelle allen Mitarbeitern Ihres Unternehmens leichter, Ihre Daten zu verstehen und mit Ihnen zusammenzuarbeiten. Das ist wichtig für Sie und alle in Ihrem Team!
Kennen Sie die Art der Daten, mit denen Sie arbeiten
Boolesche Logik verwenden
In dieser Lektüre lernen Sie die Grundlagen der booleschen Logik kennen und erfahren, wie Sie einzelne und mehrere Bedingungen in einer booleschen Anweisung verwenden können. Diese Bedingungen werden mit Booleschen Operatoren erstellt, darunter AND, OR und NOT. Diese Operatoren ähneln mathematischen Operatoren und können verwendet werden, um logische Aussagen zu erstellen, die Ihre Ergebnisse filtern. Fachkräfte für Datenanalyse verwenden Boolesche Aussagen für eine Vielzahl von Aufgaben der Datenanalyse, wie z.B. das Schreiben von Abfragen für Suchvorgänge und die Überprüfung von Bedingungen beim Schreiben von Programmiercode.
Beispiel für boolesche Logik
Stellen Sie sich vor, Sie kaufen Schuhe und berücksichtigen dabei bestimmte Vorlieben:
Sie werden die Schuhe nur kaufen, wenn sie eine beliebige Kombination aus Rosa und Grau sind
Sie kaufen die Schuhe, wenn sie ganz rosa oder ganz grau sind oder wenn sie rosa und grau sind
Sie werden die Schuhe kaufen, wenn sie grau sind, aber nicht, wenn sie etwas Rosa enthalten
Diese Venn-Diagramme veranschaulichen Ihre Schuhpräferenzen. AND ist die Mitte des Venn-Diagramms, in der sich zwei Bedingungen überschneiden. OR umfasst beide Bedingungen. NOT umfasst nur den Teil des Venn-Diagramms, der die Ausnahme nicht enthält.
Boolesche Logik in Anweisungen verwenden
In Abfragen wird die boolesche Logik in einer mit booleschen Operatoren geschriebenen Anweisung dargestellt. Ein Operator ist ein Symbol, das die auszuführende Operation oder Berechnung bezeichnet. Lesen Sie weiter, um zu erfahren, wie Sie Ihre Schuheinstellungen in boolesche Aussagen umwandeln können.
Der AND Operator
Ihre Bedingung lautet: „Wenn die Farbe des Schuhs eine beliebige Kombination aus Grau und Rosa ist, werden Sie ihn kaufen.“ Die Boolesche Aussage würde die Logik dieser Aussage aufschlüsseln, um Ihre Ergebnisse nach beiden Farben zu filtern. Sie würde sagen IF (Color=“Grey“) AND (Color=“Pink“) then buy them
Mit dem AND Operator können Sie beide Bedingungen übereinanderlegen.
Im Folgenden finden Sie eine einfache Wahrheitstabelle, die die boolesche Logik dieser Aussage beschreibt. In der Spalte Farbe ist Grau gibt es zwei Kopplungen von Schuhen, die die Farbbedingung erfüllen. Und in der Spalte Farbe ist Rosa gibt es zwei Kopplungen, die diese Bedingung erfüllen. Aber in der Spalte Wenn Grau UND Rosa erfüllt nur ein Paar Schuhe beide Bedingungen. Nach der booleschen Logik der Aussage gibt es also nur ein Paar, das als wahr markiert ist. Mit anderen Worten: Es gibt nur ein Paar Schuhe, das Sie kaufen würden.
Farbe ist Grau | Die Farbe ist Rosa | Wenn Grau UND Rosa, dann Kaufen | Boolesche Logik |
---|---|---|---|
Grau/Wahr | Rosa/Wahr | Wahr/Kaufen | Wahr UND Wahr = Wahr |
Grau/Wahr | Schwarz/Falsch | Falsch/Nicht kaufen | Wahr UND Falsch = Falsch |
Rot/Falsch | Rosa/Wahr | Falsch/Nicht kaufen | Falsch UND Wahr = Falsch |
Rot/Falsch | Grün/Falsch | Falsch/Don’t buy | Falsch AND Falsch = Falsch |
Der OR Operator
Der OR Operator lässt Sie weitergehen, wenn eine Ihrer beiden Bedingungen erfüllt ist. Ihre Bedingung lautet: „Wenn die Schuhe grau oder rosa sind, werden Sie sie kaufen.“ Die boolesche Aussage wäre IF (Color=“Grey“) OR (Color=“Pink“) then buy them.
Beachten Sie, dass jeder Schuh, der entweder die Bedingung “ Farbe ist grau“ oder “ Farbe ist rosa “ erfüllt, von der booleschen Logik als wahr markiert wird. Laut der folgenden Wahrheitstabelle gibt es drei Kopplungen von Schuhen, die Sie kaufen können.
Farbe ist Grau | Die Farbe ist Rosa | Wenn Grau ODER Rosa, dann Kaufen | Boolesche Logik |
---|---|---|---|
Rot/Falsch | Schwarz/Falsch | Falsch/Nicht kaufen | Falsch ODER Falsch = Falsch |
Schwarz/Falsch | Rosa/Wahr | Wahr/Kaufen | Falsch ODER Wahr = Wahr |
Grau/Wahr | Grün/Falsch | Wahr/Kaufen | Wahr ODER Falsch = Wahr |
Grau/Wahr | Rosa/Wahr | Wahr/Kaufen | Wahr ODER Wahr = Wahr |
Der NOT Operator
Mit dem NOT Operator schließlich können Sie filtern, indem Sie bestimmte Bedingungen von den Ergebnissen abziehen. Ihre Bedingung lautet: „Sie kaufen jeden grauen Schuh, außer denen, die Spuren von Rosa enthalten.“ Ihre boolesche Aussage wäre dann IF (Color=“Grey“) AND (Color=NOT „Pink“) then buy them
Nun werden alle grauen Schuhe, die nicht rosa sind, durch die Boolesche Logik für die Bedingung NOT Pink als wahr markiert. Die rosa Schuhe werden durch die Boolesche Logik für die Bedingung NOT Pink als falsch markiert. In der folgenden Wahrheitstabelle wird nur eine Kopplung von Schuhen ausgeschlossen.
Farbe ist Grau | Die Farbe ist Rosa | Boolesche Logik für NICHT Rosa | Wenn Grau UND (NICHT Rosa), dann Kaufen | Boolesche Logik |
---|---|---|---|---|
Grau/Wahr | Rot/Falsch | Nicht Falsch = Wahr | Wahr/Kaufen | Wahr UND Wahr = Wahr |
Grau/Wahr | Schwarz/Falsch | Nicht Falsch = Wahr | Wahr/Kaufen | Wahr UND Wahr = Wahr |
Grau/Wahr | Grün/Falsch | Nicht Falsch = Wahr | Wahr/Kaufen | Wahr UND Wahr = Wahr |
Grau/Wahr | Rosa/Wahr | Nicht Wahr = Falsch | Falsch/Nicht kaufen | Wahr UND Falsch = Falsch |
Die Macht der mehrfachen Bedingungen
Für Fachkräfte für Datenanalyse liegt die wahre Stärke der Booleschen Logik in der Möglichkeit, mehrere Bedingungen in einer einzigen Anweisung zu kombinieren. Wenn Sie zum Beispiel nach grauen oder rosafarbenen und wasserdichten Schuhen filtern möchten, können Sie eine boolesche Aussage wie folgt konstruieren: „IF ((Color = „Grey“) OR (Color = „Pink“)) AND (Waterproof=“True“)
Beachten Sie, dass Sie Klammern verwenden können, um Ihre Bedingungen zu gruppieren.
Die wichtigsten Erkenntnisse
Operatoren sind Symbole, die die auszuführende Operation oder Berechnung bezeichnen. Die Operatoren AND, OR und NOT können verwendet werden, um boolesche Aussagen in Programmiersprachen zu schreiben. Ob Sie nun nach neuen Schuhen suchen oder diese Logik auf Abfragen anwenden, mit der booleschen Logik können Sie mehrere Bedingungen erstellen, um Ihre Ergebnisse zu filtern. Jetzt, wo Sie ein wenig mehr über die boolesche Logik wissen, können Sie damit anfangen!
Ressourcen für weitere Informationen
Erfahren Sie in diesem historischen Artikel, wer die Boolesche Logik entwickelt hat: Die Ursprünge der Booleschen Algebra in der Logik der Klassen.
Weitere Informationen über die Verwendung von AND, OR, und NOT finden Sie in diesen tipps für die Suche mit Booleschen Operatoren.
Komponenten der Datentabelle
Treffen Sie Wide Data und Long Data
Daten transformieren
Was ist eine Datentransformation?
In dieser Lektüre erfahren Sie, wie Daten transformiert werden und welche Unterschiede es zwischen Wide und Long Data gibt. Datenumwandlung ist der Prozess, bei dem das Format, die Struktur oder die Werte der Daten geändert werden. Als Fachkraft für Datenanalyse ist die Wahrscheinlichkeit groß, dass Sie Daten irgendwann transformieren müssen, um sie leichter analysieren zu können.
Die Transformation von Daten umfasst in der Regel Folgendes:
Hinzufügen, Kopieren oder Replizieren von Daten
Löschen von Feldern oder Datensätzen
Standardisierung der Namen von Variablen
Umbenennen, Verschieben oder Kombinieren von Spalten in einer Datenbank
Verbinden eines Datensatzes mit einem anderen
Speichern einer Datei in einem anderen Format. Zum Beispiel das Speichern einer Tabelle als CSV-Datei (kommagetrennte Werte).
Warum Daten transformieren?
Ziele für die Umwandlung von Daten können sein:
Datenorganisation: besser organisierte Daten sind einfacher zu verwenden
Kompatibilität der Daten: Verschiedene Apps oder Systeme können dann dieselben Daten verwenden
Datenmigration: Daten mit übereinstimmenden Formaten können von einem System in ein anderes verschoben werden
Datenzusammenführung: Daten mit der gleichen Organisation können zusammengeführt werden
Datenanreicherung: Daten können mit detaillierteren Feldern angezeigt werden
Datenvergleich: Die Daten können mit einander verglichen werden.
Beispiel einer Datentransformation: Datenzusammenführung
Mario ist ein Klempner, der eine Klempnerfirma besitzt. Nach Jahren in diesem Geschäft kauft er eine andere Klempnerfirma. Mario möchte die Kundeninformationen seines neu erworbenen Unternehmens mit seinem eigenen zusammenführen, aber das andere Unternehmen verwendet eine andere Datenbank. Also muss Mario die Daten kompatibel machen. Zu diesem Zweck muss er das Format der Daten des übernommenen Unternehmens umwandeln. Dann muss er doppelte Zeilen für Kunden, die sie gemeinsam hatten, entfernen. Wenn die Daten miteinander kompatibel sind, verfügt Marios Klempnerfirma über eine vollständige und zusammengeführte Kundendatenbank.
Beispiel für Datenumwandlung: Datenorganisation (Long to Wide)
Um die Erstellung von Diagrammen zu erleichtern, müssen Sie möglicherweise auch Long Data in Wide Data umwandeln. Betrachten Sie das folgende Beispiel für die Umwandlung von Aktienkursen (gesammelt als Long Data) in Wide Data.
Long Data sind Daten, bei denen jede Zeile einen einzelnen Datenpunkt für ein bestimmtes Element enthält . In dem folgenden Beispiel für Long Data wurden einzelne Aktienkurse (Datenpunkte) für Apple (AAPL), Amazon (AMZN) und Google (GOOGL) (bestimmte Posten) zu den angegebenen Daten erfasst.
Long Data Beispiel: Aktienkurse
Wide Data sind Daten, bei denen jede Zeile mehrere Datenpunkte für die in den Spalten identifizierten bestimmten Positionen enthält.
Beispiel für Wide Data: Aktienkurse
Mit Daten, die in Wide Data umgewandelt wurden, können Sie ein Diagramm erstellen, in dem Sie vergleichen, wie sich die Aktienkurse der einzelnen Unternehmen im gleichen Zeitraum verändert haben.
Sie werden feststellen, dass alle Daten, die im Long Data Format enthalten sind, auch im Wide Data Format enthalten sind. Wide Data sind jedoch leichter zu lesen und zu verstehen. Aus diesem Grund wandeln Fachkräfte für Datenanalyse in der Regel Long Data häufiger in Wide Data um als Wide Data in Long Data. Die folgende Tabelle fasst zusammen, wann das jeweilige Format bevorzugt wird:
Wide Data werden bevorzugt, wenn | Lange Daten werden bevorzugt, wenn |
---|---|
Erstellen von Tabellen und Diagrammen mit einigen Variablen zu jedem Eigentümer | Sie viele Variablen zu jedem Eigentümer speichern. Zum Beispiel die Zinssätze von 60 Jahren für jede Bank |
Vergleich von einfachen Liniendiagrammen | Erweiterte statistische Analysen oder Diagramme erstellen |
Glossarbegriffe aus Modul 1
Begriffe und Definitionen für Kurs 3, Modul 1
Agenda: Eine Liste mit geplanten Terminen
Audiodatei: Digitalisierte Audiodatei, normalerweise in einem MP3-, AAC- oder einem anderen komprimierten Format
Boolesche Daten: Ein Datentyp mit nur zwei möglichen Werten, normalerweise wahr oder falsch
Stetige Daten: Daten, die gemessen werden und fast jeden numerischen Wert haben können
Cookie: Eine kleine Datei, die auf einem Computer gespeichert wird und Informationen über seine Nutzer enthält
Datenelement: Ein Stück Information in einem Dataset
Datenmodell: Ein Werkzeug zur Organisation von Datenelementen und ihrer Beziehung zueinander
Digitales Foto: Ein elektronisches oder computerbasiertes Bild, normalerweise im BMP- oder JPG-Format
Diskrete Daten: Daten, die gezählt werden und eine begrenzte Anzahl von Werten haben
Externe Daten: Daten, die außerhalb einer Organisation leben und erzeugt werden
Feld: Eine einzelne Information aus einer Zeile oder Spalte einer Kalkulationstabelle; in einer Datentabelle, normalerweise eine Spalte in der Tabelle
Erstanbieterdaten: Daten, die von einer Einzelperson oder einer Gruppe unter Verwendung ihrer eigenen Ressourcen gesammelt wurden
Long Data: Ein Dataset, in dem jede Zeile einen Zeitpunkt pro Eigentümer darstellt, so dass jeder Eigentümer Daten in mehreren Zeilen hat
Nenndaten: Ein Typ von qualitativen Daten, der ohne feste Reihenfolge kategorisiert wird
Ordinale Daten: Qualitative Daten mit einer bestimmten Reihenfolge oder Skala
Eigenverantwortung: Der Aspekt der Datenethik, der davon ausgeht, dass Einzelpersonen Eigentümer der von ihnen bereitgestellten Rohdaten sind und die primäre Kontrolle über deren Nutzung, Verarbeitung und Weitergabe haben.
Pixel: In der digitalen Bildgebung ein kleiner Beleuchtungsbereich auf einem Bildschirm, der in Kombination mit anderen angrenzenden Bereichen ein digitales Bild ergibt.
Population: In Data Analytics alle möglichen Werte in einem Dataset
Datensatz: Eine Sammlung von zusammenhängenden Daten in einer Datentabelle, in der Regel gleichbedeutend mit Zeile
Stichprobe: In der Data Analytics ein Segment einer Population, das für die gesamte Population repräsentativ ist
Zweitanbieterdaten: Daten, die von einem Konzern direkt bei seiner Zielgruppe gesammelt und dann verkauft werden
Social Media: Websites und Apps, über die Nutzer Inhalte erstellen und teilen oder an sozialen Vernetzungen teilnehmen
Zeichenfolgen-Datentyp: Eine Folge von Zeichen und Interpunktion, die Textinformationen enthält (siehe Textdatentyp)
Strukturierte Daten: Daten, die in einem bestimmten Format organisiert sind, z. B. in Zeilen und Spalten
Textdatentyp: Eine Folge von Zeichen und Interpunktion, die Textinformationen enthält (auch String-Datentyp genannt)
US Census Bureau: Eine Behörde des US-Handelsministeriums, die als führender Anbieter von Qualitätsdaten über die Bevölkerung und die Wirtschaft des Landes fungiert
Unstrukturierte Daten: Daten, die nicht auf eine leicht identifizierbare Weise organisiert sind
Videodatei: Eine Sammlung von Bildern, Audiodateien und anderen Daten, die normalerweise in einem komprimierten Format wie MP4, MV4, MOV, AVI oder FLV kodiert sind
Wide Data: Ein Dataset, in dem jeder Eigentümer eine einzelne Zeile mit mehreren Spalten hat, in denen die Werte verschiedener Attribute des Eigentümers gespeichert sind
Einführung in Voreingenommenheit, Glaubwürdigkeit, Datenschutz und Ethik
Voreingenommenheit: Von Fragen zu Schlussfolgerungen
Voreingenommene und unverzerrte Daten
Voreingenommenheit in Daten verstehen
Gute Datenquellen identifizieren
Was sind „schlechte“ Daten?
Wesentliche Daten-Ethik
Optionale Auffrischung: Alex und die Bedeutung der Datenethik
Priorisieren Sie den Datenschutz
Datenanonymisierung
Was ist Datenanonymisierung?
Sie haben die Bedeutung des Datenschutzes bei Data Analytics kennengelernt. Jetzt ist es an der Zeit, über Datenanonymisierung zu sprechen und darüber, welche Arten von Daten anonymisiert werden sollten.Personenidentifizierbare Informationen( PII) sind Informationen, die allein oder zusammen mit anderen Daten dazu verwendet werden können, die Identität einer Person aufzuspüren.
Datenanonymisierung ist der Prozess zum Schutz privater oder sensibler Daten durch die Eliminierung dieser Art von Informationen. In der Regel beinhaltet die Datenanonymisierung das Ausblenden, die Hash-Technologie oder die Maskierung persönlicher Informationen, oft durch die Verwendung von Codes mit fester Länge zur Darstellung von Datenspalten oder das Verbergen von Daten mit veränderten Werten.
Ihre Rolle bei der Datenanonymisierung
Unternehmen sind dafür verantwortlich, ihre Daten und die persönlichen Informationen, die diese Daten möglicherweise enthalten, zu schützen. Als Fachkraft für Datenanalyse wird von Ihnen vielleicht erwartet, dass Sie verstehen, welche Daten anonymisiert werden müssen, aber Sie sind im Allgemeinen nicht für die Datenanonymisierung selbst verantwortlich. Eine seltene Ausnahme könnte sein, wenn Sie mit einer Kopie der Daten zu Test- oder Entwicklungszwecken arbeiten. In diesem Fall könnte von Ihnen verlangt werden, die Daten zu anonymisieren, bevor Sie mit ihnen arbeiten.
Welche Arten von Daten sollten anonymisiert werden?
Daten des Gesundheitswesens und Finanzdaten sind zwei der sensibelsten Arten von Daten. Diese Branchen sind in hohem Maße auf Datenanonymisierungstechniken angewiesen. Schließlich steht hier sehr viel auf dem Spiel. Deshalb werden Daten in diesen beiden Branchen in der Regel einer De-Identifizierung unterzogen, d.h. einem Prozess, bei dem die Daten von allen personenbezogenen Informationen bereinigt werden.
Die Datenanonymisierung wird in nahezu jeder Branche eingesetzt. Deshalb ist es für Fachkräfte für Datenanalyse so wichtig, die Grundlagen zu verstehen. Hier ist eine Liste von Daten, die häufig anonymisiert werden:
Telefonnummern
Namen
Autokennzeichen und Nummernschilder
Sozialversicherungsnummern
IP-Adressen
Medizinische Datensätze
E-Mail-Adressen
Fotografien
Kontonummern
Für manche Menschen macht es einfach Sinn, dass diese Art von Daten anonymisiert werden sollte. Für andere müssen wir sehr genau festlegen, was anonymisiert werden soll. Stellen Sie sich eine Welt vor, in der wir alle Zugang zu den Adressen, Kontonummern und anderen identifizierbaren Informationen der anderen hätten. Das wäre ein Eingriff in die Privatsphäre vieler Menschen und würde die Welt weniger sicher machen. Die Datenanonymisierung ist eine der Möglichkeiten, wie wir Daten privat und sicher halten können!
Andrew: Die ethische Verwendung von Daten
Merkmale von Open Data
Die Open Data Debatte
Genau wie der Datenschutz ist auch Open Data ein viel diskutiertes Thema in der heutigen Welt. Fachkräfte für Datenanalyse denken viel über Open Data nach, und als zukünftige Fachkraft für Datenanalyse müssen Sie die Grundlagen verstehen, um in Ihrer neuen Rolle erfolgreich zu sein.
Was sind offene Daten?
In der Data Analytics ist Open Data ein Teil der Datenethik, die mit der ethischen Nutzung von Daten zu tun hat. Offenheit bezieht sich auf den freien Zugang, die Nutzung und die gemeinsame Nutzung von Daten. Aber damit Daten als offen gelten, müssen sie:
Als vollständiger Dataset für die Öffentlichkeit verfügbar und zugänglich sein
Unter Bedingungen zur Verfügung gestellt werden, die ihre Wiederverwendung und Weiterverbreitung erlauben
Eine universelle Beteiligung ermöglichen, so dass jeder die Daten nutzen, wiederverwenden und weiterverteilen kann
Daten können nur dann als offen angesehen werden, wenn sie alle drei Standards erfüllen.
Die Open Data-Debatte: Welche Daten sollten öffentlich zugänglich sein?
Einer der größten Nutzen von Open Data besteht darin, dass glaubwürdige Datenbanken in größerem Umfang genutzt werden können. Im Grunde bedeutet dies, dass all diese guten Daten genutzt, weitergegeben und mit anderen Daten kombiniert werden können. Dies könnte enorme Auswirkungen auf die wissenschaftliche Zusammenarbeit, Forschungsfortschritte, analytische Kapazitäten und die Entscheidungsfindung haben. Aber es ist wichtig, auch an die Personen zu denken, die durch die öffentlichen, offenen Daten repräsentiert werden.
Drittanbieterdaten werden von einer Einrichtung gesammelt, die keine direkte Beziehung zu den Daten hat. Vielleicht erinnern Sie sich daran, dass Sie bereits etwas über diese Art von Daten gelernt haben. So können Dritte beispielsweise Informationen über die Besucher einer bestimmten Website sammeln. Auf diese Weise können diese Drittparteien Publikumsprofile erstellen, die ihnen helfen, das Verhalten der Nutzer besser zu verstehen und sie mit effektiverer Werbung anzusprechen.
Personenidentifizierbare Informationen (PII) sind Daten, die mit hinreichender Wahrscheinlichkeit eine Person identifizieren und Informationen über sie bekannt machen. Es ist wichtig, diese Daten sicher zu halten. PII können die Adresse einer Person, Kreditkarteninformationen, die Sozialversicherungsnummer, medizinische Datensätze und mehr umfassen.
Jeder möchte persönliche Informationen über sich selbst privat halten. Da Daten von Drittanbietern leicht verfügbar sind, ist es wichtig, ein Gleichgewicht zwischen der Offenheit der Daten und der Privatsphäre des Einzelnen herzustellen.
Andrew: Schritte für eine ethische Datennutzung
Ressourcen für Offene Daten
Zum Glück für Fachkräfte für Datenanalyse gibt es viele vertrauenswürdige Ressourcen für Open Data. Es ist wichtig, daran zu denken, dass auch seriöse Daten ständig bewertet werden müssen, aber diese Websites sind ein nützlicher Ausgangspunkt:
- U.S. Regierung Daten Website: Daten.gov ist eine der umfassendsten Datenquellen in den USA. Diese Ressource stellt Nutzern die Daten und Tools zur Verfügung, die sie für ihre Recherchen benötigen, und hilft ihnen sogar bei der Entwicklung von Web- und App-Anwendungen und der Visualisierung von Daten.
- U.S. Census Bureau: Diese Open Data-Quelle bietet demografische Informationen von Bundes-, Landes- und Kommunalbehörden sowie von kommerziellen Einrichtungen in den USA.
- Open Data Netzwerk: Diese Datenquelle verfügt über eine wirklich leistungsstarke Suchmaschine und erweiterte Filter. Hier finden Sie Daten zu Themen wie Finanzen, öffentliche Sicherheit, Infrastruktur, Wohnungsbau und Entwicklung.
- Google Cloud Public Datasets: Über das Google Cloud Public Dataset Programm steht Ihnen eine Auswahl an öffentlichen Datasets zur Verfügung, die Sie bereits in BigQuery geladen finden.
- Dataset-Suche: Die Dataset Search ist eine Suchmaschine, die speziell für Datensätze entwickelt wurde; Sie können damit nach bestimmten Datensätzen suchen.
Glossarbegriffe aus Modul 2
Begriffe und Definitionen für Kurs 3, Modul 2
Schlechte Datenquelle: Eine Datenquelle, die nicht zuverlässig, originell, umfassend, aktuell und zitiert ist (ROCCC)
Voreingenommenheit : Eine bewusste oder unbewusste Vorliebe für oder gegen eine Person, eine Gruppe von Personen oder eine Sache
Bestätigungsverzerrung: Die Tendenz, Informationen in einer Weise zu suchen oder zu interpretieren, die bereits bestehende Überzeugungen bestätigt
Zustimmung: Der Aspekt der Datenethik, der das Recht einer Person voraussetzt, zu wissen, wie und warum ihre persönlichen Daten verwendet werden, bevor sie zustimmt, diese bereitzustellen
Cookie: Eine kleine Datei, die auf einem Computer gespeichert wird und Informationen über seine Nutzer enthält
Währung: Der Aspekt der Datenethik, der davon ausgeht, dass der Einzelne über die finanziellen Transaktionen, die sich aus der Verwendung seiner persönlichen Daten ergeben, und über den Umfang dieser Transaktionen informiert sein sollte
Datenanonymisierung: Der Prozess des Schutzes privater oder sensibler Daten durch die Eliminierung identifizierender Informationen
Datenverzerrung: Wenn eine Vorliebe für oder gegen eine Person, eine Gruppe von Personen oder eine Sache die Ergebnisse der Datenanalyse systematisch in eine bestimmte Richtung verzerrt
Datenethik: Begründete Standards für Richtig und Falsch, die vorschreiben, wie Daten gesammelt, weitergegeben und verwendet werden
Dateninteroperabilität: Ein Schlüssel für die erfolgreiche Nutzung von Open Data durch Unternehmen und Regierungen
Datenschutz: Die Wahrung der Informationen eines Eigentümers bei jeder Datentransaktion
Ethik: Gut begründete Normen für richtig und falsch, die vorschreiben, was Menschen tun sollten, in der Regel in Form von Rechten, Pflichten, Nutzen für die Gesellschaft, Fairness oder bestimmten Tugenden
Voreingenommenheit der Experimentatoren: Die Tendenz verschiedener Menschen, Dinge unterschiedlich zu beobachten (auch Beobachterverzerrung genannt)
Fairness: Eine Qualität der Datenanalyse, die keine Voreingenommenheit erzeugt oder verstärkt
Erstanbieterdaten: Daten, die von einer Einzelperson oder einer Gruppe unter Verwendung ihrer eigenen Ressourcen gesammelt wurden
Datenschutz-Grundverordnung der Europäischen Union (DSGVO): Richtlinien der Europäischen Union zum Schutz der Menschen und ihrer Daten
Gute Datenquelle: Eine Datenquelle, die zuverlässig, originell, umfassend, aktuell und zitierfähig ist (ROCCC)
Interpretationsverzerrung: Die Tendenz, mehrdeutige Situationen positiv oder negativ zu interpretieren
Voreingenommenheit des Beobachters: Die Tendenz verschiedener Personen, Dinge unterschiedlich zu beobachten (auch Beobachterverzerrung genannt)
Offene Daten: Daten, die für die Öffentlichkeit zugänglich sind
Offenheit: Der Aspekt der Datenethik, der den freien Zugang, die Nutzung und die gemeinsame Nutzung von Daten fördert
Stichprobenverzerrung: Über- oder Unterrepräsentation bestimmter Mitglieder einer Population als Ergebnis der Arbeit mit einer Stichprobe, die nicht repräsentativ für die Gesamtpopulation ist
Transaktionstransparenz: Der Aspekt der Datenethik, der voraussetzt, dass alle datenverarbeitenden Aktivitäten und Algorithmen für die Person, die die Daten zur Verfügung stellt, erklärbar und verständlich sein sollten
Unverzerrte Stichprobennahme: Wenn die Stichprobe der zu messenden Population repräsentativ für die Gesamtpopulation ist
Alles über Datenbanken
Funktionen und Komponenten der Datenbank
Maximieren Sie Datenbanken in Data Analytics
Datenbanken ermöglichen es Analysten, Daten zu manipulieren, zu speichern und zu verarbeiten. Dadurch können sie die Daten viel effizienter durchsuchen, um die besten Statistiken zu erhalten.
Relationale Datenbanken
Eine relationale Datenbank ist eine Datenbank, die eine Reihe von Tabellen enthält, die miteinander verbunden werden können, um Beziehungen herzustellen. Sie ermöglichen es Fachkräften für Datenanalyse, Daten auf der Grundlage ihrer Gemeinsamkeiten zu organisieren und zu verknüpfen.
In einer nicht-relationalen Tabelle finden Sie alle möglichen Variablen, an deren Analyse Sie interessiert sein könnten, in einer Gruppe zusammengefasst. Dies ist ein Grund, warum relationale Datenbanken in der Datenanalyse so weit verbreitet sind: Sie vereinfachen viele Analyseprozesse und erleichtern das Auffinden und die Verwendung von Daten in einer gesamten Datenbank.
DieNormalisierung ist ein Prozess zur Organisation von Daten in einer relationalen Datenbank. Zum Beispiel die Erstellung von Tabellen und die Herstellung von Beziehungen zwischen diesen Tabellen. Sie wird angewandt, um Datenredundanz zu beseitigen, die Datenintegrität zu erhöhen und die Komplexität in einer Datenbank zu verringern.
Der Schlüssel zu relationalen Datenbanken
Tabellen in einer relationalen Datenbank sind durch die Felder miteinander verbunden, die sie gemeinsam haben. Vielleicht erinnern Sie sich daran, schon einmal etwas über Primär- und Fremdschlüssel gelernt zu haben. Zur schnellen Auffrischung: Ein Primärschlüssel ist ein Bezeichner, der auf eine Spalte verweist, in der jeder Wert eindeutig ist. Mit anderen Worten, es handelt sich um eine Spalte einer Tabelle, die dazu dient, jeden Datensatz innerhalb dieser Tabelle eindeutig zu identifizieren. Der Wert, der dem Primärschlüssel in einer bestimmten Zeile zugewiesen ist, muss in der gesamten Tabelle eindeutig sein. Wenn z.B. customer_id der Primärschlüssel für die Kundentabelle ist, werden niemals zwei Kunden die gleiche customer_id haben.
Im Gegensatz dazu ist ein Fremdschlüssel ein Feld in einer Tabelle, das ein Primärschlüssel in einer anderen Tabelle ist. Eine Tabelle kann nur einen Primärschlüssel haben, aber sie kann mehrere Fremdschlüssel haben. Diese Schlüssel stellen die Beziehungen zwischen den Tabellen in einer relationalen Datenbank her und helfen dabei, Daten über mehrere Tabellen in der Datenbank hinweg zu organisieren und zu verbinden.
Für einige Tabellen ist kein Primärschlüssel erforderlich. Eine Umsatztabelle kann zum Beispiel mehrere Fremdschlüssel und keinen Primärschlüssel haben. Ein Primärschlüssel kann auch aus mehreren Spalten einer Tabelle bestehen. Diese Art von Primärschlüssel wird als zusammengesetzter Schlüssel bezeichnet. Wenn beispielsweise customer_id und location_id zwei Spalten eines zusammengesetzten Schlüssels für eine Kundentabelle sind, müssen die Werte, die diesen Feldern in einer beliebigen Zeile zugewiesen werden, innerhalb der gesamten Tabelle eindeutig sein.
SQL? Du sprichst meine Sprache
Wie Sie bereits gelernt haben, ist Structured Query Language (SQL) eine Art Abfragesprache, die es Fachkräften für Datenanalyse ermöglicht, mit einer Datenbank zu kommunizieren. Eine Fachkraft für Datenanalyse wird also SQL verwenden, um eine Abfrage zu erstellen, mit der sie die gewünschten Daten aus einem größeren Dataset anzeigen kann. In einer relationalen Datenbank können Fachkräfte für Datenanalyse Abfragen schreiben, um Daten aus den zugehörigen Tabellen abzurufen. SQL ist ein leistungsstarkes Tool für die Arbeit mit Datenbanken – deshalb werden Sie gleich mehr darüber erfahren!
Metadaten entmystifizieren
Metadaten sind genauso wichtig wie die Daten selbst
Data Analytics ist von Haus aus ein Feld, das von der Sammlung und Organisation von Daten lebt. In dieser Lektüre erfahren Sie mehr über Metadaten und die Art der Informationen, die sie liefern können. Darüber hinaus lernen Sie Beispiele für Metadaten kennen.
Erkunden Sie eine Datendatei, indem Sie eine beliebige Datei auf Ihrem Computer oder ein Dokument bei Ihnen zu Hause oder am Arbeitsplatz öffnen. Worum handelt es sich dabei? WHERE kommt sie her? Ist sie nützlich? Woher wissen Sie das? An dieser Stelle kommen Metadaten ins Spiel, die ein tieferes Verständnis der Daten ermöglichen. Einfach ausgedrückt, sind Metadaten Daten über Daten. In der Datenbankverwaltung liefern Metadaten Informationen über andere Daten und helfen Fachkräften für Datenanalyse bei der Interpretation des Inhalts der Daten in einer Datenbank.
Unabhängig davon, ob Sie mit einer großen oder kleinen Datenmenge arbeiten, sind Metadaten das Kennzeichen eines sachkundigen Analytics Teams. Metadaten helfen bei der unternehmensweiten Kommunikation über Daten und erleichtern die Wiederverwendung von Daten. Im Wesentlichen geben Metadaten Auskunft über das Wer, Was, Wann, Wo, Was, Warum und Wie der Daten.
Elemente von Metadaten
Bevor Sie sich Beispiele für Metadaten ansehen, sollten Sie verstehen, welche Art von Informationen Metadaten normalerweise liefern:
Datei- oder Dokumententyp: Um welche Art von Datei oder Dokument handelt es sich?
Datum, Uhrzeit und Ersteller: Wann wurde es erstellt? Wer hat es erstellt? Wann wurde es zuletzt geändert?
Titel und Beschreibung: Wie lautet der Name des Objekts, das Sie untersuchen? Welche Art von Inhalt enthält es?
Geolokalisierung: Wenn Sie ein Foto untersuchen, wo wurde es aufgenommen?
Tags und Kategorien: Wie ist der allgemeine Überblick über das Objekt, das Sie haben? Ist es indiziert oder auf eine bestimmte Weise beschrieben?
Wer hat es zuletzt geändert und wann: Wurden Änderungen an der Datei vorgenommen? Wenn ja, wann wurden die letzten Änderungen vorgenommen?
Wer kann darauf zugreifen oder sie aktualisieren: Wenn Sie ein Dataset untersuchen, ist es öffentlich? Sind besondere Berechtigungen erforderlich, um sie anzupassen oder zu ändern?
Beispiele für Metadaten
In der digitalen Welt von heute sind Metadaten allgegenwärtig! Hier finden Sie einige Beispiele – mit den dazugehörigen Bildern – wo Sie Metadaten finden können.
Fotos
Immer wenn ein Foto mit einer Kamera aufgenommen wird, werden Metadaten wie Dateiname, Datum, Uhrzeit, Geolokalisierung und der Typ des Geräts, mit dem es aufgenommen wurde, erfasst und mit dem Foto gespeichert. Die Metadaten des folgenden Fotos werden in einem Popup-Fenster neben dem Foto angezeigt.
Emails
Wenn eine E-Mail gesendet oder empfangen wird, enthält sie Metadaten wie die Betreffzeile, den Absender, den Empfänger, das Sendedatum und die Sendezeit.
E-Mails enthalten auch versteckte Metadaten wie Servernamen, IP-Adressen, HTML-Format und Software-Details. Dieses Bild enthält versteckte E-Mail-Metadaten wie die Nachrichten-ID und das Datum, an dem die E-Mail erstellt wurde.
Tabellen und elektronisch erstellte Dokumente
Tabellen und Dokumente sind bereits mit einer beträchtlichen Menge an Daten gefüllt, so dass es nicht überrascht, dass sie auch Metadaten wie Titel, Autor, Erstellungsdatum, Seitenzahl und Kommentare der Nutzer enthalten. Zu den Metadaten einer Tabelle gehören außerdem Namen von Registerkarten, Tabellen und Spalten. Im folgenden Beispiel zeigt das Bild die Metadaten für ein elektronisch erstelltes Google Sheet:
Webseiten
Jede Webseite verfügt über eine Reihe von Standard-Metadaten-Feldern wie Tags und Kategorien, den Namen des Website-Erstellers, den Titel und die Beschreibung der Webseite sowie den Zeitpunkt der Erstellung. Die Ergebnisse von Suchmaschinenabfragen, die Sie vielleicht täglich durchführen, sind Metadaten!
Bücher und Hörbücher
Auch nicht-digitale Objekte können Metadaten haben! Jedes Buch verfügt über Standard-Metadaten, die Sie über den Titel, den Namen des Autors, ein Inhaltsverzeichnis, Verlagsinformationen, eine Beschreibung des Urheberrechts, einen Index und eine kurze Beschreibung des Buchinhalts informieren. Die Metadaten eines Hörbuchs enthalten ebenfalls diese Daten sowie hörbuchspezifische Metadaten wie Sprecher und Aufnahmelänge.
Die wichtigsten Erkenntnisse
Metadaten finden sich in Fotos, E-Mails, Tabellen, Websites und vielem mehr! In Ihrem täglichen Leben verwenden Sie Metadaten, um Ordnung zu halten. Als Fachkraft für Datenanalyse verwenden Sie Metadaten, um den Inhalt und den Kontext Ihrer Daten zu verstehen und um zu wissen, wie sie strukturiert sind. Metadaten liefern Fachkräften für Datenanalyse Informationen über den Datentyp, den Titel, die Geolokalisierung, den Ersteller, den letzten Änderer und den Zugriff auf die Daten. Als Fachkraft für Datenanalyse ist es wichtig, genaue Datensätze von Metadaten aufzubewahren, um sicherzustellen, dass Sie die Daten auch in Zukunft finden, verwenden, bewahren und wiederverwenden können. Denken Sie daran, dass es in Ihrer Verantwortung liegt, die Daten in ihrer Gesamtheit zu verwalten und zu nutzen; Metadaten sind genauso wichtig wie die Daten selbst.
Metadaten und Metadaten-Repositories
Wie Sie bereits gelernt haben, sind Metadaten Daten über Daten. Sie beschreiben eindeutig, wie und wann Daten gesammelt wurden und wie sie organisiert sind. Metadaten stellen Daten in einen Kontext und machen die Daten verständlicher. Dies hilft Fachkräften für Datenanalyse, Daten zu nutzen, um Probleme zu lösen und fundierte Geschäftsentscheidungen zu treffen.
In dieser Lektüre erfahren Sie mehr über den Nutzen von Metadaten, Metadaten-Repositories und Metadaten von externen Datenbanken.
Der Nutzen von Metadaten
Verlässlichkeit
Fachkräfte für Datenanalyse verwenden zuverlässige und qualitativ hochwertige Daten, um die Grundursachen von Problemen zu ermitteln, die bei der Analyse auftreten können, und um ihre Ergebnisse zu verbessern. Wenn die Daten, die zur Lösung eines Problems oder zum Treffen einer datengesteuerten Entscheidung verwendet werden, unzuverlässig sind, ist die Wahrscheinlichkeit groß, dass auch die Ergebnisse unzuverlässig sind.
Metadaten helfen Fachkräften für Datenanalyse dabei, die Zuverlässigkeit ihrer Daten zu bestätigen, indem sie dafür sorgen, dass sie zuverlässig sind:
Akkurat
Präzise
Relevant
Rechtzeitig
Auf diese Weise können Fachkräfte für Datenanalyse sicherstellen, dass sie mit den richtigen Daten arbeiten und dass die Daten korrekt beschrieben sind. Eine Fachkraft für Datenanalyse, die ein Projekt mit Daten aus dem Jahr 2022 abschließt, kann beispielsweise anhand von Metadaten leicht feststellen, ob sie Daten aus einer bestimmten Datei verwenden sollte.
Einheitlichkeit
Fachkräfte für Datenanalyse legen Wert auf Konsistenz und streben nach Einheitlichkeit in ihren Daten und Datenbanken, und Metadaten tragen dazu bei, dies zu ermöglichen. Um beispielsweise Umfragedaten aus zwei verschiedenen Quellen zu verwenden, nutzen Fachkräfte für Datenanalyse Metadaten, um sicherzustellen, dass in der Umfrage dieselben Erhebungsmethoden angewandt wurden, so dass beide Datasets zuverlässig verglichen werden können.
Wenn eine Datenbank konsistent ist, ist es einfacher, Beziehungen zwischen den Daten in der Datenbank und Daten, die anderswo existieren, zu entdecken. Wenn Daten einheitlich sind, sind sie es auch:
Organisiert: Fachkräfte für Datenanalyse können Tabellen und Dateien leicht auffinden, die Erstellung und Änderung von Assets überwachen und Metadaten speichern.
Klassifiziert: Fachkräfte für Datenanalyse können Daten kategorisieren, wenn sie einem einheitlichen Format folgen, was bei der Bereinigung und Verarbeitung von Daten von Vorteil ist.
Gespeichert: Konsistente und einheitliche Daten können effizient in verschiedenen Repositories gespeichert werden. Dies vereinfacht die Speicherverwaltung, z.B. die Verwaltung einer Datenbank.
Zugänglich: Nutzer, Anwendungen und Systeme können Daten effizient auffinden und nutzen.
Zusammengenommen ermöglichen diese Vorteile den Fachkräften für Datenanalyse eine effektive Analyse und Interpretation ihrer Daten.
Metadaten-Repositories
Metadaten-Repositories helfen Fachkräften für Datenanalyse, die Zuverlässigkeit und Konsistenz ihrer Daten sicherzustellen.
Metadaten-Repositories sind spezialisierte Datenbanken, die speziell für die Speicherung und Verwaltung von Metadaten geschaffen wurden. Sie können an einem physischen Ort oder in einer virtuellen Umgebung aufbewahrt werden – wie Daten in der Cloud.
Metadaten-Repositories beschreiben, woher die Metadaten stammen und speichern diese Daten in einer zugänglichen Form mit einer gemeinsamen Struktur. Dies ermöglicht Fachkräften für Datenanalyse einen schnellen und einfachen Zugriff auf die Daten. Würden Fachkräfte für Datenanalyse kein Metadaten-Repository verwenden, müssten sie jede einzelne Datei auswählen, um deren Informationen nachzuschlagen und die Daten manuell zu vergleichen, was viel Zeit und Mühe kosten würde.
Fachkräfte für Datenanalyse nutzen Metadaten-Repositories auch, um mehrere Quellen für die Datenanalyse zusammenzuführen. Metadaten-Repositories tun dies, indem sie den Zustand und den Speicherort der Daten, die Struktur der Tabellen innerhalb der Daten und den Zugriff der Nutzer auf die Protokolle beschreiben.
Metadaten von externen Datenbanken
Fachkräfte für Datenanalyse nutzen sowohl Zweitanbieterdaten als auch Drittanbieterdaten, um wertvolle Statistiken zu gewinnen und strategische, datengesteuerte Entscheidungen zu treffen. Zweitanbieterdaten sind Daten, die von einer Gruppe direkt bei der Zielgruppe der Gruppe gesammelt und dann verkauft werden. Drittanbieterdaten werden von externen Quellen bereitgestellt, die diese Daten nicht direkt erhoben haben. Die Anbieter dieser Daten sind nicht die ursprünglichen Datensammler und stehen in keiner direkten Beziehung zu den Personen, denen die Daten gehören. Die externen Anbieter beziehen die Daten von Websites oder anderen Programmen, die sie von den verschiedenen Plattformen abrufen, auf denen sie ursprünglich erzeugt wurden.
Fachkräfte für Datenanalyse sollten die Metadaten der externen Datenbanken verstehen, um sicherzustellen, dass sie konsistent und zuverlässig sind. In einigen Fällen sollten sie sich auch mit dem Eigentümer der Drittanbieterdaten in Verbindung setzen, um sich zu vergewissern, dass die Daten zugänglich sind und erworben werden können. Bei der Verwendung von Daten, die von einer anderen Organisation stammen, ist es empfehlenswert, sich zu vergewissern, dass die Daten zuverlässig sind und dass die entsprechenden Genehmigungen für ihre Verwendung eingeholt wurden.
Die wichtigsten Erkenntnisse
Metadaten helfen Fachkräften für Datenanalyse, datengesteuerte Entscheidungsfindungen schneller und effizienter zu treffen. Außerdem stellen sie sicher, dass Daten und Datenbanken zuverlässig und konsistent sind.
Metadaten-Repositories werden verwendet, um Metadaten zu speichern – einschließlich der Daten von Zweitanbieter- und Drittunternehmen. Diese Repositories beschreiben den Zustand und den Speicherort der Metadaten, die Struktur der darin enthaltenen Tabellen und wer auf das Repository zugegriffen hat. Fachkräfte für Datenanalyse verwenden Metadaten-Repositories, um sicherzustellen, dass sie die richtigen Daten entsprechend verwenden.
Daten mit Metadaten managen
Megan: Spaß mit Metadaten
So viele Orte, um Daten zu finden
Arbeiten mit .csv-Dateien
In einer früheren Lektion haben Sie sich mit CSV-Dateien (comma-separated values, kommagetrennte Werte) befasst und erfahren, wie Sie diese in ein Google Sheet importieren oder von einer Website herunterladen können. Fachkräfte für Datenanalyse verwenden häufig .csv-Dateien. In diesem Kurs werden Sie daher .csv-Dateien verwenden, um Daten in Datenanalyseprogramme zur weiteren Analyse und Visualisierung zu übertragen. .csv-Dateien sind einfache Textdateien mit einer organisierten Tabellenstruktur, die Zeilen und Spalten enthält. Die Werte in jeder Zeile werden durch Kommas getrennt. Dank der Tabellenstruktur lassen sich .csv-Dateien leicht verstehen, bearbeiten, manipulieren und für die Datenanalyse verwenden.
Ein großer Vorteil von .csv-Dateien ist ihre breite Kompatibilität. Sie können von einer Vielzahl von Datenanalyse-Tools und Software-Programmen importiert und exportiert werden.
.csv-Dateien herunterladen
Um .csv-Dateien zu verwenden und sie in Datenanalyseprogramme hochzuladen, müssen Sie sie zunächst auf Ihr lokales Gerät herunterladen. Das Herunterladen einer .csv-Datei von einer Website kann je nach Betriebssystem oder Internet-Browser variieren. Hier sind einige Möglichkeiten, wie Sie eine CSV-Datei herunterladen können:
Klicken Sie auf den Download-Link oder den .csv-Anhang: Suchen Sie den Link für die CSV-Datei oder den Anhang auf der Website. Klicken Sie darauf, und der Prozess des Herunterladens wird gestartet.
Klicken Sie mit der rechten Maustaste und speichern Sie: Klicken Sie mit der rechten Maustaste auf die Datentabelle oder das Element, das die CSV-Daten enthält. Wählen Sie Speichern unter... oder eine ähnliche Option. Benennen Sie die Datei und achten Sie darauf, dass die Dateiendung „.csv“ lautet.
Download erzwingen: Sie können die Alt-Taste auf Ihrer Tastatur drücken, während Sie auf den Link klicken. Dadurch wird der Download ausgelöst, und Sie können die CSV-Datei in Ihrem Download-Ordner finden.
Hinweis: Wenn Sie den Chrome-Browser oder ChromeOS verwenden, werden CSV-Dateien möglicherweise in einer neuen Registerkarte geöffnet, anstatt auf Ihren Computer heruntergeladen zu werden. Befolgen Sie in diesem Fall die folgenden Anweisungen:
Wählen Sie in der Menüleiste “ Datei“ und dann „ Als Google Sheets speichern„. Dadurch wird die CSV-Datei als Google Sheet geöffnet.
Wählen Sie in der Menüleiste Datei und dann Download aus dem Dropdown-Menü und wählen Sie Kommagetrennte Werte (.csv).
Hochladen von .csv-Dateien
Während des Prozesses der Datenanalyse werden Sie häufig .csv-Dateien hochladen müssen. So gehen Sie vor:
Suchen Sie die Upload-Option: Jede Plattform für die Datenanalyse verfügt über eine Schaltfläche, eine Menüoption oder einen Drag&Drop-Bereich mit der Beschriftung Upload oder Import. Hier können Sie Ihre CSV-Datei hochladen.
Wählen Sie Ihre .csv-Datei: Klicken Sie auf der von Ihnen verwendeten Plattform auf Hochladen oder Importieren, um Ihren Datei-Explorer zu öffnen. Wählen Sie Ihre .csv-Datei. Wenn Sie gerade eine CSV-Datei aus dem Internet heruntergeladen haben, befindet sie sich im Ordner Downloads Ihres Computers.
Initiieren Sie den Upload: Sobald Sie Ihre CSV-Datei ausgewählt haben, klicken Sie auf Hochladen oder Importieren.Die Plattform zeigt möglicherweise einen Fortschrittsbalken oder eine Meldung an, die besagt, dass der Upload abgeschlossen ist.
Hinweis: Einige Plattformen haben Beschränkungen hinsichtlich der Dateigröße oder des Formats von CSV-Dateien. Stellen Sie vor dem Hochladen sicher, dass Ihre CSV-Dateien diesen Anforderungen entsprechen.
Die wichtigsten Erkenntnisse
Programme zur Datenanalyse helfen uns dabei, aus Daten Erkenntnisse und Wissen zu gewinnen. Die Verwendung von .csv-Dateien ist für die Datenanalyse unerlässlich. Wenn Sie verstehen, wie Sie Daten einfach aus dem Internet herunterladen oder Ihre Daten zu diesen Programmen hinzufügen können, können Sie Datenbereinigung, Visualisierung, Analyse und vieles mehr durchführen!
Importieren Sie Daten aus Tabellen und Datenbanken
Daten dynamisch importieren
Wie Sie bereits gelernt haben, können Sie Daten aus einigen Datenquellen, wie z.B. .csv-Dateien, über das Menü Datei in eine Google-Tabelle importieren. Beachten Sie bei dieser Methode, dass Daten, die in der .csv-Datei aktualisiert werden, nicht automatisch in Google Sheet aktualisiert werden. Stattdessen müssen sie manuell – und kontinuierlich – in Google Sheet aktualisiert werden. In manchen Situationen, z.B. wenn Sie die von Ihnen vorgenommenen Änderungen verfolgen möchten, ist diese Methode ideal. In anderen Situationen müssen Sie die Daten an beiden Orten gleich halten, und die Verwendung von Daten, die nicht automatisch aktualisiert werden, kann zeitaufwändig und mühsam sein. Außerdem kann der Versuch, dasselbe Dataset an mehreren Stellen zu pflegen, später zu Fehlern führen.
Zum Glück gibt es Tools, mit denen Sie Datenimporte automatisieren können, so dass Sie die Daten in Ihrer aktuellen Tabelle nicht ständig aktualisieren müssen. Nehmen Sie als Beispiel einen kleinen Gemischtwarenladen. Der Laden hat drei Kassen, die von drei Angestellten bedient werden. Am Ende eines jeden Tages möchte der Eigentümer den Gesamtumsatz und den Bargeldbetrag in jedem Register ermitteln. Jeder Angestellte ist dafür verantwortlich, das Geld zu zählen und die Summe der Verkäufe in eine Tabelle einzutragen. Der Eigentümer hat die Tabellen so eingerichtet, dass die Daten jedes Verkäufers in eine andere Tabelle importiert werden, die dann automatisch den Gesamtumsatz für alle drei Register berechnet. Ohne diese Automatisierung müsste jeder Verkäufer abwechselnd seine Daten in die Tabelle des Eigentümers eingeben. Dies ist ein Beispiel für eine dynamische Methode des Datenimports, die dem Eigentümer und den Verkäufern Zeit und Energie spart. Wenn Daten dynamisch sind, sind sie interaktiv und werden im Laufe der Zeit automatisch geändert und aktualisiert.
In den folgenden Abschnitten erfahren Sie, wie Sie Daten dynamisch in Google Sheets importieren können.
IMPORT funktionen in Google Sheets
Die FunktionIMPORTRANGE
In Google Sheets können Sie mit der Funktion IMPORTRANGE ein Dataset ganz oder teilweise aus einem anderen Google Sheet importieren.
Um diese Funktion zu verwenden, benötigen Sie zwei Informationen:
Die URL des Google Sheets, aus dem Sie die Daten importieren möchten.
Den Namen des Blattes und den Bereich der Zellen, die Sie in Ihr Google-Blatt importieren möchten.
Sobald Sie diese Informationen haben, öffnen Sie das Google Sheet, in das Sie Daten importieren möchten, und wählen die Zelle aus, in die die erste Zelle der Daten kopiert werden soll. Geben Sie = ein, um anzuzeigen, dass Sie eine Funktion eingeben werden, und vervollständigen Sie dann die Funktion IMPORTRANGE mit der URL und dem Bereich, die Sie auf folgende Weise identifiziert haben: =IMPORTRANGE(„URL“, „sheet_name!cell_range“). Beachten Sie, dass der Blattname und der Zellbereich im zweiten Teil dieser Funktion durch ein Ausrufezeichen getrennt sind.
Ein Beispiel für diese Funktion ist:
=IMPORTRANGE(„https://docs.google.com/thisisatestabc123“, „sheet1!A1:F13“)
Hinweis: Diese URL ist nur für die Syntax gedacht. Sie ist nicht dafür gedacht, in Ihre eigene Tabelle eingegeben zu werden.
Sobald Sie die Funktion abgeschlossen haben, wird ein Feld eingeblendet, das Sie auffordert, den Zugriff auf das Google Sheet zu erlauben, aus dem Sie Daten importieren. Sie müssen den Zugriff auf die Tabelle mit den Daten erlauben, wenn Sie diese zum ersten Mal in Google Sheets importieren. Ersetzen Sie sie durch die URL eines Arbeitsblatts, das Sie erstellt haben, damit Sie den Zugriff kontrollieren können, indem Sie die Schaltfläche Zugriff zulassen auswählen.
Weitere Informationen über die Syntax finden Sie auf der Seite IMPORTRANGE im Google Help Center. Sie werden auch später im Programm mehr darüber erfahren.
Die FunktionIMPORTHTML
Das Importieren von HTML-Tabellen ist eine grundlegende Methode, um Daten aus öffentlichen Webseiten zu extrahieren. Dieser Prozess wird oft als „Scraping“ bezeichnet Web Scraping leicht gemacht stellt Ihnen vor, wie Sie dies mit Google Sheets oder Microsoft Excel tun können.
In Google Sheets können Sie die Funktion IMPORTHTML verwenden, um die Daten aus einer HTML-Tabelle (oder Liste) auf einer Webseite zu importieren. Diese Funktion ist ähnlich wie die Funktion IMPORTRANGE. Weitere Informationen über die Syntax finden Sie auf der Seite IMPORTHTML des Google Help Centers.
Die FunktionIMPORTDATA
Manchmal liegen die im Web angezeigten Daten in Form einer komma- oder tabulatorgetrennten Datei vor.
Sie können die Funktion IMPORTDATA in einem Google Sheet verwenden, um Daten in ein Google Sheet zu importieren. Diese Funktion ist ähnlich wie die Funktion IMPORTRANGE. Weitere Informationen und die Syntax finden Sie auf der Seite IMPORTDATA des Google Help Centers.
Öffentliche Datasets erkunden
Open Data hilft bei der Erstellung einer Vielzahl öffentlicher Datasets, auf die Sie zugreifen können, um datengesteuerte Entscheidungsfindungen zu treffen. Hier finden Sie einige Ressourcen, mit denen Sie die Suche nach öffentlichen Datasets selbst in die Hand nehmen können:
Die Google Cloud Public Datasets ermöglichen Fachkräften für Datenanalyse den Zugriff auf stark nachgefragte öffentliche Datasets und machen es einfach, Statistiken in der Cloud aufzudecken.
Die Dataset-Suche kann Ihnen helfen, verfügbare Datasets online mit Hilfe von Schlüsselwörtern zu finden.
Kaggle verfügt über eine Open Data Suchfunktion, mit der Sie Datasets zum Üben finden können.
Schließlich, BigQuery über 150 öffentliche Datasets, auf die Sie zugreifen und die Sie nutzen können.
Öffentliche Datasets zum Thema Gesundheit
Daten des Globalen Gesundheitsobservatoriums: Sie können von dieser Seite aus nach Datasets suchen oder die vorgestellten Datensammlungen der Weltgesundheitsorganisation (WHO) erkunden.
The Cancer Imaging Archive (TCIA) dataset: Genau wie der vorherige Datensatz werden diese Daten von der Google Cloud Public Datasets gehostet und können in BigQuery hochgeladen werden.
1000 Genome: Dies ist ein weiteres Dataset aus den öffentlichen Ressourcen der Google Cloud, das in BigQuery hochgeladen werden kann.
Öffentliche Klimadatensätze
Nationales Rechenzentrum für Klimadaten: Die Seite NCDC Quick Links bietet eine Auswahl an Datasets, die Sie erkunden können.
NOAA Public Dataset Gallery: Die NOAA Public Dataset Gallery enthält eine durchsuchbare Sammlung von öffentlichen Datasets.
Öffentliche sozialpolitische Datasets
UNICEF Zustand der Kinder der Welt: Dieses Dataset von UNICEF enthält eine Sammlung von Tabellen, die Sie herunterladen können.
CPS Arbeitskräfte Statistik: Diese Seite enthält Links zu verschiedenen verfügbaren Datasets, die Sie untersuchen können.
Das Stanford Open Policing Projekt: Dieses Dataset kann als .csv-Datei für Ihre eigene Verwendung heruntergeladen werden.
Sortieren und Filtern, um sich auf relevante Daten zu konzentrieren
Lernen Sie BigQuery kennen, einschließlich Sandbox und Abrechnungsoptionen
Richten Sie Ihr BigQuery-Konto ein
Wie Sie bereits gelernt haben, ist BigQuery eine Datenbank, mit der Sie auf Daten aus vielen Quellen zugreifen und diese untersuchen und analysieren können. Jetzt beginnen Sie mit der Nutzung von BigQuery, was Ihnen hilft, SQL-Wissen zu erwerben, indem Sie Befehle eingeben und Fehlerbehebungen vornehmen. Diese Lektüre wird Sie durch den Prozess der Einrichtung Ihres eigenen BigQuery-Kontos führen.
Hinweis: Die Arbeit mit BigQuery ist keine Voraussetzung für dieses Programm. Am Ende dieser Lektüre finden Sie zusätzliche Ressourcen für andere SQL Plattformen, falls Sie diese stattdessen nutzen möchten.
BigQuery Konto-Optionen
BigQuery bietet eine Vielzahl von Kontoebenen, um den unterschiedlichen Bedürfnissen der Nutzer gerecht zu werden, und verfügt über zwei kostenlose Angriffspunkte: ein Sandbox-Konto und ein kostenloses Testkonto. Diese Optionen ermöglichen es Ihnen, das Programm zu erkunden, bevor Sie die beste Wahl für Ihre Bedürfnisse treffen. Mit einem Sandbox-Konto können Sie das Schreiben von Abfragen üben und öffentliche Datasets kostenlos erkunden, aber es gibt Kontingente und Limits sowie einige zusätzliche Einschränkungen. Wenn Sie BigQuery lieber mit den Standardlimits nutzen möchten, können Sie stattdessen ein kostenloses Testkonto einrichten. Bei der kostenlosen Testversion handelt es sich um einen Testzeitraum, bevor Sie für ein Abonnement bezahlen. In diesem Fall fällt keine automatische Gebühr an, aber Sie werden bei der Einrichtung des Kontos nach Zahlungsinformationen gefragt.
In dieser Lektüre finden Sie Anleitungen zur Einrichtung der beiden Kontotypen. Ein effektiver erster Schritt ist es, mit einem Sandbox-Konto zu beginnen und bei Bedarf zu einem kostenlosen Testkonto zu wechseln, um die bevorstehenden SQL-Kurse durchzuführen.
Sandbox-Konto
Das Sandbox-Konto ist kostenlos und jeder, der ein Google-Konto hat, kann es nutzen. Es hat jedoch einige Einschränkungen. Zum Beispiel sind Sie auf maximal 12 Projekte gleichzeitig beschränkt. Das bedeutet, dass Sie, um ein 13. Projekt zu erstellen, eines Ihrer bestehenden 12 Projekte löschen müssen. Außerdem unterstützt das Sandbox-Konto nicht alle Vorgänge, die Sie in diesem Programm durchführen können. So ist beispielsweise die Menge der Daten, die Sie verarbeiten können, begrenzt und Sie können keine neuen Datensätze in eine Datenbank einfügen oder die Werte bestehender Datensätze aktualisieren. Ein Sandbox-Konto ist jedoch perfekt für die meisten Programmaktivitäten geeignet, einschließlich aller Aktivitäten in diesem Kurs. Außerdem können Sie Ihr Sandbox-Konto jederzeit in ein kostenloses Testkonto umwandeln.
Ihr Sandbox-Konto einrichten
So richten Sie ein Sandbox-Konto ein:
Besuchen Sie die BigQuery Sandbox-Dokumentationsseite.
Loggen Sie sich in Ihr bevorzugtes Google-Konto ein, indem Sie das Profilsymbol in der BigQuery-Menüleiste auswählen.
Wählen Sie auf der Dokumentationsseite die Schaltfläche Go to BigQuery.
Sie werden aufgefordert, Ihr Land auszuwählen und die Nutzungsbedingungen zu lesen.
So gelangen Sie zum SQL-Arbeitsbereich, in dem Sie die kommenden Aktivitäten durchführen werden. Standardmäßig erstellt BigQuery ein Projekt für Sie.
Nachdem Sie Ihr Konto eingerichtet haben, erscheint der Name des Projekts im Banner in Ihrer BigQuery-Konsole.
Kostenfreie Testversion
Wenn Sie die Möglichkeiten von BigQuery mit weniger Einschränkungen erkunden möchten, sollten Sie die kostenlose Google Cloud Testversion in Betracht ziehen. Damit erhalten Sie in den ersten 90 Tagen ein Guthaben von 300 $ für die Nutzung der Google Cloud. Wenn Sie BigQuery in erster Linie für SQL-Abfragen verwenden, werden Sie wahrscheinlich nicht in die Nähe dieser Ausgabengrenze kommen. Nachdem Sie das Guthaben von 300 $ aufgebraucht haben oder nach 90 Tagen, läuft Ihre kostenlose Testversion aus und Sie können dieses Konto nur noch gegen Bezahlung nutzen. Google wird Ihre Zahlungsmethode nicht automatisch belasten, wenn die Testphase endet. Sie müssen jedoch eine Zahlungsoption bei Google Cloud einrichten. Das bedeutet, dass Sie Ihre finanziellen Informationen eingeben müssen. Sie können sicher sein, dass Ihnen keine Kosten entstehen, es sei denn, Sie entscheiden sich bewusst für ein Upgrade auf ein kostenpflichtiges Konto. Wenn es Ihnen unangenehm ist, Zahlungsinformationen anzugeben, können Sie stattdessen das BigQuery Sandbox-Konto verwenden.
Richten Sie Ihre kostenlose Testversion ein
Rufen Sie die BigQuery-Seite auf.
Wählen Sie BigQuery kostenlos testen.
Loggen Sie sich mit Ihrer Google-E-Mail ein oder erstellen Sie ein kostenloses Konto, wenn Sie noch keines haben. Klicken Sie hier, um ein Konto zu erstellen.
Wählen Sie Ihr Land, eine Beschreibung Ihres Unternehmens oder Ihrer Bedürfnisse und das Kontrollkästchen, um die Nutzungsbedingungen zu akzeptieren. Wählen Sie dann WEITER.
Geben Sie Ihre Rechnungsdaten ein und wählen Sie MEIN KOSTENLOSES PROBEN STARTEN.
Nachdem Sie Ihr Konto eingerichtet haben, wird Ihr erstes Projekt mit dem Titel Mein erstes Projekt im Banner angezeigt.
Übertragungen zwischen BigQuery-Konten
Mit einem Sandbox- oder kostenlosen Testkonto haben Sie die Möglichkeit, jederzeit auf ein kostenpflichtiges Konto umzusteigen. Wenn Sie ein Upgrade durchführen, werden alle Ihre bestehenden Projekte beibehalten und auf Ihr neues Konto übertragen. Wenn Sie mit einer kostenlosen Testversion begonnen haben, aber nach deren Ablauf kein Upgrade durchführen möchten, können Sie zu einem Sandbox-Konto wechseln. Beachten Sie jedoch, dass die Projekte aus Ihrer Testversion nicht in Ihre Sandbox übertragen werden. Im Grunde ist die Erstellung einer Sandbox so, als würden Sie bei Null anfangen.
Erste Schritte mit anderen Datenbanken (wenn Sie BigQuery nicht verwenden)
Es ist am einfachsten, den Kursaktivitäten zu folgen, wenn Sie BigQuery verwenden, aber Sie können auch andere SQL Plattformen verwenden, wenn Sie dies bevorzugen. Wenn Sie sich entscheiden, SQL-Abfragen auf anderen Plattformen zu üben, finden Sie hier einige Ressourcen für den Einstieg:
Die wichtigsten Erkenntnisse
BigQuery bietet mehrere Konto-Optionen. Beachten Sie bei der Auswahl eines Kontotyps die folgenden Punkte:
Kontenebenen: BigQuery bietet verschiedene Kontotypen an, um den Anforderungen einer Vielzahl von Nutzern gerecht zu werden. Ganz gleich, ob Sie mit einem Sandbox-Konto beginnen oder ein kostenpflichtiges Konto mit der kostenlosen Testoption ausprobieren möchten, BigQuery bietet Ihnen die Flexibilität, die Option zu wählen, die am besten zu Ihren Bedürfnissen und Ihrem Budget passt.
Sandbox-Einschränkungen: Ein Sandbox-Konto ist zwar ein hervorragender Ausgangspunkt, hat aber einige Einschränkungen, wie z.B. eine Obergrenze für die Anzahl der Projekte und Einschränkungen bei der Datenmanipulation, wie z.B. das Einfügen oder Aktualisieren von Datensätzen, auf die Sie später in diesem Programm stoßen werden. Seien Sie sich dieser Einschränkungen bewusst, wenn Sie diesen Kurs mit einem Sandbox-Konto durcharbeiten möchten.
Einfache Einrichtung und Upgrades: Der Einstieg in BigQuery ist mit jedem Kontotyp schnell und einfach. Und wenn sich Ihre Anforderungen ändern, können Sie Ihren Kontostatus jederzeit flexibel ändern. Außerdem können Projekte auch dann beibehalten werden, wenn Sie zwischen den Kontotypen wechseln.
Wählen Sie den richtigen BigQuery-Kontotyp für Ihre speziellen Anforderungen und passen Sie sich an, wenn sich Ihre Anforderungen ändern!
Erste Schritte mit BigQuery
BigQuery ist ein Data Warehouse auf der Google Cloud Plattform, mit dem Sie große Datasets abfragen und filtern, Ergebnisse aggregieren und komplexe Operationen durchführen können. In diesem Programm werden Sie BigQuery verwenden, um Ihre SQL-Kenntnisse zu trainieren und Daten zu sammeln, aufzubereiten und zu analysieren. Zu diesem Zeitpunkt haben Sie Ihr eigenes Konto eingerichtet. Lernen Sie nun einige der wichtigen Elemente des SQL-Arbeitsbereichs kennen. Dies wird Sie auf die kommenden Aktivitäten vorbereiten, bei denen Sie BigQuery verwenden werden. Beachten Sie, dass BigQuery seine Schnittstelle häufig aktualisiert, so dass Ihre Konsole möglicherweise etwas anders aussieht als in dieser Lektüre beschrieben. Das ist in Ordnung; nutzen Sie Ihre Fähigkeiten zur Fehlerbehebung, um das zu finden, was Sie brauchen!
Anmelden bei BigQuery
Wenn Sie sich über die Landing Page bei BigQuery anmelden, wird automatisch Ihr Projektraum geöffnet. Dies ist eine Übersicht über Ihr Projekt, einschließlich der Projektinformationen und der aktuell verwendeten Ressourcen. Von hier aus können Sie Ihre jüngsten Aktivitäten überprüfen.
Navigieren Sie zum BigQuery Studio Ihres Projekts, indem Sie BigQuery aus dem Navigationsmenü und BigQuery Studio aus dem Dropdown-Menü auswählen.
BiqQuery Studio Komponenten
Sobald Sie vom Projektraum aus zu BigQuery navigiert haben, sind die meisten der wichtigsten Komponenten der BigQuery-Konsole vorhanden: das Navigationsfenster , das Explorer-Fenster und der SQL-Arbeitsbereich.
Der Navigationsbereich
Auf der Konsolenseite finden Sie das Navigationsfenster . Hier können Sie vom Projektbereich zum BigQuery-Tool navigieren. Dieses Menü enthält auch eine Liste anderer Daten-Tools für das Google Cloud Projekt (GCP). In diesem Programm werden Sie sich auf BigQuery konzentrieren, aber es ist nützlich zu verstehen, dass das GCP über eine Sammlung verbundener Tools verfügt, die Datenexperten jeden Tag verwenden.
Das Explorer-Fenster
Das Explorer-Fenster enthält eine Liste Ihrer aktuellen Projekte und aller mit Sternen versehenen Projekte, die Sie Ihrer Konsole hinzugefügt haben. Hier finden Sie auch die Schaltfläche + HINZUFÜGEN, mit der Sie Datasets hinzufügen können.
Mit dieser Schaltfläche öffnen Sie das Dialogfeld Hinzufügen , in dem Sie eine Vielzahl von Datasets öffnen oder importieren können.
Öffentliche Datasets hinzufügen
BigQuery bietet eine Vielzahl von öffentlichen Datasets aus dem Google Cloud Public Dataset Programm. Scrollen Sie im Dialogfeld Hinzufügen nach unten zur Option Öffentliche Datasets.
Wählen Sie Öffentliche Datasets. Dadurch gelangen Sie zum Public Datasets Marketplace, wo Sie nach öffentlichen Datasets suchen und diese auswählen können, um sie zu Ihrer BigQuery Konsole hinzuzufügen. Suchen Sie zum Beispiel in der Suchleiste des Marktplatzes nach dem Dataset „noaa lightning“. Wenn Sie nach diesem Dataset suchen, finden Sie die Cloud-to-Ground Lightning Strikes Daten der NOAA.
Wählen Sie das Dataset aus, um seine Beschreibung zu lesen. Wählen Sie Dataset anzeigen, um eine Registerkarte mit den Informationen zu dem Dataset im SQL-Arbeitsbereich zu erstellen.
Öffentliche Datasets starten und untersuchen
Sie haben das öffentliche Dataset noaa_lightning zu Ihrem BigQuery Workspace hinzugefügt, so dass das Explorer-Fenster das Dataset noaa_lightning zusammen mit der Liste der anderen öffentlichen Datasets anzeigt. Diese Datasets sind unter bigquery-public-data verschachtelt. Markieren Sie bigquery-public-data, indem Sie zum oberen Rand des Explorer-Fensters navigieren und den Stern neben bigquery-public-data auswählen.
Wenn Sie bigquery-public-data mit einem Sternchen versehen, können Sie öffentliche Datasets suchen und hinzufügen, indem Sie im Explorer-Fenster blättern oder in der Explorer-Suchleiste danach suchen.
Sie könnten zum Beispiel ein anderes öffentliches Dataset auswählen wollen. Wenn Sie das zweite Dataset, „austin_311“, auswählen, wird es erweitert, um die darin gespeicherte Tabelle „311_service_requests“ aufzulisten
Wenn Sie eine Tabelle auswählen, werden ihre Informationen im SQL-Arbeitsbereich angezeigt. Wählen Sie die Tabelle 311_service_requests, um mehrere Registerkarten zu sehen, die die Tabelle beschreiben, darunter:
Schema, das die Spaltennamen im Dataset anzeigt
Details, die zusätzliche Metadaten enthalten, wie z.B. das Erstellungsdatum des Datasets
Vorschau, die die ersten Zeilen aus dem Dataset anzeigt
Außerdem können Sie die Schaltfläche Abfrage in der Menüleiste des SQL-Arbeitsbereichs auswählen, um diese Tabelle abzufragen.
Der SQL-Arbeitsbereich
Der letzte Menübereich in Ihrer Konsole ist der SQL-Arbeitsbereich. Hier werden Sie die Abfragen in BigQuery schreiben und ausführen.
Über den SQL-Arbeitsbereich haben Sie auch Zugriff auf Ihre persönliche und projektbezogene Geschichte, in der ein Datensatz mit den von Ihnen ausgeführten Abfragen gespeichert ist. Dies kann nützlich sein, wenn Sie zu einer Abfrage zurückkehren möchten, um sie erneut auszuführen oder einen Teil davon in einer anderen Abfrage zu verwenden.
Hochladen Ihrer Daten
BigQuery bietet Ihnen nicht nur Zugang zu öffentlichen Datasets, sondern auch die Möglichkeit, Ihre eigenen Daten direkt in Ihren Arbeitsbereich hochzuladen. Rufen Sie diese Funktion auf, indem Sie das Menü + HINZUFÜGEN erneut öffnen oder indem Sie im Explorer-Fenster auf die drei vertikalen Punkte neben dem Namen Ihres Projekts klicken. Dadurch erhalten Sie die Möglichkeit, Ihr eigenes Dataset zu erstellen und Ihre eigenen Tabellen hochzuladen. Sie werden in einer der nächsten Aktivitäten die Möglichkeit haben, Ihre eigenen Daten hochzuladen, um den Umgang mit dieser Funktion zu üben!
Die wichtigsten Erkenntnisse
Mit dem SQL-Arbeitsbereich von BigQuery können Sie nach öffentlichen Datasets suchen, SQL-Abfragen durchführen und sogar Ihre eigenen Daten zur Analyse hochladen. Ganz gleich, ob Sie mit öffentlichen Datasets arbeiten, SQL-Abfragen ausführen oder Ihre eigenen Daten hochladen, der SQL-Arbeitsbereich von BigQuery bietet eine Reihe von Funktionen zur Unterstützung aller Arten von Datenanalyseaufgaben. Während dieses Programms werden Sie BigQuery verwenden, um Ihre SQL-Kenntnisse zu trainieren. Wenn Sie also mit den wichtigsten Komponenten Ihrer BigQuery-Konsole vertraut sind, werden Sie sie in Zukunft effizient nutzen können!
BigQuery in Aktion
Eingehende Anleitung: Bewährte SQL-Praktiken
Diese bewährten Verfahren umfassen Richtlinien für die Eingabe von SQL-Abfragen, die Entwicklung von Dokumentation und Beispiele, die diese Verfahren veranschaulichen. Dies ist eine großartige Ressource, wenn Sie SQL selbst verwenden; Sie können einfach direkt zum entsprechenden Abschnitt gehen, um diese Praktiken zu überprüfen. Betrachten Sie es als eine Art SQL-Fachhandbuch!
Großschreibung und Unterscheidung zwischen Groß- und Kleinschreibung
Bei SQL spielt die Großschreibung normalerweise keine Rolle. Sie können SELECT oder select oder SeLeCT eingeben. Sie funktionieren alle! Aber wenn Sie die Großschreibung als Teil eines einheitlichen Stils verwenden, sehen Ihre Abfragen professioneller aus.
Um SQL-Abfragen wie ein Profi einzugeben, sollten Sie Klauseln immer in Großbuchstaben schreiben (z. B. SELECT, FROM, WHERE, usw.). Funktionen sollten ebenfalls in Großbuchstaben geschrieben werden (z. B. SUM()). Spaltennamen sollten in Kleinbuchstaben geschrieben werden (siehe den Abschnitt über snake_case weiter unten in diesem Leitfaden). Tabellennamen sollten in CamelCase geschrieben werden (siehe den Abschnitt über CamelCase weiter unten in diesem Handbuch). Dies trägt dazu bei, dass Ihre Abfragen konsistent und leichter zu lesen sind, ohne Auswirkungen auf die Daten zu haben, die bei der Ausführung gezogen werden. Die Großschreibung spielt nur dann eine Rolle, wenn sie in Anführungszeichen steht (mehr zu Anführungszeichen weiter unten).
Zulieferunternehmen von SQL-Datenbanken verwenden möglicherweise leicht abweichende Varianten von SQL. Diese Variationen werden als SQL-Dialekte bezeichnet. Bei einigen SQL-Dialekten wird zwischen Groß- und Kleinschreibung unterschieden. BigQuery ist einer von ihnen. Vertica ist ein anderer. Die meisten jedoch, wie MySQL, PostgreSQL und SQL Server, unterscheiden nicht zwischen Groß- und Kleinschreibung. Das heißt, wenn Sie nach country_code = ‘us’ suchen, werden alle Einträge mit ‚us‘, ‚uS‘, ‚Us‘ und ‚US‘ zurückgegeben. Das ist bei BigQuery nicht der Fall. BigQuery unterscheidet zwischen Groß- und Kleinschreibung, so dass dieselbe Suche nur Einträge zurückgeben würde, bei denen country_code genau ‚us‘ ist. Wenn country_code gleich ‚US‘ ist, würde BigQuery diese Einträge nicht als Teil des Ergebnisses zurückgeben.
Einfache oder doppelte Anführungszeichen: “ oder “ „
In den meisten Fällen spielt es auch keine Rolle, ob Sie einfache Anführungszeichen ‚ ‚ oder doppelte Anführungszeichen “ „ verwenden, wenn Sie sich auf Zeichenketten beziehen. SELECT ist zum Beispiel ein Klauselstarter. Wenn Sie SELECT in Anführungszeichen setzen, wie ‚SELECT‘ oder „SELECT“, dann wird es von SQL wie eine Textzeichenfolge behandelt. Ihre Abfrage wird einen Fehler zurückgeben, da Ihre Abfrage eine SELECT Klausel benötigt.
Es gibt jedoch zwei Situationen, in denen es wichtig ist, welche Art von Anführungszeichen Sie verwenden:
Wenn Sie wollen, dass Zeichenketten in jedem SQL-Dialekt identifizierbar sind
Wenn Ihre Zeichenkette ein Hochkomma oder Anführungszeichen enthält
Innerhalb jedes SQL-Dialekts gibt es Regeln dafür, was akzeptiert wird und was nicht. Eine allgemeine Regel für fast alle SQL-Dialekte ist jedoch die Verwendung von einfachen Anführungszeichen für Zeichenketten. Dies hilft, eine Menge Verwirrung zu beseitigen. Wenn wir also in einer WHERE -Klausel auf das Land USA verweisen wollen (z. B. country_code = ‚US‘), dann verwenden Sie einfache Anführungszeichen um die Zeichenfolge ‚US‘.
Die zweite Situation ist, wenn Ihre Zeichenkette Anführungszeichen enthält. Angenommen, Sie haben eine Spalte favorite_food in einer Tabelle mit dem Namen FavoriteFoods und die andere Spalte entspricht jeder friend.
freund | bevorzugte_lebensmittel |
---|---|
Rachel DeSantos | Hirtenkuchen |
Sujin Lee | Tacos |
Najil Okoro | Spanische Paella |
Vielleicht fällt Ihnen auf, dass Rachels Lieblingsessen ein Apostroph enthält. Wenn Sie einfache Anführungszeichen in einer WHERE -Klausel verwenden würden, um den Freund zu finden, der dieses Lieblingsessen hat, würde es so aussehen:
Das wird nicht funktionieren. Wenn Sie diese Abfrage ausführen, erhalten Sie eine Fehlermeldung. Das liegt daran, dass SQL eine Textzeichenfolge als etwas erkennt, das mit einem Anführungszeichen ‚ beginnt und mit einem weiteren Anführungszeichen ‚ endet. In der obigen fehlerhaften Abfrage denkt SQL also, dass die favorite_food, nach der Sie suchen, ‚Shepherd‘ ist, weil das Apostroph in Shepherd’sdie Zeichenkette beendet.
Im Allgemeinen sollte dies das einzige Mal sein, dass Sie doppelte Anführungszeichen anstelle von einfachen Anführungszeichen verwenden. Ihre Abfrage würde also stattdessen so aussehen:
SQL versteht Textzeichenfolgen so, dass sie entweder mit einem einfachen Anführungszeichen ‚ oder einem doppelten Anführungszeichen „ beginnen. Da dieser String mit doppelten Anführungszeichen beginnt, erwartet SQL ein weiteres doppeltes Anführungszeichen, um das Ende des Strings zu signalisieren. So bleibt das Hochkomma sicher, und es wird „Shepherd’s pie“ und nicht „Shepherd“ zurückgegeben.
Kommentare als Gedächtnisstütze
Mit zunehmender Vertrautheit mit SQL werden Sie in der Lage sein, Abfragen auf einen Blick zu lesen und zu verstehen. Aber es schadet nie, Kommentare in die Abfrage einzufügen, um sich daran zu erinnern, was Sie eigentlich tun wollen. Und wenn Sie Ihre Abfrage teilen, hilft das auch anderen, sie zu verstehen.
Ein Beispiel:
Sie können in der obigen Abfrage # anstelle der beiden Bindestriche, —, verwenden, aber bedenken Sie, dass # nicht in allen SQL-Dialekten erkannt wird (MySQL erkennt # nicht an). Daher ist es am besten, — zu verwenden und damit konsistent zu sein. Wenn Sie mit — einen Kommentar zu einer Abfrage hinzufügen, ignoriert die Datenbank-Abfrage-Engine alles, was in der gleichen Zeile nach — steht. Sie setzt den Prozess der Abfrage ab der nächsten Zeile fort.
snake_case Namen für Spalten
Es ist wichtig, immer darauf zu achten, dass die Ausgabe Ihrer Abfrage leicht verständliche Namen hat. Wenn Sie eine neue Spalte erstellen (z. B. aus einer Berechnung oder aus der Verkettung neuer Felder), erhält die neue Spalte einen generischen Standardnamen (z. B. f0). Ein Beispiel:
Ergebnisse sind:
f0 | f1 | gesamt_Karten | anzahl_der_Käufe |
---|---|---|---|
8 | 4 | 8 | 4 |
Die ersten beiden Spalten heißen f0 und f1, da sie in der obigen Abfrage nicht benannt wurden. SQL gibt standardmäßig f0, f1, f2, f3, usw. vor. Wir haben die letzten beiden Spalten total_tickets und number_of_purchases genannt, damit diese Spaltennamen in den Abfrageergebnissen auftauchen. Aus diesem Grund ist es immer gut, den Spalten nützliche Namen zu geben, besonders wenn Sie Funktionen verwenden. Nachdem Sie Ihre Abfrage ausgeführt haben, sollten Sie in der Lage sein, Ihre Ergebnisse schnell zu verstehen, wie die letzten beiden Spalten, die wir im Beispiel beschrieben haben.
Außerdem ist Ihnen vielleicht aufgefallen, dass die Spaltennamen einen Unterstrich zwischen den Wörtern haben. Namen sollten niemals Leerzeichen enthalten. Wenn total_tickets ein Leerzeichen enthielte und wie total tickets aussähe, würde SQL einen Syntaxfehler ausgeben, weil es nicht wüsste, was es mit dem zweiten Wort (tickets) anfangen sollte. Leerzeichen sind also in SQL-Namen nicht gut. Verwenden Sie niemals Leerzeichen.
Die beste Praxis ist die Verwendung von snake_case. Das bedeutet, dass „total tickets“, das ein Leerzeichen zwischen den beiden Wörtern enthält, als total_tickets mit einem Unterstrich anstelle eines Leerzeichens eingegeben werden sollte.
CamelCase-Namen für Tabellen
Sie können bei der Benennung Ihrer Tabelle auch die Großschreibung CamelCase verwenden. CamelCase-Großschreibung bedeutet, dass Sie den Anfang eines jeden Wortes groß schreiben, wie ein zweihöckriges (baktrisches) Kamel. In der Tabelle TicketsByOccasion wird also CamelCase-Großschreibung verwendet. Bitte beachten Sie, dass die Großschreibung des ersten Wortes in CamelCase optional ist ; camelCase wird ebenfalls verwendet. Einige Leute unterscheiden zwischen den beiden Stilen, indem sie CamelCase, PascalCase, nennen und camelCase für den Fall reservieren, dass das erste Wort nicht groß geschrieben wird, wie bei einem einhöckrigen (Dromedar) Kamel; zum Beispiel ticketsByOccasion.
Letzten Endes ist CamelCase eine Stilentscheidung. Es gibt noch andere Möglichkeiten, wie Sie Ihre Tabellen benennen können, zum Beispiel:
Alle Klein- oder Großbuchstaben, wie ticketsbyoccasion oder TICKETSBYOCCASION
Mit snake_case, wie tickets_by_occasion
Beachten Sie, dass die Option mit ausschließlich Klein- oder Großbuchstaben die Lesbarkeit Ihres Tabellennamens erschweren kann und daher für den professionellen Gebrauch nicht empfohlen wird.
Die zweite Option, snake_case, ist technisch in Ordnung. Mit durch Unterstriche getrennten Wörtern ist Ihr Tabellenname leicht zu lesen, aber er kann sehr lang werden, weil Sie die Unterstriche hinzufügen. Außerdem nimmt die Eingabe mehr Zeit in Anspruch. Wenn Sie diese Tabelle häufig verwenden, kann das zu einer lästigen Pflicht werden.
Zusammenfassend lässt sich sagen, dass es Ihnen überlassen ist, ob Sie beim Erstellen von Tabellennamen snake_case oder CamelCase verwenden. Achten Sie nur darauf, dass Ihr Tabellenname leicht zu lesen und einheitlich ist. Erkundigen Sie sich auch, ob Ihr Unternehmen eine bevorzugte Methode zur Benennung seiner Tabellen hat. Wenn dies der Fall ist, sollten Sie aus Gründen der Einheitlichkeit immer deren Namenskonvention verwenden.
Einrückung
Als allgemeine Regel gilt, dass die Länge jeder Zeile in einer Abfrage <= 100 Zeichen betragen sollte. Dies erleichtert die Lesbarkeit Ihrer Abfragen. Sehen Sie sich zum Beispiel diese Abfrage mit einer Zeilenlänge von mehr als 100 Zeichen an:
Diese Abfrage ist schwer zu lesen und ebenso schwer zu beheben oder zu bearbeiten. Hier nun eine Abfrage, bei der wir uns an die Regel <= 100 Zeichen halten:
Jetzt ist es viel einfacher zu verstehen, was Sie mit der SELECT Klausel bezwecken. Sicher, beide Abfragen werden problemlos ausgeführt, da die Einrückung in SQL keine Rolle spielt. Aber eine korrekte Einrückung ist trotzdem wichtig, um die Zeilen kurz zu halten. Und sie wird von jedem, der Ihre Abfrage liest, geschätzt, auch von Ihnen selbst!
Mehrzeilige Kommentare
Wenn Sie Kommentare schreiben, die mehrere Zeilen umfassen, können Sie — für jede Zeile verwenden. Bei mehr als zweizeiligen Kommentaren ist es vielleicht sauberer und einfacher, den Kommentar mit /* zu beginnen und mit */ abzuschließen. Sie können zum Beispiel die — Methode wie unten verwenden:
Oder Sie können die Methode /* */ wie unten verwenden:
In SQL spielt es keine Rolle, welche Methode Sie verwenden. SQL ignoriert Kommentare unabhängig davon, was Sie verwenden: #, —, oder /* und */. Es hängt also von Ihnen und Ihren persönlichen Vorlieben ab. Die Methode /* und */ für mehrzeilige Kommentare sieht normalerweise sauberer aus und hilft, die Kommentare von der Abfrage zu trennen. Aber es gibt nicht die eine richtige oder falsche Methode.
SQL-Texteditoren
Wenn Sie einem Unternehmen beitreten, können Sie davon ausgehen, dass jedes Unternehmen seine eigene SQL-Plattform und seinen eigenen SQL-Dialekt verwendet. Die von ihnen verwendete SQL-Plattform (z. B. BigQuery, MySQL oder SQL Server) ist der Ort, an dem Sie Ihre SQL-Abfragen eingeben und ausführen werden. Beachten Sie jedoch, dass nicht alle SQL-Plattformen native Scripting-Editoren zur Eingabe von SQL-Code bereitstellen. SQL-Texteditoren bieten Ihnen eine Schnittstelle, über die Sie Ihre SQL-Abfragen auf einfachere und farblich gekennzeichnete Weise eingeben können. In der Tat wurde der gesamte Code, mit dem wir bisher gearbeitet haben, mit einem SQL-Texteditor eingegeben!
Beispiele mit Sublime Text
Wenn Ihre SQL Plattform kein farbliches Coding bietet, sollten Sie vielleicht über die Verwendung eines Texteditors wie Sublime Text oder Atomdieser Abschnitt zeigt, wie SQL in Sublime Text dargestellt wird. Hier ist eine Abfrage in Sublime Text:
Mit Sublime Text können Sie auch fortgeschrittene Bearbeitungen vornehmen, wie z.B. das gleichzeitige Löschen von Einrückungen in mehreren Zeilen. Nehmen wir zum Beispiel an, Ihre Abfrage hatte Einrückungen an den falschen Stellen und sah wie folgt aus:
Das ist wirklich schwer zu lesen, also sollten Sie diese Einrückungen entfernen und von vorne beginnen. In einer normalen SQL-Plattform müssten Sie in jede Zeile gehen und BACKSPACE drücken, um jeden Einzug pro Zeile zu löschen. In Sublime können Sie jedoch alle Einrückungen auf einmal entfernen, indem Sie alle Zeilen markieren und die Tastenkombination Befehl (oder STRG in Windows) + [ drücken. Dadurch werden die Einrückungen in jeder Zeile entfernt. Anschließend können Sie die Zeilen auswählen, die Sie einrücken möchten (d. h. die Zeilen 2, 4 und 6), indem Sie die Befehlstaste (bzw. die STRG-Taste in Windows) drücken und diese Zeilen markieren. Halten Sie dann immer noch die Befehlstaste (bzw. die STRG-Taste in Windows) gedrückt und drücken Sie ], um die Zeilen 2, 4 und 6 gleichzeitig einzurücken. Dadurch wird Ihre Abfrage bereinigt und sieht stattdessen wie folgt aus:
Sublime Text unterstützt auch reguläre Ausdrücke. Reguläre Ausdrücke (oder regex) können verwendet werden, um nach Zeichenkettenmustern in Abfragen zu suchen und diese zu ersetzen. Wir werden hier nicht auf reguläre Ausdrücke eingehen, aber vielleicht möchten Sie selbst mehr darüber lernen, denn sie sind ein sehr mächtiges Werkzeug.
Sie können mit diesen Ressourcen beginnen:
Regex-Tutorial (falls Sie nicht wissen, was reguläre Ausdrücke sind)
Glossarbegriffe aus Modul 3
Begriffe und Definitionen für Kurs 3, Modul 3
Administrative Metadaten: Metadaten, die die technische Quelle eines digitalen Assets angeben
CSV-Datei (comma-separated values, kommagetrennte Werte): Eine durch Komma getrennte Textdatei, in der die Werte durch ein Komma getrennt sind
Daten-Governance: Ein Prozess zur Sicherstellung der formalen Verwaltung der Daten-Assets eines Unternehmens
Beschreibende Metadaten: Metadaten, die einen Teil der Daten beschreiben und zu einem späteren Zeitpunkt zur Identifizierung verwendet werden können
Fremdschlüssel: Ein Feld innerhalb einer Datenbanktabelle, das ein Primärschlüssel in einer anderen Tabelle ist (siehe Primärschlüssel)
FROM: Der Abschnitt einer Abfrage, der angibt, woher die ausgewählten Daten stammen
Geolokalisierung: Der geografische Standort einer Person oder eines Geräts anhand von digitalen Informationen
Metadaten: Daten über Daten
Metadaten-Repository: Eine Datenbank, in der Metadaten gespeichert werden
Namenskonventionen: Einheitliche Richtlinien, die den Inhalt, das Erstellungsdatum und die Version einer Datei in ihrem Namen beschreiben
Normalisierte Datenbank: Eine Datenbank, in der in jeder Tabelle nur zusammengehörige Daten gespeichert werden
Notizbuch: Eine interaktive, bearbeitbare Programmierumgebung zur Erstellung von Datenberichten und zur Demonstration von Datenkenntnissen
Primärschlüssel: Ein Bezeichner in einer Datenbank, der auf eine Spalte verweist, in der jeder Wert eindeutig ist (siehe Fremdschlüssel)
Redundanz: Wenn ein und dieselben Daten an zwei oder mehr Stellen gespeichert sind
Schema: Eine Art zu beschreiben, wie etwas, z. B. Daten, organisiert ist
SELECT: Der Abschnitt einer Abfrage, der die Teilmenge eines Datasets angibt
Strukturelle Metadaten: Metadaten, die angeben, wie ein Teil der Daten organisiert ist und ob er Teil einer oder mehrerer Datensammlungen ist
WHERE: Der Abschnitt einer Abfrage , der Kriterien angibt, die die angeforderten Daten erfüllen müssen
Weltgesundheitsorganisation (WHO): Eine Organisation, deren Hauptaufgabe darin besteht, das internationale Gesundheitswesen innerhalb des Systems der Vereinten Nationen zu leiten und zu koordinieren
Fühlen Sie sich sicher in Ihren Daten
Organisieren wir uns
Richtlinien zur Dateiorganisation
Das Ziel jeder Fachkraft für Datenanalyse ist es, eine effiziente Datenanalyse durchzuführen. Eine Möglichkeit, die Effizienz Ihrer Analysen zu steigern, ist die Rationalisierung von Prozessen, die auf lange Sicht Zeit und Energie sparen. Aussagekräftige, logische und konsistente Dateinamen helfen Fachkräften für Datenanalyse, ihre Daten zu organisieren und ihren Prozess zu automatisieren. Wenn Sie konsistente Richtlinien zur Beschreibung des Inhalts, des Datums oder der Version einer Datei und ihres Namens verwenden, sprechen Sie von Namenskonventionen für Dateien.
In dieser Lektüre erfahren Sie mehr über bewährte Verfahren für Namenskonventionen und die Organisation von Dateien.
Bewährte Verfahren für die Benennung von Dateien
Namenskonventionen für Dateien helfen Ihnen beim Organisieren, Zugreifen, Verarbeiten und Analysieren von Daten, da sie als schnelle Referenzpunkte dienen, um zu erkennen, was in einer Datei enthalten ist. Eine wichtige Vorgehensweise besteht darin, sich bereits zu Beginn eines Projekts – als Team oder Unternehmen – auf Namenskonventionen für Dateien zu einigen. Dadurch vermeiden Sie, dass Sie später Zeit mit der Aktualisierung von Dateinamen verbringen, was ein zeitaufwändiger Prozess sein kann. Darüber hinaus sollten Sie die Dateinamen Ihres Projekts an die bestehenden Namenskonventionen Ihres Teams oder Unternehmens anpassen. Sie möchten nicht jedes Mal, wenn Sie eine Datei in einem neuen Projekt nachschlagen, Zeit damit verbringen, eine neue Dateinamenskonvention zu lernen!
Außerdem ist es wichtig, dass die Dateinamen aussagekräftig, konsistent und leicht zu lesen sind. Dateinamen sollten Folgendes enthalten:
- Den Namen des Projekts
- Das Erstellungsdatum der Datei
- Version der Revision
- Einheitlicher Stil und Reihenfolge
Außerdem sollten die Namenskonventionen für Dateien als schnelle Referenzpunkte dienen, um den Inhalt der Datei zu identifizieren. Aus diesem Grund sollten sie kurz und prägnant sein.
In den folgenden Abschnitten werden Sie die einzelnen Bestandteile eines Dateinamens für einen Umsatzbericht kennenlernen, der einer etablierten Namenskonvention folgt: SalesReport_20231125_v02. Anhand dieses Beispiels werden Sie die Schlüsselteile eines aussagekräftigen Dateinamens verstehen und wissen, warum sie wichtig sind.
Name
Wenn Sie einer Datei einen aussagekräftigen Namen geben, um ihren Inhalt zu beschreiben, ist die Suche nach der Datei einfach. Außerdem lässt sich so leicht erkennen, welche Art von Daten die Datei enthält.
In diesem Beispiel enthält der Dateiname den Text SalesReport, eine knappe Beschreibung des Inhalts der Datei: ein Verkaufsbericht.
Erstellungsdatum
Wenn Sie wissen, wann eine Datei erstellt wurde, können Sie feststellen, ob sie für Ihre aktuelle Analyse relevant ist. Zum Beispiel könnten Sie nur Daten aus dem Jahr 2023 analysieren wollen.
In dem Beispiel wird das Jahr als 20231125 bezeichnet . Dies liest sich wie der Umsatzbericht vom 25. November 2023 nach dem Format Jahr, Monat und Tag (JJJJMMTT) des internationalen Datumsstandards. Denken Sie daran, dass verschiedene Länder unterschiedliche Datumskonventionen verwenden. Vergewissern Sie sich also, dass Sie den Datumsstandard kennen, den Ihr Unternehmen verwendet.
Version der Revision
Durch die Angabe einer Version können Sie sicherstellen, dass Sie mit der richtigen Datei arbeiten. Sie wollen doch nicht unbemerkt Änderungen an einer alten Version einer Datei vornehmen! Wenn Sie Revisionsnummern in einem Dateinamen angeben, beginnen Sie mit einer Null. Wenn Ihr Team mehr als neun Revisionsrunden erreicht, sind auf diese Weise bereits zweistellige Zahlen in Ihre Konvention eingebaut.
In diesem Beispiel wird die Version als v02 bezeichnet. Das v ist die Abkürzung für die Version der Datei, und die Zahl nach dem v gibt an, in welcher Revisionsrunde sich die Datei gerade befindet.
Einheitliche Reihenfolge und Stil
Achten Sie darauf, dass die Informationen, die Sie in einem Dateinamen angeben, in einer einheitlichen Reihenfolge stehen. Sie würden zum Beispiel nicht wollen, dass die dritte Version des Umsatzberichts aus dem Beispiel den Titel 20231125_v03_SalesReport trägt. Es wäre schwierig, mehrere Dokumente zu finden und zu vergleichen.
Wenn Sie Leerzeichen und Sonderzeichen in einem Dateinamen verwenden, kann die Software diese möglicherweise nicht erkennen, was in manchen Apps zu Problemen und Fehlern führt. Eine Alternative ist die Verwendung von Bindestrichen, Unterstrichen und Großbuchstaben. Das Beispiel enthält Unterstriche zwischen den einzelnen Informationen, aber Ihr Team könnte auch Bindestriche zwischen Jahr, Monat und Datum verwenden: SalesReport_2023_11_25_v02.
Sorgen Sie für Einheitlichkeit im Team
Um sicherzustellen, dass alle Teammitglieder die vereinbarten Namenskonventionen für Dateien verwenden, erstellen Sie eine Textdatei als Stichprobe, die alle Namenskonventionen für ein Projekt enthält. Dies kann neuen Teammitgliedern helfen, sich schnell zurechtzufinden, oder Teammitgliedern, die eine Auffrischung der Namenskonventionen für Dateien benötigen.
Dateiorganisation
Um Ihre Dateien zu organisieren, erstellen Sie Ordner und Unterordner in einer logischen Hierarchie, um sicherzustellen, dass zusammengehörige Dateien zusammen gespeichert werden und später leicht gefunden werden können. Eine Hierarchie ist eine Art der Organisation von Dateien und Ordnern. Übergeordnete Ordner befinden sich an der Spitze der Hierarchie, und spezifischere Unterordner und Dateien sind in diesen Ordnern enthalten. Jeder Ordner kann weitere Ordner und Dateien enthalten. So können Sie zusammengehörige Dateien gruppieren und die benötigten Dateien leichter finden. Außerdem empfiehlt es sich, abgeschlossene Dateien getrennt von laufenden Dateien zu speichern, damit Sie die benötigten Dateien leicht finden können. Archivieren Sie ältere Dateien in einem separaten Ordner oder an einem externen Speicherort.
Die wichtigsten Erkenntnisse
Verwenden Sie während des gesamten Projekts einheitliche, aussagekräftige Namenskonventionen für Dateien, damit Sie und Ihr Team Zeit sparen und die Daten leicht auffinden und verwenden können. Die Namenskonventionen für Dateien sollten von allen Teammitgliedern vor Beginn eines Projekts vereinbart werden und das Projekt mit seinem Namen, dem Datum und der Version der Revision beschreiben. Dokumentieren Sie diese Informationen an einem Ort, auf den die Teammitglieder zugreifen können.