Einführung in die Datenexploration

Video 73

Kurs 3 im Überblick: Setzen Sie Ihre Erwartungen

Willkommen zum dritten Kurs des Google Data Analytics Zertifikats-Programms! Bisher haben Sie eine Einführung in das Feld der Data Analytics erhalten und erfahren, wie Fachkräfte für Datenanalyse ihre Fähigkeiten einsetzen, um geschäftliche Fragen zu beantworten.

Im Laufe dieses Kurses werden Sie verschiedene Arten von Daten und Datenstrukturen identifizieren und untersuchen, die verwendet werden können, um ein Geschäftsproblem zu verstehen und zu lösen. Dann lernen Sie, Voreingenommenheiten in Daten zu erkennen und deren Glaubwürdigkeit zu überprüfen. Sie werden Ihre Fachkraft für Datenanalyse weiter ausbauen, indem Sie sich mit Daten in Tabellen und Datenbanken beschäftigen. Schließlich lernen Sie mehr über die Einbindung in die Datengemeinschaft und die Verwaltung Ihrer Online-Präsenz. All diese Fähigkeiten werden Ihnen nützlich sein, ganz gleich, wohin Ihre Karriere als Fachkraft für Datenanalyse Sie führt.

Course menu showing courses 1 to 8. Courses 1 and 2 are complete. Course 3 is active.
  1. Grundlagen: Daten, Daten, überall

  2. Fragen stellen, um datengesteuerte Entscheidungsfindungen zu treffen

  3. Daten für die Exploration vorbereiten (dieser Kurs)

  4. Daten von schmutzigen zu bereinigten Daten verarbeiten

  5. Analysieren Sie Daten, um Fragen zu beantworten

  6. Daten durch die Kunst der Visualisierung weiter geben

  7. Datenanalyse mit R-Programmierung

  8. Google Data Analytics Capstone: Vervollständigen Sie eine Fallstudie

Inhalt des Kurses

Jeder Kurs in diesem Programm ist in Module unterteilt. Jedes Modul soll Sie mit verschiedenen Datenstrukturen vertraut machen und Ihnen zeigen, wie man Daten sammelt, prüft und organisiert. Sie werden an einem breiten Bereich von Aktivitäten arbeiten, die den Aufgaben ähneln, mit denen Fachkräfte für Datenanalyse täglich konfrontiert werden.

Hier finden Sie einen Überblick über die Fähigkeiten, die Sie in den einzelnen Modulen erlernen.

Modul 1: Datentypen und Strukturen

Jeden Tag wird eine riesige Menge an Daten erzeugt. In diesem Teil des Kurses erfahren Sie, wie diese Daten erzeugt werden und wie Analysten entscheiden, welche Daten sie für die Analyse verwenden. Außerdem lernen Sie etwas über strukturierte und unstrukturierte Daten, Datentypen und Datenformate, während Sie darüber nachdenken, wie Sie Ihre Daten für die Analyse vorbereiten können.

Modul 2: Verantwortung für Daten

Bevor Sie mit Daten arbeiten, müssen Sie sicherstellen, dass diese unvoreingenommen und glaubwürdig sind. Denn wenn Sie Ihre Analyse mit unzuverlässigen Daten beginnen, werden Sie Ihren Ergebnissen nicht trauen können. In diesem Teil des Kurses werden Sie lernen, Voreingenommenheit in Daten zu erkennen und sicherzustellen, dass Ihre Daten glaubwürdig sind. Sie werden auch Open Data und die Bedeutung von Datenethik und Datenschutz erkunden.

Modul 3: Grundlagen der Datenbank

Wenn Sie große Datasets analysieren, werden Sie auf viele der Daten aus einer Datenbank zugreifen. In diesem Teil des Kurses lernen Sie etwas über Datenbanken und wie Sie auf sie zugreifen und die darin enthaltenen Daten extrahieren, filtern und sortieren können. Sie werden sich auch mit Metadaten befassen, um ihre vielen Facetten zu entdecken und zu erfahren, wie Fachleute sie nutzen, um ihre Daten besser zu verstehen.

Modul 4: Organisieren und Schützen von Daten

Gute organisatorische Fähigkeiten sind ein wichtiger Bestandteil der meisten Arbeitsbereiche, insbesondere der Data Analytics. In diesem Teil des Kurses lernen Sie die besten Methoden kennen, um Daten zu organisieren und sicher zu halten. Sie werden auch verstehen, wie Analysten Namenskonventionen für Dateien verwenden, um ihre Arbeit zu organisieren.

Modul 5: Engagieren Sie sich in der Daten-Community

Eine starke Online-Präsenz kann für Arbeitssuchende aller Art eine große Hilfe sein. In diesem Teil des Kurses erfahren Sie, wie Sie Ihre Online-Präsenz verwalten können. Außerdem erfahren Sie, welchen Nutzen die Vernetzung mit anderen Data Analytics-Experten hat.

Was Sie erwarten können

Jeder Kurs bietet viele Arten von Lernmöglichkeiten:

  • Videos , in denen die Dozenten neue Konzepte vermitteln und die Verwendung von Tools demonstrieren

  • Fragen im Video, die von Zeit zu Zeit auftauchen und Ihnen helfen, Ihr Verständnis der Schlüsselkonzepte und -fähigkeiten zu überprüfen

  • Schritt-für-Schritt-Anleitungen , mit denen Sie den Ausbildern bei der Demonstration der Tools folgen können

  • Lektüre , um Themen zu vertiefen und auf den Konzepten aus den Videos aufzubauen

  • Diskussionsforen zum Austausch, zur Erkundung und zur Vertiefung der Lektionsthemen

  • Diskussions-Prompts zur Förderung des Denkens und der Einbindung in die Diskussionsforen

  • Übungsquiz zur Vorbereitung auf benotete Quizze

  • Benotete Quizfragen, um Ihren Fortschritt zu messen und Ihnen wertvolles Feedback zu geben

Dieses Programm wurde so konzipiert, dass Sie in Ihrem eigenen Tempo arbeiten können – Ihre persönlichen Fristen sind nur ein Richtwert. Für verspätete Aufgaben gibt es keine Strafe. Um Ihr Zertifikat zu erhalten, müssen Sie lediglich alle Aufgaben erledigen.

Wenn Sie zwei Bewertungstermine hintereinander verpassen oder einen Bewertungstermin um zwei Wochen versäumen, sehen Sie auf der Seite Noten die Option Termine zurücksetzen. Klicken Sie darauf, um zu einem neuen Kursplan mit aktualisierten Fristen zu wechseln. Sie können diese Option so oft nutzen, wie Sie möchten – sie löscht keine Fortschritte, die Sie bereits im Kurs gemacht haben, aber Sie finden möglicherweise neue Kursinhalte, wenn der Kursleiter den Kurs aktualisiert hat, nachdem Sie angefangen haben. Wenn Sie ein Abonnement kündigen und es dann wieder aktivieren, werden Ihre Fristen automatisch zurückgesetzt.

In diesem Kurs werden Sie mit benoteten Quizzen und Aktivitäten bewertet. Beide basieren auf der großen Vielfalt an Lernmaterialien und Aktivitäten, die die wichtigen Fähigkeiten, die Sie entwickeln werden, verstärken. Und beide können mehr als einmal absolviert werden.

Tipps für den Erfolg

  • Es wird dringend empfohlen, dass Sie die einzelnen Lektionen in der Reihenfolge durcharbeiten, in der sie erscheinen, da neue Informationen und Konzepte auf dem bisherigen Wissen aufbauen.

  • Nehmen Sie an allen Lernangeboten teil, um so viel Wissen und Erfahrung wie möglich zu sammeln.

  • Wenn etwas verwirrend ist, zögern Sie nicht, ein Video abzuspielen, eine Lektüre zu wiederholen oder eine Aktivität zur Selbstüberprüfung zu wiederholen.

  • Nutzen Sie die zusätzlichen Ressourcen, auf die in diesem Kurs verwiesen wird. Sie sind dazu gedacht, Ihr Lernen zu unterstützen. Sie finden alle diese Ressourcen auf der Registerkarte Ressourcen .

  • Wenn Sie in diesem Kurs auf nützliche Links stoßen, setzen Sie ein Lesezeichen, damit Sie die Informationen später zum Studium oder zur Wiederholung aufrufen können.

  • Verstehen und befolgen Sie den Coursera-Verhaltenskodex, um sicherzustellen, dass die Lerngemeinschaft ein einladender, freundlicher und unterstützender Ort für alle Mitglieder bleibt.

Aktualisierungen des Kurses

Während Sie diesen Kurs absolvieren, werden Sie möglicherweise Aktualisierungen des Inhalts bemerken, wie neue Übungsmaterialien und zusätzliche Beispiele. Diese Aktualisierungen stellen sicher, dass das Programm aktuelle Fähigkeiten und Anleitungen bietet, die Ihnen bei Ihrer Data Analytics-Karriere helfen werden. Wenn Sie bereits eine benotete Aktivität absolviert haben, müssen Sie die Bewertung möglicherweise wiederholen, um diesen Kurs abzuschließen. Weitere Informationen finden Sie im Diskussionsforum des Kurses.

Hallie: Faszinierende Daten-Statistiken

Video 74

Datenerfassung in unserer Welt

Video 75

Bestimmen Sie, welche Daten Sie sammeln möchten

Video 76

Wählen Sie die richtigen Daten

Im Folgenden finden Sie einige Überlegungen zur Datenerfassung, die Sie bei Ihrer Analyse beachten sollten:

Wie die Daten gesammelt werden sollen

Entscheiden Sie, ob Sie die Daten mit Ihren eigenen Ressourcen sammeln oder ob Sie sie von einer anderen Partei erhalten (und möglicherweise kaufen). Daten, die Sie selbst sammeln, werden als Erstanbieterdaten bezeichnet.

Daten-Quellen

Wenn Sie die Daten nicht mit Ihren eigenen Ressourcen erheben, können Sie Daten von Zweit- oder Drittanbietern beziehen. Zweitanbieterdaten werden direkt von einer anderen Gruppe gesammelt und dann verkauft. Drittanbieterdaten werden von einem Anbieter verkauft, der die Daten nicht selbst erhoben hat. Daten von Drittanbietern können aus einer Reihe verschiedener Quellen stammen.

Lösen Sie Ihr Geschäftsproblem

Datasets können eine Menge interessanter Informationen enthalten. Achten Sie aber darauf, dass Sie Daten auswählen, die tatsächlich zur Lösung Ihrer Fragestellung beitragen können. Wenn Sie beispielsweise Trends im Zeitverlauf analysieren, sollten Sie unbedingt Zeitreihendaten verwenden, d.h. Daten, die ein Datum enthalten.

Wie viele Daten Sie sammeln sollten

Wenn Sie Ihre eigenen Daten erheben, sollten Sie eine vernünftige Entscheidung über die Größe der Stichprobe treffen. Eine Stichprobe aus vorhandenen Daten kann für einige Projekte ausreichend sein. Andere Projekte benötigen möglicherweise eine strategischere Datenerfassung, um sich auf bestimmte Kriterien zu konzentrieren. Jedes Projekt hat seine eigenen Bedürfnisse.

Zeitlicher Rahmen

Wenn Sie Ihre eigenen Daten erheben, entscheiden Sie, wie lange Sie die Daten sammeln müssen, insbesondere wenn Sie Trends über einen langen Zeitraum verfolgen. Wenn Sie eine sofortige Antwort benötigen, haben Sie möglicherweise keine Zeit, neue Daten zu sammeln. In diesem Fall müssten Sie auf bereits vorhandene historische Daten zurückgreifen.

Verwenden Sie das Flussdiagramm unten, wenn die Datenerfassung stark davon abhängt, wie viel Zeit Sie haben:

This illustration is a flowchart that shows a possible order of data collection considerations for time-sensitive projects.

 

Datenformate entdecken

Video 77

Datenformate in der Praxis

Wenn Sie an das Wort „Format“ denken, kommen Ihnen vielleicht viele Dinge in den Sinn. Denken Sie an eine Werbung für Ihr Lieblingsgeschäft. Vielleicht finden Sie sie in Form einer gedruckten Anzeige, eines Plakats oder sogar eines Werbespots. Die Informationen werden in dem Format präsentiert, das für Sie am besten geeignet ist, um sie aufzunehmen. Mit dem Format eines Datasets verhält es sich ähnlich, und die Wahl des richtigen Formats wird Ihnen helfen, Ihre Daten optimal zu verwalten und zu nutzen.

Beispiele für Datenformate

Wie bei den meisten Dingen ist es einfacher, Definitionen zu verstehen, wenn Sie sie mit Beispielen koppeln können, die Ihnen im Alltag begegnen. Schauen Sie sich zunächst die Definition jedes Datenformats an und verwenden Sie dann die Beispiele, um Ihr Verständnis zu festigen.

Primäre versus sekundäre Daten

Die folgende Tabelle hebt die Unterschiede zwischen Primär- und Sekundärdaten hervor und zeigt Beispiele für jedes Format.

Klassifizierung der Datenformate

Definition

Beispiele

Primäre Daten

Von einem Forscher aus erster Hand zusammengetragene Daten

  • Daten aus einem von Ihnen geführten Interview – Daten aus einer Umfrage, die von 20 Teilnehmern zurückgegeben wurde

  • Daten aus Fragebögen, die Sie von einer Gruppe von Arbeitnehmern zurückerhalten haben

Sekundäre Daten

Von anderen Personen oder aus anderen Untersuchungen zusammengetragene Daten

  • Daten, die Sie aus den Kundenprofilen eines lokalen Data Analytics Unternehmens erworben haben

  • Demografische Daten, die von einer Universität gesammelt wurden

  • Volkszählungsdaten, die von der Bundesregierung gesammelt wurden

Interne versus externe Daten

Die folgende Tabelle hebt die Unterschiede zwischen internen und externen Daten hervor und stellt jeweils Beispiele vor.

Klassifizierung der Datenformate

Definition

Beispiele

Interne Daten

Daten, die innerhalb der eigenen Systeme eines Unternehmens gespeichert sind

  • Löhne der Mitarbeiter in verschiedenen Geschäftsbereichen, die von der Personalabteilung verfolgt werden

  • Verkaufsdaten nach Standort der Filiale

  • Lagerbestände von Produkten in verschiedenen Bereitstellungszentren

Externe Daten

Daten, die außerhalb eines Unternehmens oder einer Organisation gespeichert sind

  • Nationale Durchschnittslöhne für die verschiedenen Positionen in Ihrem Unternehmen

  • Kreditberichte für Kunden eines Autohauses

Kontinuierliche versus diskrete Daten

Die folgende Tabelle hebt die Unterschiede zwischen kontinuierlichen und diskreten Daten hervor und stellt Beispiele für beide dar.

Klassifizierung der Datenformate

Definition

Beispiele

Kontinuierliche Daten

Daten, die gemessen werden und fast jeden numerischen Wert haben können

  • Größe von Kindern in der dritten Klasse (52,5 Zoll, 65,7 Zoll)

  • Laufzeitmarkierungen in einem Video

  • Temperatur

Diskrete Daten

Daten, die gezählt werden und eine begrenzte Anzahl von Werten haben

  • Anzahl der Personen, die täglich ein Krankenhaus besuchen (10, 20, 200)

  • Maximal zulässige Kapazität in einem Raum

  • Im laufenden Monat verkaufte Eintrittskarten

Qualitative Daten versus quantitative Daten

Die folgende Tabelle hebt die Unterschiede zwischen qualitativen und quantitativen Daten hervor und zeigt Beispiele für beide.

Klassifizierung der Datenformate

Definition

Beispiele

Qualitativ

Ein subjektives und erklärendes Maß für eine Qualität oder ein Merkmal

  • Bevorzugte sportliche Aktivität

  • Marke mit dem besten Kundenservice

  • Modevorlieben junger Erwachsener

Quantitativ

Ein spezifisches und objektives Maß, wie etwa eine Zahl, eine Menge oder ein Bereich

  • Prozentualer Anteil von Frauen unter den Ärzten mit Doktortitel

  • Populationsgröße der Elefanten in Afrika

  • Entfernung von der Erde zum Mars zu einer bestimmten Zeit

Nenndaten versus Ordinaldaten

Die folgende Tabelle hebt die Unterschiede zwischen nominalen und ordinalen Daten hervor und stellt Beispiele für beide dar.

Klassifizierung der Datenformate

Definition

Beispiele

Nominal

Ein Typ von qualitativen Daten, der ohne feste Reihenfolge kategorisiert wird

  • Erstmaliger Kunde, wiederkehrender Kunde, Stammkunde

  • Neuer Stellenbewerber, bestehender Bewerber, interner Bewerber

  • Neue Liste, preisreduzierte Liste, Zwangsvollstreckung

Ordinal

Ein Typ von qualitativen Daten mit einer festgelegten Reihenfolge oder Skala

  • Filmbewertungen (Anzahl der Sterne: 1 Stern, 2 Sterne, 3 Sterne)

  • Rangfolge bei Abstimmungen (1., 2., 3.)

  • In einer Umfrage gemessener Zufriedenheitsgrad (zufrieden, neutral, unzufrieden)

Strukturierte Daten versus unstrukturierte Daten

Die folgende Tabelle hebt die Unterschiede zwischen strukturierten und unstrukturierten Daten hervor und stellt jeweils ein Beispiel dafür vor.

Klassifizierung der Datenformate

Definition

Beispiele

Strukturierte Daten

Daten, die in einem bestimmten Format organisiert sind, z.B. Zeilen und Spalten

  • Berichte über Ausgaben

  • Steuererklärungen

  • Lagerbestand

Unstrukturierte Daten

Daten, die nicht als Spalten und Zeilen in einer relationalen Datenbank gespeichert werden können.

  • Social Media Beiträge

  • Emails

  • Videos

 

Strukturierte Daten weiter erforschen

Video 78

 

Die Auswirkungen der verschiedenen Strukturen

Daten gibt es überall und sie können auf viele Arten gespeichert werden. Zwei allgemeine Kategorien von Daten sind:
  • Strukturierte Daten: In einem bestimmten Format organisiert, z.B. in Zeilen und Spalten.

  • Unstrukturierte Daten: Nicht auf eine leicht zu identifizierende Weise organisiert.

Wenn Sie zum Beispiel Ihr Lieblingsrestaurant online bewerten, erstellen Sie strukturierte Daten. Wenn Sie jedoch Google Earth verwenden, um sich ein Satellitenbild des Restaurants anzusehen, verwenden Sie unstrukturierte Daten.

Hier eine Auffrischung der Merkmale von strukturierten und unstrukturierten Daten:

This illustration has aligned and unaligned squares for structured and unstructured data columns. Details are listed below.

Strukturierte Daten

Wie wir bereits beschrieben haben, sind strukturierte Daten in einem bestimmten Format organisiert. Dadurch lassen sie sich für geschäftliche Zwecke leichter speichern und abfragen. Wenn die Daten exportiert werden, geht die Struktur mit den Daten einher.

Unstrukturierte Daten

Unstrukturierte Daten lassen sich nicht auf eine leicht erkennbare Weise organisieren. Und es gibt viel mehr unstrukturierte als strukturierte Daten auf der Welt. Video- und Audiodateien, Textdateien, Social Media-Inhalte, Satellitenbilder, Präsentationen, PDF-Dateien, Antworten auf offene Umfragen und Websites zählen zu den unstrukturierten Daten.

Das Problem der Fairness

Das Fehlen einer Struktur macht es schwierig, unstrukturierte Daten zu suchen, zu verwalten und zu analysieren. Doch die jüngsten Fortschritte bei der künstlichen Intelligenz und den Algorithmen des maschinellen Lernens ändern dies. Die neue Herausforderung für Datenwissenschaftler besteht nun darin, dafür zu sorgen, dass diese Tools inklusiv und unvoreingenommen sind. Andernfalls werden bestimmte Elemente eines Datasets stärker gewichtet und/oder dargestellt als andere. Und wie Sie gerade lernen, repräsentiert ein unfaires Dataset die Population nicht genau, was zu verzerrten Ergebnissen, geringer Genauigkeit und unzuverlässigen Analysen führt.

Ebenen und Techniken der Datenmodellierung

Diese Lektüre führt Sie in die Datenmodellierung und die verschiedenen Arten von Datenmodellen ein. Datenmodelle helfen dabei, Daten konsistent zu halten und ermöglichen es, eine Karte zu erstellen, wie die Daten organisiert sind. Ein grundlegendes Verständnis erleichtert es Analysten und anderen Stakeholdern, ihre Daten sinnvoll und auf die richtige Weise zu nutzen.

Wichtiger Hinweis: Als Junior-Fachkraft für Datenanalyse wird man Sie nicht bitten, ein Datenmodell zu entwerfen. Aber vielleicht stoßen Sie auf bestehende Datenmodelle, die in Ihrem Unternehmen bereits vorhanden sind.

Was ist Datenmodellierung?

Datenmodellierung ist der Prozess der Erstellung von Diagrammen, die visuell darstellen, wie Daten organisiert und strukturiert sind. Diese visuellen Darstellungen werden als Datenmodelle bezeichnet. Sie können sich die Datenmodellierung wie einen Bauplan für ein Haus vorstellen. An diesem Bauplan können Elektriker, Zimmerleute und Klempner arbeiten. Jeder dieser Bauherren hat eine andere Beziehung zum Bauplan, aber sie alle brauchen ihn, um die Gesamtstruktur des Hauses zu verstehen. Ähnlich verhält es sich mit Datenmodellen. Verschiedene Nutzer haben zwar unterschiedliche Datenbedürfnisse, aber das Datenmodell vermittelt ihnen ein Verständnis für die Struktur als Ganzes.

Ebenen der Datenmodellierung

Jede Ebene der Datenmodellierung hat einen anderen Detaillierungsgrad.

pyramid with the three common types of data modeling: conceptual, logical, and physical

 

  1. Diekonzeptionelle Datenmodellierung bietet einen Überblick über die Datenstruktur, z.B. darüber, wie die Daten in einem Unternehmen interagieren. Ein konzeptionelles Datenmodell kann zum Beispiel dazu dienen, die geschäftlichen Anforderungen für eine neue Datenbank zu definieren. Ein konzeptionelles Datenmodell enthält keine technischen Details.

  2. Dielogische Datenmodellierung konzentriert sich auf die technischen Details einer Datenbank wie Beziehungen, Attribute und Entitäten. Ein logisches Datenmodell definiert zum Beispiel, wie einzelne Datensätze in einer Datenbank eindeutig identifiziert werden. Aber es legt nicht die tatsächlichen Namen der Datenbanktabellen fest. Das ist die Aufgabe eines physischen Datenmodells.

  3. Diephysische Datenmodellierung stellt dar, wie eine Datenbank funktioniert. Ein physisches Datenmodell definiert alle Entitäten und Attribute, die verwendet werden. Es enthält z.B. Tabellennamen, Spaltennamen und Datentypen für die Datenbank.

Weitere Informationen finden Sie in diesem Vergleich von Datenmodellen.

Techniken zur Datenmodellierung

Es gibt viele Ansätze für die Entwicklung von Datenmodellen, aber zwei gängige Methoden sind das Entity Relationship Diagram (ERD) und das Unified Modeling Language (UML) -Diagramm. ERDs sind eine visuelle Methode, um die Beziehungen zwischen Entitäten im Datenmodell zu verstehen. UML-Diagramme sind sehr detaillierte Diagramme, die die Struktur eines Systems beschreiben, indem sie die Entitäten, Attribute, Operationen und Beziehungen des Systems darstellen. Als Junior-Fachkraft für Datenanalyse müssen Sie verstehen, dass es verschiedene Datenmodellierungstechniken gibt, aber in der Praxis werden Sie wahrscheinlich die in Ihrem Unternehmen vorhandene Technik verwenden.

Mehr über ERD, UML und Daten-Wörterbücher erfahren Sie in diesem artikel über Datenmodellierungstechniken.

Datenanalyse und Datenmodellierung

Datenmodellierung kann Ihnen dabei helfen, die Details Ihrer Daten auf hoher Ebene zu erkunden und herauszufinden, wie sie in den Informationssystemen Ihres Unternehmens miteinander in Beziehung stehen. Die Datenmodellierung erfordert manchmal eine Datenanalyse, um zu verstehen, wie die Daten zusammengesetzt sind. Und schließlich machen es Datenmodelle allen Mitarbeitern Ihres Unternehmens leichter, Ihre Daten zu verstehen und mit Ihnen zusammenzuarbeiten. Das ist wichtig für Sie und alle in Ihrem Team!

Kennen Sie die Art der Daten, mit denen Sie arbeiten

Video 79

Boolesche Logik verwenden

In dieser Lektüre lernen Sie die Grundlagen der booleschen Logik kennen und erfahren, wie Sie einzelne und mehrere Bedingungen in einer booleschen Anweisung verwenden können. Diese Bedingungen werden mit Booleschen Operatoren erstellt, darunter AND, OR und NOT. Diese Operatoren ähneln mathematischen Operatoren und können verwendet werden, um logische Aussagen zu erstellen, die Ihre Ergebnisse filtern. Fachkräfte für Datenanalyse verwenden Boolesche Aussagen für eine Vielzahl von Aufgaben der Datenanalyse, wie z.B. das Schreiben von Abfragen für Suchvorgänge und die Überprüfung von Bedingungen beim Schreiben von Programmiercode.

A variety of different devices including a laptop, tablet, smartphone, and smartwatch

Beispiel für boolesche Logik

Stellen Sie sich vor, Sie kaufen Schuhe und berücksichtigen dabei bestimmte Vorlieben:

  • Sie werden die Schuhe nur kaufen, wenn sie eine beliebige Kombination aus Rosa und Grau sind

  • Sie kaufen die Schuhe, wenn sie ganz rosa oder ganz grau sind oder wenn sie rosa und grau sind

  • Sie werden die Schuhe kaufen, wenn sie grau sind, aber nicht, wenn sie etwas Rosa enthalten

Diese Venn-Diagramme veranschaulichen Ihre Schuhpräferenzen. AND ist die Mitte des Venn-Diagramms, in der sich zwei Bedingungen überschneiden. OR umfasst beide Bedingungen. NOT umfasst nur den Teil des Venn-Diagramms, der die Ausnahme nicht enthält.

Three Venn diagrams that represent AND, OR, and NOT conditions between grey and pink shoes.

Boolesche Logik in Anweisungen verwenden

In Abfragen wird die boolesche Logik in einer mit booleschen Operatoren geschriebenen Anweisung dargestellt. Ein Operator ist ein Symbol, das die auszuführende Operation oder Berechnung bezeichnet. Lesen Sie weiter, um zu erfahren, wie Sie Ihre Schuheinstellungen in boolesche Aussagen umwandeln können.

Der AND Operator

Ihre Bedingung lautet: „Wenn die Farbe des Schuhs eine beliebige Kombination aus Grau und Rosa ist, werden Sie ihn kaufen.“ Die Boolesche Aussage würde die Logik dieser Aussage aufschlüsseln, um Ihre Ergebnisse nach beiden Farben zu filtern. Sie würde sagen IF (Color=“Grey“) AND (Color=“Pink“) then buy them

Mit dem AND Operator können Sie beide Bedingungen übereinanderlegen.

Im Folgenden finden Sie eine einfache Wahrheitstabelle, die die boolesche Logik dieser Aussage beschreibt. In der Spalte Farbe ist Grau gibt es zwei Kopplungen von Schuhen, die die Farbbedingung erfüllen. Und in der Spalte Farbe ist Rosa gibt es zwei Kopplungen, die diese Bedingung erfüllen. Aber in der Spalte Wenn Grau UND Rosa erfüllt nur ein Paar Schuhe beide Bedingungen. Nach der booleschen Logik der Aussage gibt es also nur ein Paar, das als wahr markiert ist. Mit anderen Worten: Es gibt nur ein Paar Schuhe, das Sie kaufen würden.

Farbe ist Grau

Die Farbe ist Rosa

Wenn Grau UND Rosa, dann Kaufen

Boolesche Logik

Grau/Wahr

Rosa/Wahr

Wahr/Kaufen

Wahr UND Wahr = Wahr

Grau/Wahr

Schwarz/Falsch

Falsch/Nicht kaufen

Wahr UND Falsch = Falsch

Rot/Falsch

Rosa/Wahr

Falsch/Nicht kaufen

Falsch UND Wahr = Falsch

Rot/Falsch

Grün/Falsch

Falsch/Don’t buy

Falsch AND Falsch = Falsch

Der OR Operator

Der OR Operator lässt Sie weitergehen, wenn eine Ihrer beiden Bedingungen erfüllt ist. Ihre Bedingung lautet: „Wenn die Schuhe grau oder rosa sind, werden Sie sie kaufen.“ Die boolesche Aussage wäre IF (Color=“Grey“) OR (Color=“Pink“) then buy them.

Beachten Sie, dass jeder Schuh, der entweder die Bedingung “ Farbe ist grau“ oder “ Farbe ist rosa “ erfüllt, von der booleschen Logik als wahr markiert wird. Laut der folgenden Wahrheitstabelle gibt es drei Kopplungen von Schuhen, die Sie kaufen können.

Farbe ist Grau

Die Farbe ist Rosa

Wenn Grau ODER Rosa, dann Kaufen

Boolesche Logik

Rot/Falsch

Schwarz/Falsch

Falsch/Nicht kaufen

Falsch ODER Falsch = Falsch

Schwarz/Falsch

Rosa/Wahr

Wahr/Kaufen

Falsch ODER Wahr = Wahr

Grau/Wahr

Grün/Falsch

Wahr/Kaufen

Wahr ODER Falsch = Wahr

Grau/Wahr

Rosa/Wahr

Wahr/Kaufen

Wahr ODER Wahr = Wahr

Der NOT Operator

Mit dem NOT Operator schließlich können Sie filtern, indem Sie bestimmte Bedingungen von den Ergebnissen abziehen. Ihre Bedingung lautet: „Sie kaufen jeden grauen Schuh, außer denen, die Spuren von Rosa enthalten.“ Ihre boolesche Aussage wäre dann IF (Color=“Grey“) AND (Color=NOT „Pink“) then buy them

Nun werden alle grauen Schuhe, die nicht rosa sind, durch die Boolesche Logik für die Bedingung NOT Pink als wahr markiert. Die rosa Schuhe werden durch die Boolesche Logik für die Bedingung NOT Pink als falsch markiert. In der folgenden Wahrheitstabelle wird nur eine Kopplung von Schuhen ausgeschlossen.

Farbe ist Grau

Die Farbe ist Rosa

Boolesche Logik für NICHT Rosa

Wenn Grau UND (NICHT Rosa), dann Kaufen

Boolesche Logik

Grau/Wahr

Rot/Falsch

Nicht Falsch = Wahr

Wahr/Kaufen

Wahr UND Wahr = Wahr

Grau/Wahr

Schwarz/Falsch

Nicht Falsch = Wahr

Wahr/Kaufen

Wahr UND Wahr = Wahr

Grau/Wahr

Grün/Falsch

Nicht Falsch = Wahr

Wahr/Kaufen

Wahr UND Wahr = Wahr

Grau/Wahr

Rosa/Wahr

Nicht Wahr = Falsch

Falsch/Nicht kaufen

Wahr UND Falsch = Falsch

Die Macht der mehrfachen Bedingungen

Für Fachkräfte für Datenanalyse liegt die wahre Stärke der Booleschen Logik in der Möglichkeit, mehrere Bedingungen in einer einzigen Anweisung zu kombinieren. Wenn Sie zum Beispiel nach grauen oder rosafarbenen und wasserdichten Schuhen filtern möchten, können Sie eine boolesche Aussage wie folgt konstruieren: „IF ((Color = „Grey“) OR (Color = „Pink“)) AND (Waterproof=“True“)

Beachten Sie, dass Sie Klammern verwenden können, um Ihre Bedingungen zu gruppieren.

Die wichtigsten Erkenntnisse

Operatoren sind Symbole, die die auszuführende Operation oder Berechnung bezeichnen. Die Operatoren AND, OR und NOT können verwendet werden, um boolesche Aussagen in Programmiersprachen zu schreiben. Ob Sie nun nach neuen Schuhen suchen oder diese Logik auf Abfragen anwenden, mit der booleschen Logik können Sie mehrere Bedingungen erstellen, um Ihre Ergebnisse zu filtern. Jetzt, wo Sie ein wenig mehr über die boolesche Logik wissen, können Sie damit anfangen!

Ressourcen für weitere Informationen

Komponenten der Datentabelle

Video 80

Treffen Sie Wide Data und Long Data

Video 81

Daten transformieren

Was ist eine Datentransformation?

A circle made up of different scenes:

In dieser Lektüre erfahren Sie, wie Daten transformiert werden und welche Unterschiede es zwischen Wide und Long Data gibt. Datenumwandlung ist der Prozess, bei dem das Format, die Struktur oder die Werte der Daten geändert werden. Als Fachkraft für Datenanalyse ist die Wahrscheinlichkeit groß, dass Sie Daten irgendwann transformieren müssen, um sie leichter analysieren zu können.

Die Transformation von Daten umfasst in der Regel Folgendes:

  • Hinzufügen, Kopieren oder Replizieren von Daten

  • Löschen von Feldern oder Datensätzen

  • Standardisierung der Namen von Variablen

  • Umbenennen, Verschieben oder Kombinieren von Spalten in einer Datenbank

  • Verbinden eines Datensatzes mit einem anderen

  • Speichern einer Datei in einem anderen Format. Zum Beispiel das Speichern einer Tabelle als CSV-Datei (kommagetrennte Werte).

Warum Daten transformieren?

Ziele für die Umwandlung von Daten können sein:

  • Datenorganisation: besser organisierte Daten sind einfacher zu verwenden

  • Kompatibilität der Daten: Verschiedene Apps oder Systeme können dann dieselben Daten verwenden

  • Datenmigration: Daten mit übereinstimmenden Formaten können von einem System in ein anderes verschoben werden

  • Datenzusammenführung: Daten mit der gleichen Organisation können zusammengeführt werden

  • Datenanreicherung: Daten können mit detaillierteren Feldern angezeigt werden

  • Datenvergleich: Die Daten können mit einander verglichen werden.

Beispiel einer Datentransformation: Datenzusammenführung

Mario ist ein Klempner, der eine Klempnerfirma besitzt. Nach Jahren in diesem Geschäft kauft er eine andere Klempnerfirma. Mario möchte die Kundeninformationen seines neu erworbenen Unternehmens mit seinem eigenen zusammenführen, aber das andere Unternehmen verwendet eine andere Datenbank. Also muss Mario die Daten kompatibel machen. Zu diesem Zweck muss er das Format der Daten des übernommenen Unternehmens umwandeln. Dann muss er doppelte Zeilen für Kunden, die sie gemeinsam hatten, entfernen. Wenn die Daten miteinander kompatibel sind, verfügt Marios Klempnerfirma über eine vollständige und zusammengeführte Kundendatenbank.

Beispiel für Datenumwandlung: Datenorganisation (Long to Wide)

Um die Erstellung von Diagrammen zu erleichtern, müssen Sie möglicherweise auch Long Data in Wide Data umwandeln. Betrachten Sie das folgende Beispiel für die Umwandlung von Aktienkursen (gesammelt als Long Data) in Wide Data.

Long Data sind Daten, bei denen jede Zeile einen einzelnen Datenpunkt für ein bestimmtes Element enthält . In dem folgenden Beispiel für Long Data wurden einzelne Aktienkurse (Datenpunkte) für Apple (AAPL), Amazon (AMZN) und Google (GOOGL) (bestimmte Posten) zu den angegebenen Daten erfasst.

Long Data Beispiel: Aktienkurse

A table that is an example of long data stock prices. There are three columns: Symbol, Date, and Open

 

Wide Data sind Daten, bei denen jede Zeile mehrere Datenpunkte für die in den Spalten identifizierten bestimmten Positionen enthält.

Beispiel für Wide Data: Aktienkurse

This is wide data with AAPL, AMZN, and GOOGL as columns and stock prices for different dates per row.

 

Mit Daten, die in Wide Data umgewandelt wurden, können Sie ein Diagramm erstellen, in dem Sie vergleichen, wie sich die Aktienkurse der einzelnen Unternehmen im gleichen Zeitraum verändert haben.

Sie werden feststellen, dass alle Daten, die im Long Data Format enthalten sind, auch im Wide Data Format enthalten sind. Wide Data sind jedoch leichter zu lesen und zu verstehen. Aus diesem Grund wandeln Fachkräfte für Datenanalyse in der Regel Long Data häufiger in Wide Data um als Wide Data in Long Data. Die folgende Tabelle fasst zusammen, wann das jeweilige Format bevorzugt wird:

Wide Data werden bevorzugt, wenn

Lange Daten werden bevorzugt, wenn

Erstellen von Tabellen und Diagrammen mit einigen Variablen zu jedem Eigentümer

Sie viele Variablen zu jedem Eigentümer speichern. Zum Beispiel die Zinssätze von 60 Jahren für jede Bank

Vergleich von einfachen Liniendiagrammen

Erweiterte statistische Analysen oder Diagramme erstellen

Glossarbegriffe aus Modul 1

Begriffe und Definitionen für Kurs 3, Modul 1

Agenda: Eine Liste mit geplanten Terminen

Audiodatei: Digitalisierte Audiodatei, normalerweise in einem MP3-, AAC- oder einem anderen komprimierten Format

Boolesche Daten: Ein Datentyp mit nur zwei möglichen Werten, normalerweise wahr oder falsch

Stetige Daten: Daten, die gemessen werden und fast jeden numerischen Wert haben können

Cookie: Eine kleine Datei, die auf einem Computer gespeichert wird und Informationen über seine Nutzer enthält

Datenelement: Ein Stück Information in einem Dataset

Datenmodell: Ein Werkzeug zur Organisation von Datenelementen und ihrer Beziehung zueinander

Digitales Foto: Ein elektronisches oder computerbasiertes Bild, normalerweise im BMP- oder JPG-Format

Diskrete Daten: Daten, die gezählt werden und eine begrenzte Anzahl von Werten haben

Externe Daten: Daten, die außerhalb einer Organisation leben und erzeugt werden

Feld: Eine einzelne Information aus einer Zeile oder Spalte einer Kalkulationstabelle; in einer Datentabelle, normalerweise eine Spalte in der Tabelle

Erstanbieterdaten: Daten, die von einer Einzelperson oder einer Gruppe unter Verwendung ihrer eigenen Ressourcen gesammelt wurden

Long Data: Ein Dataset, in dem jede Zeile einen Zeitpunkt pro Eigentümer darstellt, so dass jeder Eigentümer Daten in mehreren Zeilen hat

Nenndaten: Ein Typ von qualitativen Daten, der ohne feste Reihenfolge kategorisiert wird

Ordinale Daten: Qualitative Daten mit einer bestimmten Reihenfolge oder Skala

Eigenverantwortung: Der Aspekt der Datenethik, der davon ausgeht, dass Einzelpersonen Eigentümer der von ihnen bereitgestellten Rohdaten sind und die primäre Kontrolle über deren Nutzung, Verarbeitung und Weitergabe haben.

Pixel: In der digitalen Bildgebung ein kleiner Beleuchtungsbereich auf einem Bildschirm, der in Kombination mit anderen angrenzenden Bereichen ein digitales Bild ergibt.

Population: In Data Analytics alle möglichen Werte in einem Dataset

Datensatz: Eine Sammlung von zusammenhängenden Daten in einer Datentabelle, in der Regel gleichbedeutend mit Zeile

Stichprobe: In der Data Analytics ein Segment einer Population, das für die gesamte Population repräsentativ ist

Zweitanbieterdaten: Daten, die von einem Konzern direkt bei seiner Zielgruppe gesammelt und dann verkauft werden

Social Media: Websites und Apps, über die Nutzer Inhalte erstellen und teilen oder an sozialen Vernetzungen teilnehmen

Zeichenfolgen-Datentyp: Eine Folge von Zeichen und Interpunktion, die Textinformationen enthält (siehe Textdatentyp)

Strukturierte Daten: Daten, die in einem bestimmten Format organisiert sind, z. B. in Zeilen und Spalten

Textdatentyp: Eine Folge von Zeichen und Interpunktion, die Textinformationen enthält (auch String-Datentyp genannt)

US Census Bureau: Eine Behörde des US-Handelsministeriums, die als führender Anbieter von Qualitätsdaten über die Bevölkerung und die Wirtschaft des Landes fungiert

Unstrukturierte Daten: Daten, die nicht auf eine leicht identifizierbare Weise organisiert sind

Videodatei: Eine Sammlung von Bildern, Audiodateien und anderen Daten, die normalerweise in einem komprimierten Format wie MP4, MV4, MOV, AVI oder FLV kodiert sind

Wide Data: Ein Dataset, in dem jeder Eigentümer eine einzelne Zeile mit mehreren Spalten hat, in denen die Werte verschiedener Attribute des Eigentümers gespeichert sind

 

Einführung in Voreingenommenheit, Glaubwürdigkeit, Datenschutz und Ethik

Video 82

 

Voreingenommenheit: Von Fragen zu Schlussfolgerungen

Video 83

Voreingenommene und unverzerrte Daten

Video 84

Voreingenommenheit in Daten verstehen

Video 85

Gute Datenquellen identifizieren

Video 86

Was sind „schlechte“ Daten?

Video 87

Wesentliche Daten-Ethik

Video 88

Optionale Auffrischung: Alex und die Bedeutung der Datenethik

Video 89

Priorisieren Sie den Datenschutz

Video 90

Datenanonymisierung

Was ist Datenanonymisierung?

Sie haben die Bedeutung des Datenschutzes bei Data Analytics kennengelernt. Jetzt ist es an der Zeit, über Datenanonymisierung zu sprechen und darüber, welche Arten von Daten anonymisiert werden sollten.Personenidentifizierbare Informationen( PII) sind Informationen, die allein oder zusammen mit anderen Daten dazu verwendet werden können, die Identität einer Person aufzuspüren.

Datenanonymisierung ist der Prozess zum Schutz privater oder sensibler Daten durch die Eliminierung dieser Art von Informationen. In der Regel beinhaltet die Datenanonymisierung das Ausblenden, die Hash-Technologie oder die Maskierung persönlicher Informationen, oft durch die Verwendung von Codes mit fester Länge zur Darstellung von Datenspalten oder das Verbergen von Daten mit veränderten Werten.

Ihre Rolle bei der Datenanonymisierung

Unternehmen sind dafür verantwortlich, ihre Daten und die persönlichen Informationen, die diese Daten möglicherweise enthalten, zu schützen. Als Fachkraft für Datenanalyse wird von Ihnen vielleicht erwartet, dass Sie verstehen, welche Daten anonymisiert werden müssen, aber Sie sind im Allgemeinen nicht für die Datenanonymisierung selbst verantwortlich. Eine seltene Ausnahme könnte sein, wenn Sie mit einer Kopie der Daten zu Test- oder Entwicklungszwecken arbeiten. In diesem Fall könnte von Ihnen verlangt werden, die Daten zu anonymisieren, bevor Sie mit ihnen arbeiten.

Welche Arten von Daten sollten anonymisiert werden?

Daten des Gesundheitswesens und Finanzdaten sind zwei der sensibelsten Arten von Daten. Diese Branchen sind in hohem Maße auf Datenanonymisierungstechniken angewiesen. Schließlich steht hier sehr viel auf dem Spiel. Deshalb werden Daten in diesen beiden Branchen in der Regel einer De-Identifizierung unterzogen, d.h. einem Prozess, bei dem die Daten von allen personenbezogenen Informationen bereinigt werden.

A graphic of a computer screen. An eraser is removing parts of the data being shown

Die Datenanonymisierung wird in nahezu jeder Branche eingesetzt. Deshalb ist es für Fachkräfte für Datenanalyse so wichtig, die Grundlagen zu verstehen. Hier ist eine Liste von Daten, die häufig anonymisiert werden:

  • Telefonnummern

  • Namen

  • Autokennzeichen und Nummernschilder

  • Sozialversicherungsnummern

  • IP-Adressen

  • Medizinische Datensätze

  • E-Mail-Adressen

  • Fotografien

  • Kontonummern

Für manche Menschen macht es einfach Sinn, dass diese Art von Daten anonymisiert werden sollte. Für andere müssen wir sehr genau festlegen, was anonymisiert werden soll. Stellen Sie sich eine Welt vor, in der wir alle Zugang zu den Adressen, Kontonummern und anderen identifizierbaren Informationen der anderen hätten. Das wäre ein Eingriff in die Privatsphäre vieler Menschen und würde die Welt weniger sicher machen. Die Datenanonymisierung ist eine der Möglichkeiten, wie wir Daten privat und sicher halten können!

Andrew: Die ethische Verwendung von Daten

Video 91

Merkmale von Open Data

Video 92

Die Open Data Debatte

Genau wie der Datenschutz ist auch Open Data ein viel diskutiertes Thema in der heutigen Welt. Fachkräfte für Datenanalyse denken viel über Open Data nach, und als zukünftige Fachkraft für Datenanalyse müssen Sie die Grundlagen verstehen, um in Ihrer neuen Rolle erfolgreich zu sein.

 Illustration of a scale balancing numerical data

Was sind offene Daten?

In der Data Analytics ist Open Data ein Teil der Datenethik, die mit der ethischen Nutzung von Daten zu tun hat. Offenheit bezieht sich auf den freien Zugang, die Nutzung und die gemeinsame Nutzung von Daten. Aber damit Daten als offen gelten, müssen sie:

  • Als vollständiger Dataset für die Öffentlichkeit verfügbar und zugänglich sein

  • Unter Bedingungen zur Verfügung gestellt werden, die ihre Wiederverwendung und Weiterverbreitung erlauben

  • Eine universelle Beteiligung ermöglichen, so dass jeder die Daten nutzen, wiederverwenden und weiterverteilen kann

Daten können nur dann als offen angesehen werden, wenn sie alle drei Standards erfüllen.

Die Open Data-Debatte: Welche Daten sollten öffentlich zugänglich sein?

Einer der größten Nutzen von Open Data besteht darin, dass glaubwürdige Datenbanken in größerem Umfang genutzt werden können. Im Grunde bedeutet dies, dass all diese guten Daten genutzt, weitergegeben und mit anderen Daten kombiniert werden können. Dies könnte enorme Auswirkungen auf die wissenschaftliche Zusammenarbeit, Forschungsfortschritte, analytische Kapazitäten und die Entscheidungsfindung haben. Aber es ist wichtig, auch an die Personen zu denken, die durch die öffentlichen, offenen Daten repräsentiert werden.

Drittanbieterdaten werden von einer Einrichtung gesammelt, die keine direkte Beziehung zu den Daten hat. Vielleicht erinnern Sie sich daran, dass Sie bereits etwas über diese Art von Daten gelernt haben. So können Dritte beispielsweise Informationen über die Besucher einer bestimmten Website sammeln. Auf diese Weise können diese Drittparteien Publikumsprofile erstellen, die ihnen helfen, das Verhalten der Nutzer besser zu verstehen und sie mit effektiverer Werbung anzusprechen.

Personenidentifizierbare Informationen (PII) sind Daten, die mit hinreichender Wahrscheinlichkeit eine Person identifizieren und Informationen über sie bekannt machen. Es ist wichtig, diese Daten sicher zu halten. PII können die Adresse einer Person, Kreditkarteninformationen, die Sozialversicherungsnummer, medizinische Datensätze und mehr umfassen.

Jeder möchte persönliche Informationen über sich selbst privat halten. Da Daten von Drittanbietern leicht verfügbar sind, ist es wichtig, ein Gleichgewicht zwischen der Offenheit der Daten und der Privatsphäre des Einzelnen herzustellen.

Andrew: Schritte für eine ethische Datennutzung

Video 93

Ressourcen für Offene Daten

Zum Glück für Fachkräfte für Datenanalyse gibt es viele vertrauenswürdige Ressourcen für Open Data. Es ist wichtig, daran zu denken, dass auch seriöse Daten ständig bewertet werden müssen, aber diese Websites sind ein nützlicher Ausgangspunkt:

  1. U.S. Regierung Daten Website: Daten.gov ist eine der umfassendsten Datenquellen in den USA. Diese Ressource stellt Nutzern die Daten und Tools zur Verfügung, die sie für ihre Recherchen benötigen, und hilft ihnen sogar bei der Entwicklung von Web- und App-Anwendungen und der Visualisierung von Daten.
  2. U.S. Census Bureau: Diese Open Data-Quelle bietet demografische Informationen von Bundes-, Landes- und Kommunalbehörden sowie von kommerziellen Einrichtungen in den USA.
  3. Open Data Netzwerk: Diese Datenquelle verfügt über eine wirklich leistungsstarke Suchmaschine und erweiterte Filter. Hier finden Sie Daten zu Themen wie Finanzen, öffentliche Sicherheit, Infrastruktur, Wohnungsbau und Entwicklung.
  4. Google Cloud Public Datasets: Über das Google Cloud Public Dataset Programm steht Ihnen eine Auswahl an öffentlichen Datasets zur Verfügung, die Sie bereits in BigQuery geladen finden.
  5. Dataset-Suche: Die Dataset Search ist eine Suchmaschine, die speziell für Datensätze entwickelt wurde; Sie können damit nach bestimmten Datensätzen suchen.

Glossarbegriffe aus Modul 2

Begriffe und Definitionen für Kurs 3, Modul 2

Schlechte Datenquelle: Eine Datenquelle, die nicht zuverlässig, originell, umfassend, aktuell und zitiert ist (ROCCC)

Voreingenommenheit : Eine bewusste oder unbewusste Vorliebe für oder gegen eine Person, eine Gruppe von Personen oder eine Sache

Bestätigungsverzerrung: Die Tendenz, Informationen in einer Weise zu suchen oder zu interpretieren, die bereits bestehende Überzeugungen bestätigt

Zustimmung: Der Aspekt der Datenethik, der das Recht einer Person voraussetzt, zu wissen, wie und warum ihre persönlichen Daten verwendet werden, bevor sie zustimmt, diese bereitzustellen

Cookie: Eine kleine Datei, die auf einem Computer gespeichert wird und Informationen über seine Nutzer enthält

Währung: Der Aspekt der Datenethik, der davon ausgeht, dass der Einzelne über die finanziellen Transaktionen, die sich aus der Verwendung seiner persönlichen Daten ergeben, und über den Umfang dieser Transaktionen informiert sein sollte

Datenanonymisierung: Der Prozess des Schutzes privater oder sensibler Daten durch die Eliminierung identifizierender Informationen

Datenverzerrung: Wenn eine Vorliebe für oder gegen eine Person, eine Gruppe von Personen oder eine Sache die Ergebnisse der Datenanalyse systematisch in eine bestimmte Richtung verzerrt

Datenethik: Begründete Standards für Richtig und Falsch, die vorschreiben, wie Daten gesammelt, weitergegeben und verwendet werden

Dateninteroperabilität: Ein Schlüssel für die erfolgreiche Nutzung von Open Data durch Unternehmen und Regierungen

Datenschutz: Die Wahrung der Informationen eines Eigentümers bei jeder Datentransaktion

Ethik: Gut begründete Normen für richtig und falsch, die vorschreiben, was Menschen tun sollten, in der Regel in Form von Rechten, Pflichten, Nutzen für die Gesellschaft, Fairness oder bestimmten Tugenden

Voreingenommenheit der Experimentatoren: Die Tendenz verschiedener Menschen, Dinge unterschiedlich zu beobachten (auch Beobachterverzerrung genannt)

Fairness: Eine Qualität der Datenanalyse, die keine Voreingenommenheit erzeugt oder verstärkt

Erstanbieterdaten: Daten, die von einer Einzelperson oder einer Gruppe unter Verwendung ihrer eigenen Ressourcen gesammelt wurden

Datenschutz-Grundverordnung der Europäischen Union (DSGVO): Richtlinien der Europäischen Union zum Schutz der Menschen und ihrer Daten

Gute Datenquelle: Eine Datenquelle, die zuverlässig, originell, umfassend, aktuell und zitierfähig ist (ROCCC)

Interpretationsverzerrung: Die Tendenz, mehrdeutige Situationen positiv oder negativ zu interpretieren

Voreingenommenheit des Beobachters: Die Tendenz verschiedener Personen, Dinge unterschiedlich zu beobachten (auch Beobachterverzerrung genannt)

Offene Daten: Daten, die für die Öffentlichkeit zugänglich sind

Offenheit: Der Aspekt der Datenethik, der den freien Zugang, die Nutzung und die gemeinsame Nutzung von Daten fördert

Stichprobenverzerrung: Über- oder Unterrepräsentation bestimmter Mitglieder einer Population als Ergebnis der Arbeit mit einer Stichprobe, die nicht repräsentativ für die Gesamtpopulation ist

Transaktionstransparenz: Der Aspekt der Datenethik, der voraussetzt, dass alle datenverarbeitenden Aktivitäten und Algorithmen für die Person, die die Daten zur Verfügung stellt, erklärbar und verständlich sein sollten

Unverzerrte Stichprobennahme: Wenn die Stichprobe der zu messenden Population repräsentativ für die Gesamtpopulation ist

Alles über Datenbanken

Video 94

Funktionen und Komponenten der Datenbank

Video 95

Maximieren Sie Datenbanken in Data Analytics

Datenbanken ermöglichen es Analysten, Daten zu manipulieren, zu speichern und zu verarbeiten. Dadurch können sie die Daten viel effizienter durchsuchen, um die besten Statistiken zu erhalten.

3-image sequence: several lightbulbs, a brain leaping out of a box, and an analog clock

Relationale Datenbanken

Eine relationale Datenbank ist eine Datenbank, die eine Reihe von Tabellen enthält, die miteinander verbunden werden können, um Beziehungen herzustellen. Sie ermöglichen es Fachkräften für Datenanalyse, Daten auf der Grundlage ihrer Gemeinsamkeiten zu organisieren und zu verknüpfen.

In einer nicht-relationalen Tabelle finden Sie alle möglichen Variablen, an deren Analyse Sie interessiert sein könnten, in einer Gruppe zusammengefasst. Dies ist ein Grund, warum relationale Datenbanken in der Datenanalyse so weit verbreitet sind: Sie vereinfachen viele Analyseprozesse und erleichtern das Auffinden und die Verwendung von Daten in einer gesamten Datenbank.

DieNormalisierung ist ein Prozess zur Organisation von Daten in einer relationalen Datenbank. Zum Beispiel die Erstellung von Tabellen und die Herstellung von Beziehungen zwischen diesen Tabellen. Sie wird angewandt, um Datenredundanz zu beseitigen, die Datenintegrität zu erhöhen und die Komplexität in einer Datenbank zu verringern.

Der Schlüssel zu relationalen Datenbanken

Tabellen in einer relationalen Datenbank sind durch die Felder miteinander verbunden, die sie gemeinsam haben. Vielleicht erinnern Sie sich daran, schon einmal etwas über Primär- und Fremdschlüssel gelernt zu haben. Zur schnellen Auffrischung: Ein Primärschlüssel ist ein Bezeichner, der auf eine Spalte verweist, in der jeder Wert eindeutig ist. Mit anderen Worten, es handelt sich um eine Spalte einer Tabelle, die dazu dient, jeden Datensatz innerhalb dieser Tabelle eindeutig zu identifizieren. Der Wert, der dem Primärschlüssel in einer bestimmten Zeile zugewiesen ist, muss in der gesamten Tabelle eindeutig sein. Wenn z.B. customer_id der Primärschlüssel für die Kundentabelle ist, werden niemals zwei Kunden die gleiche customer_id haben.

Im Gegensatz dazu ist ein Fremdschlüssel ein Feld in einer Tabelle, das ein Primärschlüssel in einer anderen Tabelle ist. Eine Tabelle kann nur einen Primärschlüssel haben, aber sie kann mehrere Fremdschlüssel haben. Diese Schlüssel stellen die Beziehungen zwischen den Tabellen in einer relationalen Datenbank her und helfen dabei, Daten über mehrere Tabellen in der Datenbank hinweg zu organisieren und zu verbinden.

Für einige Tabellen ist kein Primärschlüssel erforderlich. Eine Umsatztabelle kann zum Beispiel mehrere Fremdschlüssel und keinen Primärschlüssel haben. Ein Primärschlüssel kann auch aus mehreren Spalten einer Tabelle bestehen. Diese Art von Primärschlüssel wird als zusammengesetzter Schlüssel bezeichnet. Wenn beispielsweise customer_id und location_id zwei Spalten eines zusammengesetzten Schlüssels für eine Kundentabelle sind, müssen die Werte, die diesen Feldern in einer beliebigen Zeile zugewiesen werden, innerhalb der gesamten Tabelle eindeutig sein.

Image of 5 tables: customer table, revenue table, branch table, date table, and product table

SQL? Du sprichst meine Sprache

Wie Sie bereits gelernt haben, ist Structured Query Language (SQL) eine Art Abfragesprache, die es Fachkräften für Datenanalyse ermöglicht, mit einer Datenbank zu kommunizieren. Eine Fachkraft für Datenanalyse wird also SQL verwenden, um eine Abfrage zu erstellen, mit der sie die gewünschten Daten aus einem größeren Dataset anzeigen kann. In einer relationalen Datenbank können Fachkräfte für Datenanalyse Abfragen schreiben, um Daten aus den zugehörigen Tabellen abzurufen. SQL ist ein leistungsstarkes Tool für die Arbeit mit Datenbanken – deshalb werden Sie gleich mehr darüber erfahren!

Metadaten entmystifizieren

Video 96

Metadaten sind genauso wichtig wie die Daten selbst

Data Analytics ist von Haus aus ein Feld, das von der Sammlung und Organisation von Daten lebt. In dieser Lektüre erfahren Sie mehr über Metadaten und die Art der Informationen, die sie liefern können. Darüber hinaus lernen Sie Beispiele für Metadaten kennen.

A group of people surrounded by large representations of metadata common in everyday life.

Erkunden Sie eine Datendatei, indem Sie eine beliebige Datei auf Ihrem Computer oder ein Dokument bei Ihnen zu Hause oder am Arbeitsplatz öffnen. Worum handelt es sich dabei? WHERE kommt sie her? Ist sie nützlich? Woher wissen Sie das? An dieser Stelle kommen Metadaten ins Spiel, die ein tieferes Verständnis der Daten ermöglichen. Einfach ausgedrückt, sind Metadaten Daten über Daten. In der Datenbankverwaltung liefern Metadaten Informationen über andere Daten und helfen Fachkräften für Datenanalyse bei der Interpretation des Inhalts der Daten in einer Datenbank.

Unabhängig davon, ob Sie mit einer großen oder kleinen Datenmenge arbeiten, sind Metadaten das Kennzeichen eines sachkundigen Analytics Teams. Metadaten helfen bei der unternehmensweiten Kommunikation über Daten und erleichtern die Wiederverwendung von Daten. Im Wesentlichen geben Metadaten Auskunft über das Wer, Was, Wann, Wo, Was, Warum und Wie der Daten.

Elemente von Metadaten

Bevor Sie sich Beispiele für Metadaten ansehen, sollten Sie verstehen, welche Art von Informationen Metadaten normalerweise liefern:

  • Datei- oder Dokumententyp: Um welche Art von Datei oder Dokument handelt es sich?

  • Datum, Uhrzeit und Ersteller: Wann wurde es erstellt? Wer hat es erstellt? Wann wurde es zuletzt geändert?

  • Titel und Beschreibung: Wie lautet der Name des Objekts, das Sie untersuchen? Welche Art von Inhalt enthält es?

  • Geolokalisierung: Wenn Sie ein Foto untersuchen, wo wurde es aufgenommen?

  • Tags und Kategorien: Wie ist der allgemeine Überblick über das Objekt, das Sie haben? Ist es indiziert oder auf eine bestimmte Weise beschrieben?

  • Wer hat es zuletzt geändert und wann: Wurden Änderungen an der Datei vorgenommen? Wenn ja, wann wurden die letzten Änderungen vorgenommen?

  • Wer kann darauf zugreifen oder sie aktualisieren: Wenn Sie ein Dataset untersuchen, ist es öffentlich? Sind besondere Berechtigungen erforderlich, um sie anzupassen oder zu ändern?

Beispiele für Metadaten

In der digitalen Welt von heute sind Metadaten allgegenwärtig! Hier finden Sie einige Beispiele – mit den dazugehörigen Bildern – wo Sie Metadaten finden können.

Fotos

Immer wenn ein Foto mit einer Kamera aufgenommen wird, werden Metadaten wie Dateiname, Datum, Uhrzeit, Geolokalisierung und der Typ des Geräts, mit dem es aufgenommen wurde, erfasst und mit dem Foto gespeichert. Die Metadaten des folgenden Fotos werden in einem Popup-Fenster neben dem Foto angezeigt.

Image with accompanying Information pop-up that displays its description.

Emails

Wenn eine E-Mail gesendet oder empfangen wird, enthält sie Metadaten wie die Betreffzeile, den Absender, den Empfänger, das Sendedatum und die Sendezeit.

An email displaying the subject, the recipient, sender, and time and date sent.

E-Mails enthalten auch versteckte Metadaten wie Servernamen, IP-Adressen, HTML-Format und Software-Details. Dieses Bild enthält versteckte E-Mail-Metadaten wie die Nachrichten-ID und das Datum, an dem die E-Mail erstellt wurde.

Hidden metadata from an email

Tabellen und elektronisch erstellte Dokumente

Tabellen und Dokumente sind bereits mit einer beträchtlichen Menge an Daten gefüllt, so dass es nicht überrascht, dass sie auch Metadaten wie Titel, Autor, Erstellungsdatum, Seitenzahl und Kommentare der Nutzer enthalten. Zu den Metadaten einer Tabelle gehören außerdem Namen von Registerkarten, Tabellen und Spalten. Im folgenden Beispiel zeigt das Bild die Metadaten für ein elektronisch erstelltes Google Sheet:

The metadata of a Google Sheet

Webseiten

Jede Webseite verfügt über eine Reihe von Standard-Metadaten-Feldern wie Tags und Kategorien, den Namen des Website-Erstellers, den Titel und die Beschreibung der Webseite sowie den Zeitpunkt der Erstellung. Die Ergebnisse von Suchmaschinenabfragen, die Sie vielleicht täglich durchführen, sind Metadaten!

A search engine result that includes meta title as Google Advanced Data Analytics Professional Certificate.

Bücher und Hörbücher

Auch nicht-digitale Objekte können Metadaten haben! Jedes Buch verfügt über Standard-Metadaten, die Sie über den Titel, den Namen des Autors, ein Inhaltsverzeichnis, Verlagsinformationen, eine Beschreibung des Urheberrechts, einen Index und eine kurze Beschreibung des Buchinhalts informieren. Die Metadaten eines Hörbuchs enthalten ebenfalls diese Daten sowie hörbuchspezifische Metadaten wie Sprecher und Aufnahmelänge.

Audiobook’s metadata including the title of the audiobook, author, narrator, its length, the release date.

Die wichtigsten Erkenntnisse

Metadaten finden sich in Fotos, E-Mails, Tabellen, Websites und vielem mehr! In Ihrem täglichen Leben verwenden Sie Metadaten, um Ordnung zu halten. Als Fachkraft für Datenanalyse verwenden Sie Metadaten, um den Inhalt und den Kontext Ihrer Daten zu verstehen und um zu wissen, wie sie strukturiert sind. Metadaten liefern Fachkräften für Datenanalyse Informationen über den Datentyp, den Titel, die Geolokalisierung, den Ersteller, den letzten Änderer und den Zugriff auf die Daten. Als Fachkraft für Datenanalyse ist es wichtig, genaue Datensätze von Metadaten aufzubewahren, um sicherzustellen, dass Sie die Daten auch in Zukunft finden, verwenden, bewahren und wiederverwenden können. Denken Sie daran, dass es in Ihrer Verantwortung liegt, die Daten in ihrer Gesamtheit zu verwalten und zu nutzen; Metadaten sind genauso wichtig wie die Daten selbst.

Metadaten und Metadaten-Repositories

Wie Sie bereits gelernt haben, sind Metadaten Daten über Daten. Sie beschreiben eindeutig, wie und wann Daten gesammelt wurden und wie sie organisiert sind. Metadaten stellen Daten in einen Kontext und machen die Daten verständlicher. Dies hilft Fachkräften für Datenanalyse, Daten zu nutzen, um Probleme zu lösen und fundierte Geschäftsentscheidungen zu treffen.

In dieser Lektüre erfahren Sie mehr über den Nutzen von Metadaten, Metadaten-Repositories und Metadaten von externen Datenbanken.

Der Nutzen von Metadaten

Verlässlichkeit

Fachkräfte für Datenanalyse verwenden zuverlässige und qualitativ hochwertige Daten, um die Grundursachen von Problemen zu ermitteln, die bei der Analyse auftreten können, und um ihre Ergebnisse zu verbessern. Wenn die Daten, die zur Lösung eines Problems oder zum Treffen einer datengesteuerten Entscheidung verwendet werden, unzuverlässig sind, ist die Wahrscheinlichkeit groß, dass auch die Ergebnisse unzuverlässig sind.

Metadaten helfen Fachkräften für Datenanalyse dabei, die Zuverlässigkeit ihrer Daten zu bestätigen, indem sie dafür sorgen, dass sie zuverlässig sind:

  • Akkurat

  • Präzise

  • Relevant

  • Rechtzeitig

Auf diese Weise können Fachkräfte für Datenanalyse sicherstellen, dass sie mit den richtigen Daten arbeiten und dass die Daten korrekt beschrieben sind. Eine Fachkraft für Datenanalyse, die ein Projekt mit Daten aus dem Jahr 2022 abschließt, kann beispielsweise anhand von Metadaten leicht feststellen, ob sie Daten aus einer bestimmten Datei verwenden sollte.

Einheitlichkeit

Fachkräfte für Datenanalyse legen Wert auf Konsistenz und streben nach Einheitlichkeit in ihren Daten und Datenbanken, und Metadaten tragen dazu bei, dies zu ermöglichen. Um beispielsweise Umfragedaten aus zwei verschiedenen Quellen zu verwenden, nutzen Fachkräfte für Datenanalyse Metadaten, um sicherzustellen, dass in der Umfrage dieselben Erhebungsmethoden angewandt wurden, so dass beide Datasets zuverlässig verglichen werden können.

Wenn eine Datenbank konsistent ist, ist es einfacher, Beziehungen zwischen den Daten in der Datenbank und Daten, die anderswo existieren, zu entdecken. Wenn Daten einheitlich sind, sind sie es auch:

  • Organisiert: Fachkräfte für Datenanalyse können Tabellen und Dateien leicht auffinden, die Erstellung und Änderung von Assets überwachen und Metadaten speichern.

  • Klassifiziert: Fachkräfte für Datenanalyse können Daten kategorisieren, wenn sie einem einheitlichen Format folgen, was bei der Bereinigung und Verarbeitung von Daten von Vorteil ist.

  • Gespeichert: Konsistente und einheitliche Daten können effizient in verschiedenen Repositories gespeichert werden. Dies vereinfacht die Speicherverwaltung, z.B. die Verwaltung einer Datenbank.

  • Zugänglich: Nutzer, Anwendungen und Systeme können Daten effizient auffinden und nutzen.

Zusammengenommen ermöglichen diese Vorteile den Fachkräften für Datenanalyse eine effektive Analyse und Interpretation ihrer Daten.

Metadaten-Repositories

Metadaten-Repositories helfen Fachkräften für Datenanalyse, die Zuverlässigkeit und Konsistenz ihrer Daten sicherzustellen.

Metadaten-Repositories sind spezialisierte Datenbanken, die speziell für die Speicherung und Verwaltung von Metadaten geschaffen wurden. Sie können an einem physischen Ort oder in einer virtuellen Umgebung aufbewahrt werden – wie Daten in der Cloud.

Metadaten-Repositories beschreiben, woher die Metadaten stammen und speichern diese Daten in einer zugänglichen Form mit einer gemeinsamen Struktur. Dies ermöglicht Fachkräften für Datenanalyse einen schnellen und einfachen Zugriff auf die Daten. Würden Fachkräfte für Datenanalyse kein Metadaten-Repository verwenden, müssten sie jede einzelne Datei auswählen, um deren Informationen nachzuschlagen und die Daten manuell zu vergleichen, was viel Zeit und Mühe kosten würde.

Fachkräfte für Datenanalyse nutzen Metadaten-Repositories auch, um mehrere Quellen für die Datenanalyse zusammenzuführen. Metadaten-Repositories tun dies, indem sie den Zustand und den Speicherort der Daten, die Struktur der Tabellen innerhalb der Daten und den Zugriff der Nutzer auf die Protokolle beschreiben.

Metadaten von externen Datenbanken

Fachkräfte für Datenanalyse nutzen sowohl Zweitanbieterdaten als auch Drittanbieterdaten, um wertvolle Statistiken zu gewinnen und strategische, datengesteuerte Entscheidungen zu treffen. Zweitanbieterdaten sind Daten, die von einer Gruppe direkt bei der Zielgruppe der Gruppe gesammelt und dann verkauft werden. Drittanbieterdaten werden von externen Quellen bereitgestellt, die diese Daten nicht direkt erhoben haben. Die Anbieter dieser Daten sind nicht die ursprünglichen Datensammler und stehen in keiner direkten Beziehung zu den Personen, denen die Daten gehören. Die externen Anbieter beziehen die Daten von Websites oder anderen Programmen, die sie von den verschiedenen Plattformen abrufen, auf denen sie ursprünglich erzeugt wurden.

Fachkräfte für Datenanalyse sollten die Metadaten der externen Datenbanken verstehen, um sicherzustellen, dass sie konsistent und zuverlässig sind. In einigen Fällen sollten sie sich auch mit dem Eigentümer der Drittanbieterdaten in Verbindung setzen, um sich zu vergewissern, dass die Daten zugänglich sind und erworben werden können. Bei der Verwendung von Daten, die von einer anderen Organisation stammen, ist es empfehlenswert, sich zu vergewissern, dass die Daten zuverlässig sind und dass die entsprechenden Genehmigungen für ihre Verwendung eingeholt wurden.

Die wichtigsten Erkenntnisse

Metadaten helfen Fachkräften für Datenanalyse, datengesteuerte Entscheidungsfindungen schneller und effizienter zu treffen. Außerdem stellen sie sicher, dass Daten und Datenbanken zuverlässig und konsistent sind.

Metadaten-Repositories werden verwendet, um Metadaten zu speichern – einschließlich der Daten von Zweitanbieter- und Drittunternehmen. Diese Repositories beschreiben den Zustand und den Speicherort der Metadaten, die Struktur der darin enthaltenen Tabellen und wer auf das Repository zugegriffen hat. Fachkräfte für Datenanalyse verwenden Metadaten-Repositories, um sicherzustellen, dass sie die richtigen Daten entsprechend verwenden.

Daten mit Metadaten managen

Video 97

Megan: Spaß mit Metadaten

Video 98

So viele Orte, um Daten zu finden

Video 99

Arbeiten mit .csv-Dateien

In einer früheren Lektion haben Sie sich mit CSV-Dateien (comma-separated values, kommagetrennte Werte) befasst und erfahren, wie Sie diese in ein Google Sheet importieren oder von einer Website herunterladen können. Fachkräfte für Datenanalyse verwenden häufig .csv-Dateien. In diesem Kurs werden Sie daher .csv-Dateien verwenden, um Daten in Datenanalyseprogramme zur weiteren Analyse und Visualisierung zu übertragen. .csv-Dateien sind einfache Textdateien mit einer organisierten Tabellenstruktur, die Zeilen und Spalten enthält. Die Werte in jeder Zeile werden durch Kommas getrennt. Dank der Tabellenstruktur lassen sich .csv-Dateien leicht verstehen, bearbeiten, manipulieren und für die Datenanalyse verwenden.

Ein großer Vorteil von .csv-Dateien ist ihre breite Kompatibilität. Sie können von einer Vielzahl von Datenanalyse-Tools und Software-Programmen importiert und exportiert werden.

.csv-Dateien herunterladen

Um .csv-Dateien zu verwenden und sie in Datenanalyseprogramme hochzuladen, müssen Sie sie zunächst auf Ihr lokales Gerät herunterladen. Das Herunterladen einer .csv-Datei von einer Website kann je nach Betriebssystem oder Internet-Browser variieren. Hier sind einige Möglichkeiten, wie Sie eine CSV-Datei herunterladen können:

  • Klicken Sie auf den Download-Link oder den .csv-Anhang: Suchen Sie den Link für die CSV-Datei oder den Anhang auf der Website. Klicken Sie darauf, und der Prozess des Herunterladens wird gestartet.

  • Klicken Sie mit der rechten Maustaste und speichern Sie: Klicken Sie mit der rechten Maustaste auf die Datentabelle oder das Element, das die CSV-Daten enthält. Wählen Sie Speichern unter... oder eine ähnliche Option. Benennen Sie die Datei und achten Sie darauf, dass die Dateiendung „.csv“ lautet.

  • Download erzwingen: Sie können die Alt-Taste auf Ihrer Tastatur drücken, während Sie auf den Link klicken. Dadurch wird der Download ausgelöst, und Sie können die CSV-Datei in Ihrem Download-Ordner finden.

Hinweis: Wenn Sie den Chrome-Browser oder ChromeOS verwenden, werden CSV-Dateien möglicherweise in einer neuen Registerkarte geöffnet, anstatt auf Ihren Computer heruntergeladen zu werden. Befolgen Sie in diesem Fall die folgenden Anweisungen:

  • Wählen Sie in der Menüleiste “ Datei“ und dann „ Als Google Sheets speichern„. Dadurch wird die CSV-Datei als Google Sheet geöffnet.

  • Wählen Sie in der Menüleiste Datei und dann Download aus dem Dropdown-Menü und wählen Sie Kommagetrennte Werte (.csv).

Hochladen von .csv-Dateien

Während des Prozesses der Datenanalyse werden Sie häufig .csv-Dateien hochladen müssen. So gehen Sie vor:

  • Suchen Sie die Upload-Option: Jede Plattform für die Datenanalyse verfügt über eine Schaltfläche, eine Menüoption oder einen Drag&Drop-Bereich mit der Beschriftung Upload oder Import. Hier können Sie Ihre CSV-Datei hochladen.

  • Wählen Sie Ihre .csv-Datei: Klicken Sie auf der von Ihnen verwendeten Plattform auf Hochladen oder Importieren, um Ihren Datei-Explorer zu öffnen. Wählen Sie Ihre .csv-Datei. Wenn Sie gerade eine CSV-Datei aus dem Internet heruntergeladen haben, befindet sie sich im Ordner Downloads Ihres Computers.

  • Initiieren Sie den Upload: Sobald Sie Ihre CSV-Datei ausgewählt haben, klicken Sie auf Hochladen oder Importieren.Die Plattform zeigt möglicherweise einen Fortschrittsbalken oder eine Meldung an, die besagt, dass der Upload abgeschlossen ist.

Hinweis: Einige Plattformen haben Beschränkungen hinsichtlich der Dateigröße oder des Formats von CSV-Dateien. Stellen Sie vor dem Hochladen sicher, dass Ihre CSV-Dateien diesen Anforderungen entsprechen.

Die wichtigsten Erkenntnisse

Programme zur Datenanalyse helfen uns dabei, aus Daten Erkenntnisse und Wissen zu gewinnen. Die Verwendung von .csv-Dateien ist für die Datenanalyse unerlässlich. Wenn Sie verstehen, wie Sie Daten einfach aus dem Internet herunterladen oder Ihre Daten zu diesen Programmen hinzufügen können, können Sie Datenbereinigung, Visualisierung, Analyse und vieles mehr durchführen!

Importieren Sie Daten aus Tabellen und Datenbanken

Video 100

Daten dynamisch importieren

Wie Sie bereits gelernt haben, können Sie Daten aus einigen Datenquellen, wie z.B. .csv-Dateien, über das Menü Datei in eine Google-Tabelle importieren. Beachten Sie bei dieser Methode, dass Daten, die in der .csv-Datei aktualisiert werden, nicht automatisch in Google Sheet aktualisiert werden. Stattdessen müssen sie manuell – und kontinuierlich – in Google Sheet aktualisiert werden. In manchen Situationen, z.B. wenn Sie die von Ihnen vorgenommenen Änderungen verfolgen möchten, ist diese Methode ideal. In anderen Situationen müssen Sie die Daten an beiden Orten gleich halten, und die Verwendung von Daten, die nicht automatisch aktualisiert werden, kann zeitaufwändig und mühsam sein. Außerdem kann der Versuch, dasselbe Dataset an mehreren Stellen zu pflegen, später zu Fehlern führen.

Zum Glück gibt es Tools, mit denen Sie Datenimporte automatisieren können, so dass Sie die Daten in Ihrer aktuellen Tabelle nicht ständig aktualisieren müssen. Nehmen Sie als Beispiel einen kleinen Gemischtwarenladen. Der Laden hat drei Kassen, die von drei Angestellten bedient werden. Am Ende eines jeden Tages möchte der Eigentümer den Gesamtumsatz und den Bargeldbetrag in jedem Register ermitteln. Jeder Angestellte ist dafür verantwortlich, das Geld zu zählen und die Summe der Verkäufe in eine Tabelle einzutragen. Der Eigentümer hat die Tabellen so eingerichtet, dass die Daten jedes Verkäufers in eine andere Tabelle importiert werden, die dann automatisch den Gesamtumsatz für alle drei Register berechnet. Ohne diese Automatisierung müsste jeder Verkäufer abwechselnd seine Daten in die Tabelle des Eigentümers eingeben. Dies ist ein Beispiel für eine dynamische Methode des Datenimports, die dem Eigentümer und den Verkäufern Zeit und Energie spart. Wenn Daten dynamisch sind, sind sie interaktiv und werden im Laufe der Zeit automatisch geändert und aktualisiert.

In den folgenden Abschnitten erfahren Sie, wie Sie Daten dynamisch in Google Sheets importieren können.

IMPORT funktionen in Google Sheets

Die FunktionIMPORTRANGE

In Google Sheets können Sie mit der Funktion IMPORTRANGE ein Dataset ganz oder teilweise aus einem anderen Google Sheet importieren.

Um diese Funktion zu verwenden, benötigen Sie zwei Informationen:

  1. Die URL des Google Sheets, aus dem Sie die Daten importieren möchten.

  2. Den Namen des Blattes und den Bereich der Zellen, die Sie in Ihr Google-Blatt importieren möchten.

Sobald Sie diese Informationen haben, öffnen Sie das Google Sheet, in das Sie Daten importieren möchten, und wählen die Zelle aus, in die die erste Zelle der Daten kopiert werden soll. Geben Sie = ein, um anzuzeigen, dass Sie eine Funktion eingeben werden, und vervollständigen Sie dann die Funktion IMPORTRANGE mit der URL und dem Bereich, die Sie auf folgende Weise identifiziert haben: =IMPORTRANGE(„URL“, „sheet_name!cell_range“). Beachten Sie, dass der Blattname und der Zellbereich im zweiten Teil dieser Funktion durch ein Ausrufezeichen getrennt sind.

Ein Beispiel für diese Funktion ist:

=IMPORTRANGE(„https://docs.google.com/thisisatestabc123“, „sheet1!A1:F13“)

Hinweis: Diese URL ist nur für die Syntax gedacht. Sie ist nicht dafür gedacht, in Ihre eigene Tabelle eingegeben zu werden.

Sobald Sie die Funktion abgeschlossen haben, wird ein Feld eingeblendet, das Sie auffordert, den Zugriff auf das Google Sheet zu erlauben, aus dem Sie Daten importieren. Sie müssen den Zugriff auf die Tabelle mit den Daten erlauben, wenn Sie diese zum ersten Mal in Google Sheets importieren. Ersetzen Sie sie durch die URL eines Arbeitsblatts, das Sie erstellt haben, damit Sie den Zugriff kontrollieren können, indem Sie die Schaltfläche Zugriff zulassen auswählen.

Weitere Informationen über die Syntax finden Sie auf der Seite IMPORTRANGE im Google Help Center. Sie werden auch später im Programm mehr darüber erfahren.

Die FunktionIMPORTHTML

Das Importieren von HTML-Tabellen ist eine grundlegende Methode, um Daten aus öffentlichen Webseiten zu extrahieren. Dieser Prozess wird oft als „Scraping“ bezeichnet Web Scraping leicht gemacht stellt Ihnen vor, wie Sie dies mit Google Sheets oder Microsoft Excel tun können.

In Google Sheets können Sie die Funktion IMPORTHTML verwenden, um die Daten aus einer HTML-Tabelle (oder Liste) auf einer Webseite zu importieren. Diese Funktion ist ähnlich wie die Funktion IMPORTRANGE. Weitere Informationen über die Syntax finden Sie auf der Seite IMPORTHTML des Google Help Centers.

Die FunktionIMPORTDATA

Manchmal liegen die im Web angezeigten Daten in Form einer komma- oder tabulatorgetrennten Datei vor.

Sie können die Funktion IMPORTDATA in einem Google Sheet verwenden, um Daten in ein Google Sheet zu importieren. Diese Funktion ist ähnlich wie die Funktion IMPORTRANGE. Weitere Informationen und die Syntax finden Sie auf der Seite IMPORTDATA des Google Help Centers.

Öffentliche Datasets erkunden

Open Data hilft bei der Erstellung einer Vielzahl öffentlicher Datasets, auf die Sie zugreifen können, um datengesteuerte Entscheidungsfindungen zu treffen. Hier finden Sie einige Ressourcen, mit denen Sie die Suche nach öffentlichen Datasets selbst in die Hand nehmen können:

  • Die Google Cloud Public Datasets ermöglichen Fachkräften für Datenanalyse den Zugriff auf stark nachgefragte öffentliche Datasets und machen es einfach, Statistiken in der Cloud aufzudecken.

  • Die Dataset-Suche kann Ihnen helfen, verfügbare Datasets online mit Hilfe von Schlüsselwörtern zu finden.

  • Kaggle verfügt über eine Open Data Suchfunktion, mit der Sie Datasets zum Üben finden können.

  • Schließlich, BigQuery über 150 öffentliche Datasets, auf die Sie zugreifen und die Sie nutzen können.

Öffentliche Datasets zum Thema Gesundheit

  1. Daten des Globalen Gesundheitsobservatoriums: Sie können von dieser Seite aus nach Datasets suchen oder die vorgestellten Datensammlungen der Weltgesundheitsorganisation (WHO) erkunden.

  2. The Cancer Imaging Archive (TCIA) dataset: Genau wie der vorherige Datensatz werden diese Daten von der Google Cloud Public Datasets gehostet und können in BigQuery hochgeladen werden.

  3. 1000 Genome: Dies ist ein weiteres Dataset aus den öffentlichen Ressourcen der Google Cloud, das in BigQuery hochgeladen werden kann.

Öffentliche Klimadatensätze

  1. Nationales Rechenzentrum für Klimadaten: Die Seite NCDC Quick Links bietet eine Auswahl an Datasets, die Sie erkunden können.

  2. NOAA Public Dataset Gallery: Die NOAA Public Dataset Gallery enthält eine durchsuchbare Sammlung von öffentlichen Datasets.

Öffentliche sozialpolitische Datasets

  1. UNICEF Zustand der Kinder der Welt: Dieses Dataset von UNICEF enthält eine Sammlung von Tabellen, die Sie herunterladen können.

  2. CPS Arbeitskräfte Statistik: Diese Seite enthält Links zu verschiedenen verfügbaren Datasets, die Sie untersuchen können.

  3. Das Stanford Open Policing Projekt: Dieses Dataset kann als .csv-Datei für Ihre eigene Verwendung heruntergeladen werden.

Sortieren und Filtern, um sich auf relevante Daten zu konzentrieren

Video 101

Lernen Sie BigQuery kennen, einschließlich Sandbox und Abrechnungsoptionen

Video 102

Richten Sie Ihr BigQuery-Konto ein

Wie Sie bereits gelernt haben, ist BigQuery eine Datenbank, mit der Sie auf Daten aus vielen Quellen zugreifen und diese untersuchen und analysieren können. Jetzt beginnen Sie mit der Nutzung von BigQuery, was Ihnen hilft, SQL-Wissen zu erwerben, indem Sie Befehle eingeben und Fehlerbehebungen vornehmen. Diese Lektüre wird Sie durch den Prozess der Einrichtung Ihres eigenen BigQuery-Kontos führen.

Hinweis: Die Arbeit mit BigQuery ist keine Voraussetzung für dieses Programm. Am Ende dieser Lektüre finden Sie zusätzliche Ressourcen für andere SQL Plattformen, falls Sie diese stattdessen nutzen möchten.

BigQuery Konto-Optionen

BigQuery bietet eine Vielzahl von Kontoebenen, um den unterschiedlichen Bedürfnissen der Nutzer gerecht zu werden, und verfügt über zwei kostenlose Angriffspunkte: ein Sandbox-Konto und ein kostenloses Testkonto. Diese Optionen ermöglichen es Ihnen, das Programm zu erkunden, bevor Sie die beste Wahl für Ihre Bedürfnisse treffen. Mit einem Sandbox-Konto können Sie das Schreiben von Abfragen üben und öffentliche Datasets kostenlos erkunden, aber es gibt Kontingente und Limits sowie einige zusätzliche Einschränkungen. Wenn Sie BigQuery lieber mit den Standardlimits nutzen möchten, können Sie stattdessen ein kostenloses Testkonto einrichten. Bei der kostenlosen Testversion handelt es sich um einen Testzeitraum, bevor Sie für ein Abonnement bezahlen. In diesem Fall fällt keine automatische Gebühr an, aber Sie werden bei der Einrichtung des Kontos nach Zahlungsinformationen gefragt.

In dieser Lektüre finden Sie Anleitungen zur Einrichtung der beiden Kontotypen. Ein effektiver erster Schritt ist es, mit einem Sandbox-Konto zu beginnen und bei Bedarf zu einem kostenlosen Testkonto zu wechseln, um die bevorstehenden SQL-Kurse durchzuführen.

Sandbox-Konto

Das Sandbox-Konto ist kostenlos und jeder, der ein Google-Konto hat, kann es nutzen. Es hat jedoch einige Einschränkungen. Zum Beispiel sind Sie auf maximal 12 Projekte gleichzeitig beschränkt. Das bedeutet, dass Sie, um ein 13. Projekt zu erstellen, eines Ihrer bestehenden 12 Projekte löschen müssen. Außerdem unterstützt das Sandbox-Konto nicht alle Vorgänge, die Sie in diesem Programm durchführen können. So ist beispielsweise die Menge der Daten, die Sie verarbeiten können, begrenzt und Sie können keine neuen Datensätze in eine Datenbank einfügen oder die Werte bestehender Datensätze aktualisieren. Ein Sandbox-Konto ist jedoch perfekt für die meisten Programmaktivitäten geeignet, einschließlich aller Aktivitäten in diesem Kurs. Außerdem können Sie Ihr Sandbox-Konto jederzeit in ein kostenloses Testkonto umwandeln.

Ihr Sandbox-Konto einrichten

So richten Sie ein Sandbox-Konto ein:

  1. Besuchen Sie die BigQuery Sandbox-Dokumentationsseite.

  2. Loggen Sie sich in Ihr bevorzugtes Google-Konto ein, indem Sie das Profilsymbol in der BigQuery-Menüleiste auswählen.

  3. Wählen Sie auf der Dokumentationsseite die Schaltfläche Go to BigQuery.

  4. Sie werden aufgefordert, Ihr Land auszuwählen und die Nutzungsbedingungen zu lesen.

  5. So gelangen Sie zum SQL-Arbeitsbereich, in dem Sie die kommenden Aktivitäten durchführen werden. Standardmäßig erstellt BigQuery ein Projekt für Sie.

Nachdem Sie Ihr Konto eingerichtet haben, erscheint der Name des Projekts im Banner in Ihrer BigQuery-Konsole.

Kostenfreie Testversion

Wenn Sie die Möglichkeiten von BigQuery mit weniger Einschränkungen erkunden möchten, sollten Sie die kostenlose Google Cloud Testversion in Betracht ziehen. Damit erhalten Sie in den ersten 90 Tagen ein Guthaben von 300 $ für die Nutzung der Google Cloud. Wenn Sie BigQuery in erster Linie für SQL-Abfragen verwenden, werden Sie wahrscheinlich nicht in die Nähe dieser Ausgabengrenze kommen. Nachdem Sie das Guthaben von 300 $ aufgebraucht haben oder nach 90 Tagen, läuft Ihre kostenlose Testversion aus und Sie können dieses Konto nur noch gegen Bezahlung nutzen. Google wird Ihre Zahlungsmethode nicht automatisch belasten, wenn die Testphase endet. Sie müssen jedoch eine Zahlungsoption bei Google Cloud einrichten. Das bedeutet, dass Sie Ihre finanziellen Informationen eingeben müssen. Sie können sicher sein, dass Ihnen keine Kosten entstehen, es sei denn, Sie entscheiden sich bewusst für ein Upgrade auf ein kostenpflichtiges Konto. Wenn es Ihnen unangenehm ist, Zahlungsinformationen anzugeben, können Sie stattdessen das BigQuery Sandbox-Konto verwenden.

Richten Sie Ihre kostenlose Testversion ein

  1. Rufen Sie die BigQuery-Seite auf.

  2. Wählen Sie BigQuery kostenlos testen.

  3. Loggen Sie sich mit Ihrer Google-E-Mail ein oder erstellen Sie ein kostenloses Konto, wenn Sie noch keines haben. Klicken Sie hier, um ein Konto zu erstellen.

  4. Wählen Sie Ihr Land, eine Beschreibung Ihres Unternehmens oder Ihrer Bedürfnisse und das Kontrollkästchen, um die Nutzungsbedingungen zu akzeptieren. Wählen Sie dann WEITER.

  5. Geben Sie Ihre Rechnungsdaten ein und wählen Sie MEIN KOSTENLOSES PROBEN STARTEN.

Nachdem Sie Ihr Konto eingerichtet haben, wird Ihr erstes Projekt mit dem Titel Mein erstes Projekt im Banner angezeigt.

 

Image of a Google Cloud dashboard with text written that says “My First Project”.

Übertragungen zwischen BigQuery-Konten

Mit einem Sandbox- oder kostenlosen Testkonto haben Sie die Möglichkeit, jederzeit auf ein kostenpflichtiges Konto umzusteigen. Wenn Sie ein Upgrade durchführen, werden alle Ihre bestehenden Projekte beibehalten und auf Ihr neues Konto übertragen. Wenn Sie mit einer kostenlosen Testversion begonnen haben, aber nach deren Ablauf kein Upgrade durchführen möchten, können Sie zu einem Sandbox-Konto wechseln. Beachten Sie jedoch, dass die Projekte aus Ihrer Testversion nicht in Ihre Sandbox übertragen werden. Im Grunde ist die Erstellung einer Sandbox so, als würden Sie bei Null anfangen.

Erste Schritte mit anderen Datenbanken (wenn Sie BigQuery nicht verwenden)

Es ist am einfachsten, den Kursaktivitäten zu folgen, wenn Sie BigQuery verwenden, aber Sie können auch andere SQL Plattformen verwenden, wenn Sie dies bevorzugen. Wenn Sie sich entscheiden, SQL-Abfragen auf anderen Plattformen zu üben, finden Sie hier einige Ressourcen für den Einstieg:

Die wichtigsten Erkenntnisse

BigQuery bietet mehrere Konto-Optionen. Beachten Sie bei der Auswahl eines Kontotyps die folgenden Punkte:

  • Kontenebenen: BigQuery bietet verschiedene Kontotypen an, um den Anforderungen einer Vielzahl von Nutzern gerecht zu werden. Ganz gleich, ob Sie mit einem Sandbox-Konto beginnen oder ein kostenpflichtiges Konto mit der kostenlosen Testoption ausprobieren möchten, BigQuery bietet Ihnen die Flexibilität, die Option zu wählen, die am besten zu Ihren Bedürfnissen und Ihrem Budget passt.

  • Sandbox-Einschränkungen: Ein Sandbox-Konto ist zwar ein hervorragender Ausgangspunkt, hat aber einige Einschränkungen, wie z.B. eine Obergrenze für die Anzahl der Projekte und Einschränkungen bei der Datenmanipulation, wie z.B. das Einfügen oder Aktualisieren von Datensätzen, auf die Sie später in diesem Programm stoßen werden. Seien Sie sich dieser Einschränkungen bewusst, wenn Sie diesen Kurs mit einem Sandbox-Konto durcharbeiten möchten.

  • Einfache Einrichtung und Upgrades: Der Einstieg in BigQuery ist mit jedem Kontotyp schnell und einfach. Und wenn sich Ihre Anforderungen ändern, können Sie Ihren Kontostatus jederzeit flexibel ändern. Außerdem können Projekte auch dann beibehalten werden, wenn Sie zwischen den Kontotypen wechseln.

Wählen Sie den richtigen BigQuery-Kontotyp für Ihre speziellen Anforderungen und passen Sie sich an, wenn sich Ihre Anforderungen ändern!

Erste Schritte mit BigQuery

BigQuery ist ein Data Warehouse auf der Google Cloud Plattform, mit dem Sie große Datasets abfragen und filtern, Ergebnisse aggregieren und komplexe Operationen durchführen können. In diesem Programm werden Sie BigQuery verwenden, um Ihre SQL-Kenntnisse zu trainieren und Daten zu sammeln, aufzubereiten und zu analysieren. Zu diesem Zeitpunkt haben Sie Ihr eigenes Konto eingerichtet. Lernen Sie nun einige der wichtigen Elemente des SQL-Arbeitsbereichs kennen. Dies wird Sie auf die kommenden Aktivitäten vorbereiten, bei denen Sie BigQuery verwenden werden. Beachten Sie, dass BigQuery seine Schnittstelle häufig aktualisiert, so dass Ihre Konsole möglicherweise etwas anders aussieht als in dieser Lektüre beschrieben. Das ist in Ordnung; nutzen Sie Ihre Fähigkeiten zur Fehlerbehebung, um das zu finden, was Sie brauchen!

Anmelden bei BigQuery

Wenn Sie sich über die Landing Page bei BigQuery anmelden, wird automatisch Ihr Projektraum geöffnet. Dies ist eine Übersicht über Ihr Projekt, einschließlich der Projektinformationen und der aktuell verwendeten Ressourcen. Von hier aus können Sie Ihre jüngsten Aktivitäten überprüfen.

Bigquery project dashboard page

Navigieren Sie zum BigQuery Studio Ihres Projekts, indem Sie BigQuery aus dem Navigationsmenü und BigQuery Studio aus dem Dropdown-Menü auswählen.

BigQuery navigation menu open with the BigQuery Studio option selected.

BiqQuery Studio Komponenten

Sobald Sie vom Projektraum aus zu BigQuery navigiert haben, sind die meisten der wichtigsten Komponenten der BigQuery-Konsole vorhanden: das Navigationsfenster , das Explorer-Fenster und der SQL-Arbeitsbereich.

The BigQuery Console with the three major menus open: the Navigation pane, the Explorer pane, and the SQL Workspace

Der Navigationsbereich

Auf der Konsolenseite finden Sie das Navigationsfenster . Hier können Sie vom Projektbereich zum BigQuery-Tool navigieren. Dieses Menü enthält auch eine Liste anderer Daten-Tools für das Google Cloud Projekt (GCP). In diesem Programm werden Sie sich auf BigQuery konzentrieren, aber es ist nützlich zu verstehen, dass das GCP über eine Sammlung verbundener Tools verfügt, die Datenexperten jeden Tag verwenden.

Das Explorer-Fenster

Das Explorer-Fenster enthält eine Liste Ihrer aktuellen Projekte und aller mit Sternen versehenen Projekte, die Sie Ihrer Konsole hinzugefügt haben. Hier finden Sie auch die Schaltfläche + HINZUFÜGEN, mit der Sie Datasets hinzufügen können.

The + Add button in the Explorer pane.

Mit dieser Schaltfläche öffnen Sie das Dialogfeld Hinzufügen , in dem Sie eine Vielzahl von Datasets öffnen oder importieren können.

The Add dialog, displaying options to search for a data source or add popular or additional data sources.

Öffentliche Datasets hinzufügen

BigQuery bietet eine Vielzahl von öffentlichen Datasets aus dem Google Cloud Public Dataset Programm. Scrollen Sie im Dialogfeld Hinzufügen nach unten zur Option Öffentliche Datasets.

The Public Datasets option in the Add dialog.

Wählen Sie Öffentliche Datasets. Dadurch gelangen Sie zum Public Datasets Marketplace, wo Sie nach öffentlichen Datasets suchen und diese auswählen können, um sie zu Ihrer BigQuery Konsole hinzuzufügen. Suchen Sie zum Beispiel in der Suchleiste des Marktplatzes nach dem Dataset „noaa lightning“. Wenn Sie nach diesem Dataset suchen, finden Sie die Cloud-to-Ground Lightning Strikes Daten der NOAA.

The BigQuery Console showing NOAA’s Cloud to Ground Lightning Strikes as a search result in Datasets.

Wählen Sie das Dataset aus, um seine Beschreibung zu lesen. Wählen Sie Dataset anzeigen, um eine Registerkarte mit den Informationen zu dem Dataset im SQL-Arbeitsbereich zu erstellen.

The noaa_lightning dataset in a tab in the SQL workspace. The SQL workspace displays the dataset’s information.

Öffentliche Datasets starten und untersuchen

Sie haben das öffentliche Dataset noaa_lightning zu Ihrem BigQuery Workspace hinzugefügt, so dass das Explorer-Fenster das Dataset noaa_lightning zusammen mit der Liste der anderen öffentlichen Datasets anzeigt. Diese Datasets sind unter bigquery-public-data verschachtelt. Markieren Sie bigquery-public-data, indem Sie zum oberen Rand des Explorer-Fensters navigieren und den Stern neben bigquery-public-data auswählen.

The bigquery-public-dataset with the star filled in, indicating it has been starred.

Wenn Sie bigquery-public-data mit einem Sternchen versehen, können Sie öffentliche Datasets suchen und hinzufügen, indem Sie im Explorer-Fenster blättern oder in der Explorer-Suchleiste danach suchen.

Sie könnten zum Beispiel ein anderes öffentliches Dataset auswählen wollen. Wenn Sie das zweite Dataset, „austin_311“, auswählen, wird es erweitert, um die darin gespeicherte Tabelle „311_service_requests“ aufzulisten

Wenn Sie eine Tabelle auswählen, werden ihre Informationen im SQL-Arbeitsbereich angezeigt. Wählen Sie die Tabelle 311_service_requests, um mehrere Registerkarten zu sehen, die die Tabelle beschreiben, darunter:

  • Schema, das die Spaltennamen im Dataset anzeigt

  • Details, die zusätzliche Metadaten enthalten, wie z.B. das Erstellungsdatum des Datasets

  • Vorschau, die die ersten Zeilen aus dem Dataset anzeigt

The table preview of the 311_service_requests table with the Schema tab open

Außerdem können Sie die Schaltfläche Abfrage in der Menüleiste des SQL-Arbeitsbereichs auswählen, um diese Tabelle abzufragen.

Der SQL-Arbeitsbereich

Der letzte Menübereich in Ihrer Konsole ist der SQL-Arbeitsbereich. Hier werden Sie die Abfragen in BigQuery schreiben und ausführen.

Blank query editor tab

Über den SQL-Arbeitsbereich haben Sie auch Zugriff auf Ihre persönliche und projektbezogene Geschichte, in der ein Datensatz mit den von Ihnen ausgeführten Abfragen gespeichert ist. Dies kann nützlich sein, wenn Sie zu einer Abfrage zurückkehren möchten, um sie erneut auszuführen oder einen Teil davon in einer anderen Abfrage zu verwenden.

Hochladen Ihrer Daten

BigQuery bietet Ihnen nicht nur Zugang zu öffentlichen Datasets, sondern auch die Möglichkeit, Ihre eigenen Daten direkt in Ihren Arbeitsbereich hochzuladen. Rufen Sie diese Funktion auf, indem Sie das Menü + HINZUFÜGEN erneut öffnen oder indem Sie im Explorer-Fenster auf die drei vertikalen Punkte neben dem Namen Ihres Projekts klicken. Dadurch erhalten Sie die Möglichkeit, Ihr eigenes Dataset zu erstellen und Ihre eigenen Tabellen hochzuladen. Sie werden in einer der nächsten Aktivitäten die Möglichkeit haben, Ihre eigenen Daten hochzuladen, um den Umgang mit dieser Funktion zu üben!

Die wichtigsten Erkenntnisse

Mit dem SQL-Arbeitsbereich von BigQuery können Sie nach öffentlichen Datasets suchen, SQL-Abfragen durchführen und sogar Ihre eigenen Daten zur Analyse hochladen. Ganz gleich, ob Sie mit öffentlichen Datasets arbeiten, SQL-Abfragen ausführen oder Ihre eigenen Daten hochladen, der SQL-Arbeitsbereich von BigQuery bietet eine Reihe von Funktionen zur Unterstützung aller Arten von Datenanalyseaufgaben. Während dieses Programms werden Sie BigQuery verwenden, um Ihre SQL-Kenntnisse zu trainieren. Wenn Sie also mit den wichtigsten Komponenten Ihrer BigQuery-Konsole vertraut sind, werden Sie sie in Zukunft effizient nutzen können!

BigQuery in Aktion

Video 103

Eingehende Anleitung: Bewährte SQL-Praktiken

Diese bewährten Verfahren umfassen Richtlinien für die Eingabe von SQL-Abfragen, die Entwicklung von Dokumentation und Beispiele, die diese Verfahren veranschaulichen. Dies ist eine großartige Ressource, wenn Sie SQL selbst verwenden; Sie können einfach direkt zum entsprechenden Abschnitt gehen, um diese Praktiken zu überprüfen. Betrachten Sie es als eine Art SQL-Fachhandbuch!

Großschreibung und Unterscheidung zwischen Groß- und Kleinschreibung

Bei SQL spielt die Großschreibung normalerweise keine Rolle. Sie können SELECT oder select oder SeLeCT eingeben. Sie funktionieren alle! Aber wenn Sie die Großschreibung als Teil eines einheitlichen Stils verwenden, sehen Ihre Abfragen professioneller aus.

Um SQL-Abfragen wie ein Profi einzugeben, sollten Sie Klauseln immer in Großbuchstaben schreiben (z. B. SELECT, FROM, WHERE, usw.). Funktionen sollten ebenfalls in Großbuchstaben geschrieben werden (z. B. SUM()). Spaltennamen sollten in Kleinbuchstaben geschrieben werden (siehe den Abschnitt über snake_case weiter unten in diesem Leitfaden). Tabellennamen sollten in CamelCase geschrieben werden (siehe den Abschnitt über CamelCase weiter unten in diesem Handbuch). Dies trägt dazu bei, dass Ihre Abfragen konsistent und leichter zu lesen sind, ohne Auswirkungen auf die Daten zu haben, die bei der Ausführung gezogen werden. Die Großschreibung spielt nur dann eine Rolle, wenn sie in Anführungszeichen steht (mehr zu Anführungszeichen weiter unten).

Zulieferunternehmen von SQL-Datenbanken verwenden möglicherweise leicht abweichende Varianten von SQL. Diese Variationen werden als SQL-Dialekte bezeichnet. Bei einigen SQL-Dialekten wird zwischen Groß- und Kleinschreibung unterschieden. BigQuery ist einer von ihnen. Vertica ist ein anderer. Die meisten jedoch, wie MySQL, PostgreSQL und SQL Server, unterscheiden nicht zwischen Groß- und Kleinschreibung. Das heißt, wenn Sie nach country_code = ‘us’ suchen, werden alle Einträge mit ‚us‘, ‚uS‘, ‚Us‘ und ‚US‘ zurückgegeben. Das ist bei BigQuery nicht der Fall. BigQuery unterscheidet zwischen Groß- und Kleinschreibung, so dass dieselbe Suche nur Einträge zurückgeben würde, bei denen country_code genau ‚us‘ ist. Wenn country_code gleich ‚US‘ ist, würde BigQuery diese Einträge nicht als Teil des Ergebnisses zurückgeben.

Einfache oder doppelte Anführungszeichen: “ oder “ „

In den meisten Fällen spielt es auch keine Rolle, ob Sie einfache Anführungszeichen ‚ ‚ oder doppelte Anführungszeichen “ „ verwenden, wenn Sie sich auf Zeichenketten beziehen. SELECT ist zum Beispiel ein Klauselstarter. Wenn Sie SELECT in Anführungszeichen setzen, wie ‚SELECT‘ oder „SELECT“, dann wird es von SQL wie eine Textzeichenfolge behandelt. Ihre Abfrage wird einen Fehler zurückgeben, da Ihre Abfrage eine SELECT Klausel benötigt.

Es gibt jedoch zwei Situationen, in denen es wichtig ist, welche Art von Anführungszeichen Sie verwenden:

  1. Wenn Sie wollen, dass Zeichenketten in jedem SQL-Dialekt identifizierbar sind

  2. Wenn Ihre Zeichenkette ein Hochkomma oder Anführungszeichen enthält

Innerhalb jedes SQL-Dialekts gibt es Regeln dafür, was akzeptiert wird und was nicht. Eine allgemeine Regel für fast alle SQL-Dialekte ist jedoch die Verwendung von einfachen Anführungszeichen für Zeichenketten. Dies hilft, eine Menge Verwirrung zu beseitigen. Wenn wir also in einer WHERE -Klausel auf das Land USA verweisen wollen (z. B. country_code = ‚US‘), dann verwenden Sie einfache Anführungszeichen um die Zeichenfolge ‚US‘.

Die zweite Situation ist, wenn Ihre Zeichenkette Anführungszeichen enthält. Angenommen, Sie haben eine Spalte favorite_food in einer Tabelle mit dem Namen FavoriteFoods und die andere Spalte entspricht jeder friend.

freund

bevorzugte_lebensmittel

Rachel DeSantos

Hirtenkuchen

Sujin Lee

Tacos

Najil Okoro

Spanische Paella

Vielleicht fällt Ihnen auf, dass Rachels Lieblingsessen ein Apostroph enthält. Wenn Sie einfache Anführungszeichen in einer WHERE -Klausel verwenden würden, um den Freund zu finden, der dieses Lieblingsessen hat, würde es so aussehen:

 
 
 

Das wird nicht funktionieren. Wenn Sie diese Abfrage ausführen, erhalten Sie eine Fehlermeldung. Das liegt daran, dass SQL eine Textzeichenfolge als etwas erkennt, das mit einem Anführungszeichen beginnt und mit einem weiteren Anführungszeichen endet. In der obigen fehlerhaften Abfrage denkt SQL also, dass die favorite_food, nach der Sie suchen, ‚Shepherd‘ ist, weil das Apostroph in Shepherd’sdie Zeichenkette beendet.

Im Allgemeinen sollte dies das einzige Mal sein, dass Sie doppelte Anführungszeichen anstelle von einfachen Anführungszeichen verwenden. Ihre Abfrage würde also stattdessen so aussehen:

 
 
 

SQL versteht Textzeichenfolgen so, dass sie entweder mit einem einfachen Anführungszeichen oder einem doppelten Anführungszeichen beginnen. Da dieser String mit doppelten Anführungszeichen beginnt, erwartet SQL ein weiteres doppeltes Anführungszeichen, um das Ende des Strings zu signalisieren. So bleibt das Hochkomma sicher, und es wird „Shepherd’s pie“ und nicht „Shepherd“ zurückgegeben.

Kommentare als Gedächtnisstütze

Mit zunehmender Vertrautheit mit SQL werden Sie in der Lage sein, Abfragen auf einen Blick zu lesen und zu verstehen. Aber es schadet nie, Kommentare in die Abfrage einzufügen, um sich daran zu erinnern, was Sie eigentlich tun wollen. Und wenn Sie Ihre Abfrage teilen, hilft das auch anderen, sie zu verstehen.

Ein Beispiel:

 
 
 

Sie können in der obigen Abfrage # anstelle der beiden Bindestriche, , verwenden, aber bedenken Sie, dass # nicht in allen SQL-Dialekten erkannt wird (MySQL erkennt # nicht an). Daher ist es am besten, zu verwenden und damit konsistent zu sein. Wenn Sie mit einen Kommentar zu einer Abfrage hinzufügen, ignoriert die Datenbank-Abfrage-Engine alles, was in der gleichen Zeile nach steht. Sie setzt den Prozess der Abfrage ab der nächsten Zeile fort.

snake_case Namen für Spalten

Es ist wichtig, immer darauf zu achten, dass die Ausgabe Ihrer Abfrage leicht verständliche Namen hat. Wenn Sie eine neue Spalte erstellen (z. B. aus einer Berechnung oder aus der Verkettung neuer Felder), erhält die neue Spalte einen generischen Standardnamen (z. B. f0). Ein Beispiel:

 
 
 

Ergebnisse sind:

f0

f1

gesamt_Karten

anzahl_der_Käufe

8

4

8

4

Die ersten beiden Spalten heißen f0 und f1, da sie in der obigen Abfrage nicht benannt wurden. SQL gibt standardmäßig f0, f1, f2, f3, usw. vor. Wir haben die letzten beiden Spalten total_tickets und number_of_purchases genannt, damit diese Spaltennamen in den Abfrageergebnissen auftauchen. Aus diesem Grund ist es immer gut, den Spalten nützliche Namen zu geben, besonders wenn Sie Funktionen verwenden. Nachdem Sie Ihre Abfrage ausgeführt haben, sollten Sie in der Lage sein, Ihre Ergebnisse schnell zu verstehen, wie die letzten beiden Spalten, die wir im Beispiel beschrieben haben.

Außerdem ist Ihnen vielleicht aufgefallen, dass die Spaltennamen einen Unterstrich zwischen den Wörtern haben. Namen sollten niemals Leerzeichen enthalten. Wenn total_tickets ein Leerzeichen enthielte und wie total tickets aussähe, würde SQL einen Syntaxfehler ausgeben, weil es nicht wüsste, was es mit dem zweiten Wort (tickets) anfangen sollte. Leerzeichen sind also in SQL-Namen nicht gut. Verwenden Sie niemals Leerzeichen.

Die beste Praxis ist die Verwendung von snake_case. Das bedeutet, dass „total tickets“, das ein Leerzeichen zwischen den beiden Wörtern enthält, als total_tickets mit einem Unterstrich anstelle eines Leerzeichens eingegeben werden sollte.

CamelCase-Namen für Tabellen

Sie können bei der Benennung Ihrer Tabelle auch die Großschreibung CamelCase verwenden. CamelCase-Großschreibung bedeutet, dass Sie den Anfang eines jeden Wortes groß schreiben, wie ein zweihöckriges (baktrisches) Kamel. In der Tabelle TicketsByOccasion wird also CamelCase-Großschreibung verwendet. Bitte beachten Sie, dass die Großschreibung des ersten Wortes in CamelCase optional ist ; camelCase wird ebenfalls verwendet. Einige Leute unterscheiden zwischen den beiden Stilen, indem sie CamelCase, PascalCase, nennen und camelCase für den Fall reservieren, dass das erste Wort nicht groß geschrieben wird, wie bei einem einhöckrigen (Dromedar) Kamel; zum Beispiel ticketsByOccasion.

Letzten Endes ist CamelCase eine Stilentscheidung. Es gibt noch andere Möglichkeiten, wie Sie Ihre Tabellen benennen können, zum Beispiel:

  • Alle Klein- oder Großbuchstaben, wie ticketsbyoccasion oder TICKETSBYOCCASION

  • Mit snake_case, wie tickets_by_occasion

Beachten Sie, dass die Option mit ausschließlich Klein- oder Großbuchstaben die Lesbarkeit Ihres Tabellennamens erschweren kann und daher für den professionellen Gebrauch nicht empfohlen wird.

Die zweite Option, snake_case, ist technisch in Ordnung. Mit durch Unterstriche getrennten Wörtern ist Ihr Tabellenname leicht zu lesen, aber er kann sehr lang werden, weil Sie die Unterstriche hinzufügen. Außerdem nimmt die Eingabe mehr Zeit in Anspruch. Wenn Sie diese Tabelle häufig verwenden, kann das zu einer lästigen Pflicht werden.

Zusammenfassend lässt sich sagen, dass es Ihnen überlassen ist, ob Sie beim Erstellen von Tabellennamen snake_case oder CamelCase verwenden. Achten Sie nur darauf, dass Ihr Tabellenname leicht zu lesen und einheitlich ist. Erkundigen Sie sich auch, ob Ihr Unternehmen eine bevorzugte Methode zur Benennung seiner Tabellen hat. Wenn dies der Fall ist, sollten Sie aus Gründen der Einheitlichkeit immer deren Namenskonvention verwenden.

Einrückung

Als allgemeine Regel gilt, dass die Länge jeder Zeile in einer Abfrage <= 100 Zeichen betragen sollte. Dies erleichtert die Lesbarkeit Ihrer Abfragen. Sehen Sie sich zum Beispiel diese Abfrage mit einer Zeilenlänge von mehr als 100 Zeichen an:

 
 
 

Diese Abfrage ist schwer zu lesen und ebenso schwer zu beheben oder zu bearbeiten. Hier nun eine Abfrage, bei der wir uns an die Regel <= 100 Zeichen halten:

 
 
 

Jetzt ist es viel einfacher zu verstehen, was Sie mit der SELECT Klausel bezwecken. Sicher, beide Abfragen werden problemlos ausgeführt, da die Einrückung in SQL keine Rolle spielt. Aber eine korrekte Einrückung ist trotzdem wichtig, um die Zeilen kurz zu halten. Und sie wird von jedem, der Ihre Abfrage liest, geschätzt, auch von Ihnen selbst!

Mehrzeilige Kommentare

Wenn Sie Kommentare schreiben, die mehrere Zeilen umfassen, können Sie für jede Zeile verwenden. Bei mehr als zweizeiligen Kommentaren ist es vielleicht sauberer und einfacher, den Kommentar mit /* zu beginnen und mit */ abzuschließen. Sie können zum Beispiel die — Methode wie unten verwenden:

 
 
 

Oder Sie können die Methode /* */ wie unten verwenden:

 
 
 

In SQL spielt es keine Rolle, welche Methode Sie verwenden. SQL ignoriert Kommentare unabhängig davon, was Sie verwenden: #, , oder /* und */. Es hängt also von Ihnen und Ihren persönlichen Vorlieben ab. Die Methode /* und */ für mehrzeilige Kommentare sieht normalerweise sauberer aus und hilft, die Kommentare von der Abfrage zu trennen. Aber es gibt nicht die eine richtige oder falsche Methode.

SQL-Texteditoren

Wenn Sie einem Unternehmen beitreten, können Sie davon ausgehen, dass jedes Unternehmen seine eigene SQL-Plattform und seinen eigenen SQL-Dialekt verwendet. Die von ihnen verwendete SQL-Plattform (z. B. BigQuery, MySQL oder SQL Server) ist der Ort, an dem Sie Ihre SQL-Abfragen eingeben und ausführen werden. Beachten Sie jedoch, dass nicht alle SQL-Plattformen native Scripting-Editoren zur Eingabe von SQL-Code bereitstellen. SQL-Texteditoren bieten Ihnen eine Schnittstelle, über die Sie Ihre SQL-Abfragen auf einfachere und farblich gekennzeichnete Weise eingeben können. In der Tat wurde der gesamte Code, mit dem wir bisher gearbeitet haben, mit einem SQL-Texteditor eingegeben!

Beispiele mit Sublime Text

Wenn Ihre SQL Plattform kein farbliches Coding bietet, sollten Sie vielleicht über die Verwendung eines Texteditors wie Sublime Text oder Atomdieser Abschnitt zeigt, wie SQL in Sublime Text dargestellt wird. Hier ist eine Abfrage in Sublime Text:

Mit Sublime Text können Sie auch fortgeschrittene Bearbeitungen vornehmen, wie z.B. das gleichzeitige Löschen von Einrückungen in mehreren Zeilen. Nehmen wir zum Beispiel an, Ihre Abfrage hatte Einrückungen an den falschen Stellen und sah wie folgt aus:

Das ist wirklich schwer zu lesen, also sollten Sie diese Einrückungen entfernen und von vorne beginnen. In einer normalen SQL-Plattform müssten Sie in jede Zeile gehen und BACKSPACE drücken, um jeden Einzug pro Zeile zu löschen. In Sublime können Sie jedoch alle Einrückungen auf einmal entfernen, indem Sie alle Zeilen markieren und die Tastenkombination Befehl (oder STRG in Windows) + [ drücken. Dadurch werden die Einrückungen in jeder Zeile entfernt. Anschließend können Sie die Zeilen auswählen, die Sie einrücken möchten (d. h. die Zeilen 2, 4 und 6), indem Sie die Befehlstaste (bzw. die STRG-Taste in Windows) drücken und diese Zeilen markieren. Halten Sie dann immer noch die Befehlstaste (bzw. die STRG-Taste in Windows) gedrückt und drücken Sie ], um die Zeilen 2, 4 und 6 gleichzeitig einzurücken. Dadurch wird Ihre Abfrage bereinigt und sieht stattdessen wie folgt aus:

Sublime Text unterstützt auch reguläre Ausdrücke. Reguläre Ausdrücke (oder regex) können verwendet werden, um nach Zeichenkettenmustern in Abfragen zu suchen und diese zu ersetzen. Wir werden hier nicht auf reguläre Ausdrücke eingehen, aber vielleicht möchten Sie selbst mehr darüber lernen, denn sie sind ein sehr mächtiges Werkzeug.

Sie können mit diesen Ressourcen beginnen:

Glossarbegriffe aus Modul 3

Begriffe und Definitionen für Kurs 3, Modul 3

Administrative Metadaten: Metadaten, die die technische Quelle eines digitalen Assets angeben

CSV-Datei (comma-separated values, kommagetrennte Werte): Eine durch Komma getrennte Textdatei, in der die Werte durch ein Komma getrennt sind

Daten-Governance: Ein Prozess zur Sicherstellung der formalen Verwaltung der Daten-Assets eines Unternehmens

Beschreibende Metadaten: Metadaten, die einen Teil der Daten beschreiben und zu einem späteren Zeitpunkt zur Identifizierung verwendet werden können

Fremdschlüssel: Ein Feld innerhalb einer Datenbanktabelle, das ein Primärschlüssel in einer anderen Tabelle ist (siehe Primärschlüssel)

FROM: Der Abschnitt einer Abfrage, der angibt, woher die ausgewählten Daten stammen

Geolokalisierung: Der geografische Standort einer Person oder eines Geräts anhand von digitalen Informationen

Metadaten: Daten über Daten

Metadaten-Repository: Eine Datenbank, in der Metadaten gespeichert werden

Namenskonventionen: Einheitliche Richtlinien, die den Inhalt, das Erstellungsdatum und die Version einer Datei in ihrem Namen beschreiben

Normalisierte Datenbank: Eine Datenbank, in der in jeder Tabelle nur zusammengehörige Daten gespeichert werden

Notizbuch: Eine interaktive, bearbeitbare Programmierumgebung zur Erstellung von Datenberichten und zur Demonstration von Datenkenntnissen

Primärschlüssel: Ein Bezeichner in einer Datenbank, der auf eine Spalte verweist, in der jeder Wert eindeutig ist (siehe Fremdschlüssel)

Redundanz: Wenn ein und dieselben Daten an zwei oder mehr Stellen gespeichert sind

Schema: Eine Art zu beschreiben, wie etwas, z. B. Daten, organisiert ist

SELECT: Der Abschnitt einer Abfrage, der die Teilmenge eines Datasets angibt

Strukturelle Metadaten: Metadaten, die angeben, wie ein Teil der Daten organisiert ist und ob er Teil einer oder mehrerer Datensammlungen ist

WHERE: Der Abschnitt einer Abfrage , der Kriterien angibt, die die angeforderten Daten erfüllen müssen

Weltgesundheitsorganisation (WHO): Eine Organisation, deren Hauptaufgabe darin besteht, das internationale Gesundheitswesen innerhalb des Systems der Vereinten Nationen zu leiten und zu koordinieren

Fühlen Sie sich sicher in Ihren Daten

Video 104

Organisieren wir uns

Video 105

Richtlinien zur Dateiorganisation

Das Ziel jeder Fachkraft für Datenanalyse ist es, eine effiziente Datenanalyse durchzuführen. Eine Möglichkeit, die Effizienz Ihrer Analysen zu steigern, ist die Rationalisierung von Prozessen, die auf lange Sicht Zeit und Energie sparen. Aussagekräftige, logische und konsistente Dateinamen helfen Fachkräften für Datenanalyse, ihre Daten zu organisieren und ihren Prozess zu automatisieren. Wenn Sie konsistente Richtlinien zur Beschreibung des Inhalts, des Datums oder der Version einer Datei und ihres Namens verwenden, sprechen Sie von Namenskonventionen für Dateien.

In dieser Lektüre erfahren Sie mehr über bewährte Verfahren für Namenskonventionen und die Organisation von Dateien.

This image is a white circle with a gray outline and green check mark at the center to check off a bulleted list item.

Bewährte Verfahren für die Benennung von Dateien

Namenskonventionen für Dateien helfen Ihnen beim Organisieren, Zugreifen, Verarbeiten und Analysieren von Daten, da sie als schnelle Referenzpunkte dienen, um zu erkennen, was in einer Datei enthalten ist. Eine wichtige Vorgehensweise besteht darin, sich bereits zu Beginn eines Projekts – als Team oder Unternehmen – auf Namenskonventionen für Dateien zu einigen. Dadurch vermeiden Sie, dass Sie später Zeit mit der Aktualisierung von Dateinamen verbringen, was ein zeitaufwändiger Prozess sein kann. Darüber hinaus sollten Sie die Dateinamen Ihres Projekts an die bestehenden Namenskonventionen Ihres Teams oder Unternehmens anpassen. Sie möchten nicht jedes Mal, wenn Sie eine Datei in einem neuen Projekt nachschlagen, Zeit damit verbringen, eine neue Dateinamenskonvention zu lernen!

Außerdem ist es wichtig, dass die Dateinamen aussagekräftig, konsistent und leicht zu lesen sind. Dateinamen sollten Folgendes enthalten:

  • Den Namen des Projekts
  • Das Erstellungsdatum der Datei
  • Version der Revision
  • Einheitlicher Stil und Reihenfolge

Außerdem sollten die Namenskonventionen für Dateien als schnelle Referenzpunkte dienen, um den Inhalt der Datei zu identifizieren. Aus diesem Grund sollten sie kurz und prägnant sein.

In den folgenden Abschnitten werden Sie die einzelnen Bestandteile eines Dateinamens für einen Umsatzbericht kennenlernen, der einer etablierten Namenskonvention folgt: SalesReport_20231125_v02. Anhand dieses Beispiels werden Sie die Schlüsselteile eines aussagekräftigen Dateinamens verstehen und wissen, warum sie wichtig sind.

Name

Wenn Sie einer Datei einen aussagekräftigen Namen geben, um ihren Inhalt zu beschreiben, ist die Suche nach der Datei einfach. Außerdem lässt sich so leicht erkennen, welche Art von Daten die Datei enthält.

In diesem Beispiel enthält der Dateiname den Text SalesReport, eine knappe Beschreibung des Inhalts der Datei: ein Verkaufsbericht.

Erstellungsdatum

Wenn Sie wissen, wann eine Datei erstellt wurde, können Sie feststellen, ob sie für Ihre aktuelle Analyse relevant ist. Zum Beispiel könnten Sie nur Daten aus dem Jahr 2023 analysieren wollen.

In dem Beispiel wird das Jahr als 20231125 bezeichnet . Dies liest sich wie der Umsatzbericht vom 25. November 2023 nach dem Format Jahr, Monat und Tag (JJJJMMTT) des internationalen Datumsstandards. Denken Sie daran, dass verschiedene Länder unterschiedliche Datumskonventionen verwenden. Vergewissern Sie sich also, dass Sie den Datumsstandard kennen, den Ihr Unternehmen verwendet.

Version der Revision

Durch die Angabe einer Version können Sie sicherstellen, dass Sie mit der richtigen Datei arbeiten. Sie wollen doch nicht unbemerkt Änderungen an einer alten Version einer Datei vornehmen! Wenn Sie Revisionsnummern in einem Dateinamen angeben, beginnen Sie mit einer Null. Wenn Ihr Team mehr als neun Revisionsrunden erreicht, sind auf diese Weise bereits zweistellige Zahlen in Ihre Konvention eingebaut.

In diesem Beispiel wird die Version als v02 bezeichnet. Das v ist die Abkürzung für die Version der Datei, und die Zahl nach dem v gibt an, in welcher Revisionsrunde sich die Datei gerade befindet.

Einheitliche Reihenfolge und Stil

Achten Sie darauf, dass die Informationen, die Sie in einem Dateinamen angeben, in einer einheitlichen Reihenfolge stehen. Sie würden zum Beispiel nicht wollen, dass die dritte Version des Umsatzberichts aus dem Beispiel den Titel 20231125_v03_SalesReport trägt. Es wäre schwierig, mehrere Dokumente zu finden und zu vergleichen.

Wenn Sie Leerzeichen und Sonderzeichen in einem Dateinamen verwenden, kann die Software diese möglicherweise nicht erkennen, was in manchen Apps zu Problemen und Fehlern führt. Eine Alternative ist die Verwendung von Bindestrichen, Unterstrichen und Großbuchstaben. Das Beispiel enthält Unterstriche zwischen den einzelnen Informationen, aber Ihr Team könnte auch Bindestriche zwischen Jahr, Monat und Datum verwenden: SalesReport_2023_11_25_v02.

Sorgen Sie für Einheitlichkeit im Team

Um sicherzustellen, dass alle Teammitglieder die vereinbarten Namenskonventionen für Dateien verwenden, erstellen Sie eine Textdatei als Stichprobe, die alle Namenskonventionen für ein Projekt enthält. Dies kann neuen Teammitgliedern helfen, sich schnell zurechtzufinden, oder Teammitgliedern, die eine Auffrischung der Namenskonventionen für Dateien benötigen.

Dateiorganisation

Um Ihre Dateien zu organisieren, erstellen Sie Ordner und Unterordner in einer logischen Hierarchie, um sicherzustellen, dass zusammengehörige Dateien zusammen gespeichert werden und später leicht gefunden werden können. Eine Hierarchie ist eine Art der Organisation von Dateien und Ordnern. Übergeordnete Ordner befinden sich an der Spitze der Hierarchie, und spezifischere Unterordner und Dateien sind in diesen Ordnern enthalten. Jeder Ordner kann weitere Ordner und Dateien enthalten. So können Sie zusammengehörige Dateien gruppieren und die benötigten Dateien leichter finden. Außerdem empfiehlt es sich, abgeschlossene Dateien getrennt von laufenden Dateien zu speichern, damit Sie die benötigten Dateien leicht finden können. Archivieren Sie ältere Dateien in einem separaten Ordner oder an einem externen Speicherort.

Die wichtigsten Erkenntnisse

Verwenden Sie während des gesamten Projekts einheitliche, aussagekräftige Namenskonventionen für Dateien, damit Sie und Ihr Team Zeit sparen und die Daten leicht auffinden und verwenden können. Die Namenskonventionen für Dateien sollten von allen Teammitgliedern vor Beginn eines Projekts vereinbart werden und das Projekt mit seinem Namen, dem Datum und der Version der Revision beschreiben. Dokumentieren Sie diese Informationen an einem Ort, auf den die Teammitglieder zugreifen können.

Sicherheitsfunktionen in Tabellenkalkulationen

Video 106