Syllabus des Kurses

 

In früheren Kursen haben Sie gelernt, wie man strukturiertes Denken einsetzt, um Geschäftsprobleme zu lösen, wie man Daten in Tabellen und Datenbanken aufbereitet, bereinigt, umwandelt und analysiert und wie man effektive Data Stories erzählt. Als Teil Ihrer wachsenden Fähigkeiten haben Sie auch gelernt, wie man dynamische und interaktive Datenvisualisierungen in Tableau erstellt. Bisher waren die Fähigkeiten, die Sie erlernt haben, eng mit den Funktionen und Möglichkeiten von Tabellenkalkulationen, SQL-Datenbanken und Tableau verbunden. Was aber, wenn Sie mit Ihren Daten auf individuellere Weise arbeiten möchten? Oder was ist, wenn die Standard-Tools nicht genau die Funktionen bieten, die Sie benötigen? In diesem Fall kann die Programmiersprache R sehr hilfreich sein. Mit R gewinnen Sie zusätzliche Flexibilität und Kontrolle über Ihre Daten und Analysen.

A list of all 8 courses. Course 7 (data analysis with R programming) is highlighted.
  1. Grundlagen: Daten, Daten, überall

  2. Fragen stellen, um datengesteuerte Entscheidungsfindungen zu treffen

  3. Daten für die Erforschung vorbereiten

  4. Daten von schmutzigen zu bereinigten Daten verarbeiten

  5. Analysieren Sie Daten, um Fragen zu beantworten

  6. Daten durch die Kunst der Visualisierung weitergeben

  7. Datenanalyse mit R-Programmierung (dieser Kurs)

  8. Google Data Analytics Capstone: Vervollständigen Sie eine Fallstudie

In diesem Kurs lernen Sie, wie Sie die Programmiersprache R verwenden, um mit Ihren Daten ohne Tool-Einschränkungen zu arbeiten. Sie erhalten viel Übung im Umgang mit R für statistische Analysen und RStudio, einer integrierten Entwicklungsumgebung (IDE) für R, mit der Sie fortgeschrittene Datenvisualisierungen mit vielen Details erstellen können. R macht es einfacher, Ihre Daten in einem schönen, künstlerischen Stil zu präsentieren. Einige weitere Vorteile von R sind:

  • Beliebtheit: R wird häufig für die Datenanalyse verwendet

  • Tools: R verfügt über eine praktische Mediathek mit gebrauchsfertigen Tools zur Datenbereinigung und -analyse

  • Schwerpunkt: R wurde mit Blick auf die Statistik entwickelt; Fachkräfte für Datenanalyse können bequem eine umfangreiche Mediathek mit statistischen Routinen nutzen

  • Anpassungsfähigkeit: R eignet sich gut für den Einsatz in Projekten zum maschinellen Lernen und zur Datenanalyse

  • Verfügbarkeit: R ist eine Open-Source Programmiersprache

Nachdem Sie sich mit R und RStudio vertraut gemacht haben, werden Sie vielleicht neugierig darauf, weitere Programmiersprachen zu erlernen und Ihrem Kompetenzspektrum (und Lebenslauf) hinzuzufügen. Ziemlich aufregend, oder?

Inhalt des Kurses

Kurs 7 – Datenanalyse mit R-Programmierung

  1. Verstehen der Grundlagen von R: R ist eine Programmiersprache, mit der Sie Aufgaben in jeder Phase des Prozesses der Datenanalyse durchführen können. In diesem Teil des Kurses lernen Sie R und RStudio kennen, eine integrierte Entwicklungsumgebung (IDE) für R. Sie werden die Vorteile der Verwendung von RStudio bei der Arbeit mit R kennenlernen. Mit RStudio können Sie die Funktionen von R problemlos nutzen.

  2. Programmierung mit RStudio: In diesem Teil des Kurses lernen Sie die grundlegenden Konzepte von R kennen. Sie erfahren etwas über Funktionen und Variablen, die Sie bei Ihren Berechnungen und anderen Programmierungen verwenden können. Sie lernen auch die R-Pakete kennen, d.h. Sammlungen von R-Funktionen, Code und Stichproben, die Sie in RStudio verwenden können.

  3. Arbeiten mit Daten in R: Die Programmiersprache R wurde für die Arbeit mit Daten in allen Phasen des Datenanalyseprozesses entwickelt. In diesem Teil des Kurses werden Sie untersuchen, wie R Ihnen helfen kann, Ihre Daten durch Funktionen und andere Prozesse zu strukturieren, zu organisieren und zu bereinigen. Sie lernen Dataframes kennen und erfahren, wie Sie mit ihnen in R arbeiten können. Sie werden auch das Konzept der Datenverzerrung wieder aufgreifen und erfahren, wie Sie R einsetzen können, um diese zu beseitigen.

  4. Visualisierungen, Ästhetik und Anmerkungen: R ist ein großartiges Werkzeug für die Erstellung detaillierter Visualisierungen. In diesem Teil des Kurses lernen Sie, wie Sie mit R Visualisierungen erstellen und Fehlerbehebungen vornehmen. Sie werden auch die Funktionen von R und RStudio kennenlernen, mit denen Sie die Ästhetik Ihrer Visualisierungen verbessern können. Sie werden lernen, wie Sie Visualisierungen mit Anmerkungen versehen und die Änderungen speichern.

  5. Dokumentation und Berichte: R verfügt über eine Reihe verschiedener Optionen, die Sie erkunden können, wenn Sie bereit sind, Ihre Analyse zu speichern und zu präsentieren. In diesem Teil des Kurses lernen Sie R Markdown kennen, ein Dateiformat für die Erstellung dynamischer Dokumente mit R. Sie erfahren, wie Sie R Markdown formatieren und exportieren und R Code-Chunks in Ihre Dokumente einbauen.

  6. Herausforderung des Kurses: Am Ende des Kurses werden Sie alles, was Sie gelernt haben, in der Kursherausforderung anwenden. Die Kursherausforderung stellt Ihnen Fragen zu den Schlüsselqualifikationen, die Sie geübt haben, und gibt Ihnen die Möglichkeit, diese Fähigkeiten in drei Szenarien zu demonstrieren.

Sind Sie bereits mit der Programmierung in R vertraut?

Wenn Sie bereits mit R und RStudio gearbeitet haben, werden Sie die ersten beiden Module dieses Kurses vielleicht als Wiederholung grundlegender Themen empfinden, die Sie bereits verstehen. Sie können diese grundlegenden Videos und Lektüren überspringen und mit den Modulaufgaben für Modul 1 und Modul 2 fortfahren. Die Modulaufgaben helfen Ihnen, sich auf die Kursaufgabe am Ende dieses Kurses vorzubereiten. Um das Zertifikat zu erhalten, müssen Sie bei allen benoteten Aktivitäten des Programms mindestens 80 % erreichen.

Was Sie erwarten können

Sie können davon ausgehen, dass Sie diesen Kurs in etwa vier bis fünf Wochen abschließen werden. Dazu müssen Sie alle Aktivitäten absolvieren, einschließlich:

  • Videos von Ausbildern, die neue Konzepte vermitteln und die Verwendung von Tools demonstrieren

  • In-Video-Fragen , die während oder am Ende eines Videos auftauchen, um Ihren Lernstand zu überprüfen

  • Lesungen zur Einführung neuer Ideen und zur Vertiefung der Konzepte aus den Videos

  • Diskussionsforen, um neue Ideen zu diskutieren, zu erforschen und zu festigen, um besser zu lernen

  • Diskussionsprompts zur Förderung des Denkens und der Einbindung in die Diskussionsforen

  • Qwiklabs zur Einführung in reale Situationen am Arbeitsplatz und die Tools und Aufgaben zur Erledigung von Aufträgen

  • Übungstests zur Vorbereitung auf benotete Tests

  • Praktische Aktivitäten zur Festigung der erlernten Fähigkeiten für die benoteten Tests

  • Benotete Quizfragen, um Ihre Fortschritte zu messen und Ihnen wertvolles Feedback zu geben

Praktische Übungen bieten Ihnen zusätzliche Möglichkeiten, Ihre Fähigkeiten auszubauen, also versuchen Sie, so viel wie möglich davon zu nutzen. Die Beurteilungen basieren auf dem Ansatz des Kurses, eine große Vielfalt an Lernmaterialien und Aktivitäten anzubieten, die wichtige Fähigkeiten verstärken. Benotete und unbenotete Quizfragen helfen Ihnen, den Inhalt zu verinnerlichen und wichtige Fähigkeiten zu festigen. Unbenotete Übungstests bieten Ihnen die Möglichkeit, sich auf die benoteten Tests vorzubereiten, und sowohl die benoteten als auch die unbenoteten Tests können mehrmals absolviert werden.

Zur Erinnerung: Dieser Kurs richtet sich an alle Lerntypen, d.h. es sind weder ein Hochschulabschluss noch Vorkenntnisse erforderlich. Jeder Mensch lernt anders, und das Google Data Analytics-Zertifikat wurde unter Berücksichtigung dieser Tatsache entwickelt. Die persönlichen Fristen sind nur ein Anhaltspunkt, also arbeiten Sie ruhig in Ihrem eigenen Tempo. Für verspätete Aufgaben gibt es keine Strafe. Wenn Sie möchten, können Sie Ihre Fristen verlängern, indem Sie im Navigationsbereich zur Übersicht zurückkehren und auf Sitzungen wechseln klicken. Wenn Sie bereits frühere Fristen verpasst haben, klicken Sie stattdessen auf Meine Fristen zurücksetzen.

Wenn Sie sich frühere Inhalte ansehen oder einen Blick auf kommende Inhalte werfen möchten, können Sie die Navigationslinks oben auf dieser Seite verwenden, um zu einem anderen Kurs des Programms zu wechseln. Wenn Sie alle erforderlichen Aufgaben erfüllt haben, sind Sie auf dem besten Weg, Ihr Zertifikat zu erhalten.

Tipps

  • Versuchen Sie, alle Aufgaben in der richtigen Reihenfolge zu erledigen, da neue Informationen immer auf den vorherigen Lektionen aufbauen.

  • Behandeln Sie jede Aufgabe so, als ob es sich um eine praktische Erfahrung handeln würde. Stellen Sie sich vor, dass Sie in einem Unternehmen oder in einer Organisation als Fachkraft für Datenanalyse arbeiten. Das wird Ihnen helfen, das, was Sie in diesem Programm lernen, in der realen Welt anzuwenden.

  • Wiederholen Sie die gezeigten Aufgaben für sich selbst, um noch mehr zu üben und schneller zu werden. Nachdem Sie zum Beispiel ein- oder zweimal einem Video gefolgt sind, um die gezeigten Aufgaben auszuführen, versuchen Sie, die gleichen Aufgaben ohne das Video abzuspielen und sich von den Prompts des Kursleiters helfen zu lassen.

  • Auch wenn sie nicht benotet werden, sollten Sie unbedingt an allen Übungsaktivitäten teilnehmen und diese abschließen. Sie werden Ihnen helfen, eine solide Grundlage als Fachkraft für Datenanalyse zu schaffen und Sie auf die benoteten Prüfungen vorzubereiten.

  • Nutzen Sie alle zusätzlich zur Verfügung gestellten Ressourcen, einschließlich Diskussionsforen und Links zu externen Artikeln für weitere Informationen.

  • Wenn Sie im Kurs auf nützliche Links stoßen, denken Sie daran, diese mit einem Lesezeichen zu versehen, damit Sie die Informationen zum Studium oder zur Wiederholung nachschlagen können.

  • Die zusätzlichen Ressourcen sind kostenlos, aber einige Websites haben ein LIMIT, wie viele Artikel Sie pro Monat kostenlos abrufen können. Manchmal können Sie sich auf der Website registrieren, um vollen Zugriff zu erhalten, aber Sie können auch jederzeit ein Lesezeichen setzen und später darauf zurückkommen, um sie anzusehen.

  • Maximieren Sie den Wert praktischer Aktivitäten. Praktische Aktivitäten ergänzen die gezeigten Aufgaben, indem sie zum zusätzlichen Üben mit ähnlichen Szenarien anregen. Die Syntax einer Programmiersprache wird für Sie umso selbstverständlicher, je mehr Sie mit ihr üben.

  • Legen Sie ein Notizbuch oder ein Dokument an, in dem Sie die Dinge festhalten, die Sie sich über die Syntax von R merken müssen. Dies wird ein praktisches und persönliches Nachschlagewerk sein, das Sie während des gesamten Programms und auch später jederzeit verwenden können.

Die R-gegen-Python Debatte

Viele Menschen fragen sich, welche Programmiersprache sie zuerst lernen sollten. Vielleicht fragen Sie sich das auch. Dieses Zertifikat lehrt die Open-Source-Programmiersprache R. R ist ein guter Ausgangspunkt für grundlegende Datenanalysen und verfügt über hilfreiche Pakete, die Anfänger auf Projekte anwenden können. Python steht nicht auf dem Lehrplan, aber wir ermutigen Sie, Python nach Abschluss des Zertifikats zu erkunden. Wenn Sie neugierig auf andere Programmiersprachen sind, sollten Sie alles daran setzen, sich weiterzubilden.

Jede Sprache, die ein Anfänger zu lernen beginnt, hat einige Vorteile und Herausforderungen. Lassen Sie uns dies anhand von R und Python in den Kontext stellen. Die folgende Tabelle ist eine Übersicht auf hohem Niveau, die auf einer Auswahl von Artikeln und Meinungen von Fachleuten aus der Branche basiert. Sie können sich die Informationen ansehen, ohne sich unbedingt für eine Seite in der Debatte R vs. Python entscheiden zu müssen. Wenn Sie sich den Blog-Artikel von RStudio im Abschnitt Zusätzliche Ressourcen ansehen, geht es tatsächlich mehr um die Zusammenarbeit als um den Sieg in einer Debatte.

Sprachen

R

Python

Gemeinsame Funktionen

– Open-Source – Daten in Dataframes gespeichert – Leicht verfügbare Formeln und Funktionen – Gemeinschaft für Coding-Entwicklung und Support

– Open-Source – In Dataframes gespeicherte Daten – Leicht verfügbare Formeln und Funktionen – Gemeinschaft für Coding-Entwicklung und Support

Eindeutige Vorteile

– Datenmanipulation, Datenvisualisierung und Statistik-Pakete – „Skalpell“-Ansatz für Daten: Finden Sie Pakete, die das tun, was Sie mit den Daten wollen

– Einfache Syntax für die Anforderungen des maschinellen Lernens – Integriert sich in Cloud Plattformen wie Google

Cloud, Amazon Web Services und Azure

Eindeutige Herausforderungen

– Inkonsistente Namenskonventionen erschweren es Anfängern, die richtigen Funktionen auszuwählen – Die Methoden für den Umgang mit Variablen sind für Anfänger möglicherweise etwas kompliziert zu verstehen

– Viele weitere Entscheidungen über Dateneingabe/-ausgabe, Struktur, Variablen, Pakete und Objekte, die Anfänger treffen müssen – der „Schweizer Taschenmesser“-Ansatz für Daten: Finden Sie heraus

einen Weg, um mit den Daten zu machen, was Sie wollen

Zusätzliche Ressourcen

Weitere Informationen zum Vergleich von R und Python finden Sie in diesen Ressourcen:

Die wichtigsten Erkenntnisse

Manche Programmiersprachen sind aufgrund bestimmter Aspekte leichter zu erlernen als andere. Das bedeutet aber nicht, dass die schwierigeren Sprachen für Anfänger unmöglich zu erlernen sind. Andererseits macht die Beliebtheit einer Programmiersprache diese auch nicht immer zur besten Sprache für Anfänger.

R wird von Fachleuten verwendet, die einen statistischen oder forschungsorientierten Ansatz zur Lösung von Problemen haben; dazu gehören Wissenschaftler, Statistiker und Ingenieure. Python wird von Fachleuten verwendet, die nach Lösungen in den Daten selbst suchen, also von denjenigen, die Daten intensiv nach Antworten durchsuchen müssen; dazu gehören Datenwissenschaftler, Spezialisten für maschinelles Lernen und Softwareentwickler.

Wenn Sie sich als Data Analytics-Experte weiterentwickeln, müssen Sie möglicherweise weitere Programmiersprachen erlernen. Die Fähigkeiten und Kompetenzen, die Sie bei Ihrer ersten Erfahrung mit der Programmierung erlernen, sind eine gute Grundlage. Deshalb konzentriert sich dieser Kurs auf die Grundlagen von R. Sie können die richtige Perspektive entwickeln, dass Programmiersprachen eine wichtige Rolle im Prozess der Datenanalyse spielen, egal welche Berufsbezeichnung Sie haben.

Die gute Nachricht ist, dass viele der Konzepte und Coding-Prinzipien, die Sie in diesem Kurs bei der Verwendung von R lernen werden, auf andere Programmiersprachen übertragbar sind. Sie werden auch lernen, wie Sie R Code in einer Integrierten Entwicklungsumgebung (IDE) namens RStudio schreiben können. Mit RStudio können Sie Projekte verwalten, die R oder Python oder sogar eine Kombination aus beidem verwenden. Siehe RStudio: A Single Home for R & Python für weitere Informationen. Nachdem Sie also mit R und RStudio gearbeitet haben, wird das Erlernen von Python oder einer anderen Programmiersprache in Zukunft intuitiver sein.

Einen besseren Überblick über beliebte Programmiersprachen nach Rolle im Beruf finden Sie unter Wie Sie das Programmieren lernen können. Hier finden Sie eine Liste der Programmiersprachen, die von Fachkräften für Datenanalyse, Webdesignern, Entwicklern von mobilen und Web-Anwendungen sowie Spieleentwicklern am häufigsten verwendet werden, sowie Links zu Ressourcen, die Ihnen helfen, mehr über diese Sprachen zu erfahren.

Einführung in die spannende Welt der Programmierung

Video 234

Spaß mit R

Video 235

Carrie: Erste Schritte mit R

Video 236

Programmiersprachen

Video 237

Wege, etwas über Programmierung zu lernen

Das Schreiben von Code in Programmiersprachen kann eine spannende und lohnende Erfahrung sein. Das Feld der Programmierung blickt auf eine lange Geschichte zurück, in der sich Menschen gegenseitig geholfen haben, ihre Fähigkeiten zu verbessern und bewährte Verfahren zu entwickeln. Sie werden sich in diesem Kurs auf die Programmiersprache R konzentrieren, aber in Zukunft können Sie sich je nach Ihren Interessen und beruflichen Zielen für weitere Programmiersprachen entscheiden. Diese Lektüre ist ein allgemeiner Leitfaden, der Ihnen helfen soll zu entscheiden, welche Programmiersprachen für Sie am besten geeignet sind.

Image of a person sitting at a desk and typing on a keyboard. There are 4 large computer screens in front of them.

Beliebte Programmiersprachen nach Beruf

Gehen wir einige mögliche Berufsbezeichnungen durch, die Ihnen begegnen könnten, und die beliebtesten Programmiersprachen, die in diesen Berufen verwendet werden. Außerdem finden Sie hier eine Liste mit zusätzlichen Ressourcen, die Sie nutzen können, um mehr über jede der vorgestellten Programmiersprachen zu erfahren.

Fachkraft für Datenanalyse

Eine Fachkraft für Datenanalyse sammelt, transformiert und organisiert Daten, um Schlussfolgerungen zu ziehen, Vorhersagen zu treffen und fundierte Entscheidungen zu treffen. Die beliebtesten Programmiersprachen für Datenanalysten sind R und Python.

R bietet praktische statistische Funktionen für die Datenanalyse und ist nützlich für die Erstellung fortgeschrittener Datenvisualisierungen. Schauen Sie sich diese Ressourcen an, um mehr über R zu erfahren:

Python ist eine Allzwecksprache, mit der Sie alles erstellen können, was Sie für die Datenanalyse benötigen. Hier finden Sie einige Ressourcen, um mit dem Erlernen von Python zu beginnen:

Kaggle ist ein Online-Repository mit verschiedenen Datasets, die sowohl in R als auch in Python verwendet werden können. Es handelt sich um eine robuste Plattform, auf der regelmäßig lösungsbasierte Wettbewerbe mit Datensätzen aus hochinteressanten Branchen stattfinden. Lernende können auch eine riesige Fundgrube an Diskussionen über Datenmodellierung, aktuelle Plug-in-Modelle und nützliche Codeschnipsel erkunden. Hier finden Sie einige großartige Ressourcen für den Einstieg in Kaggle:

  • Datasets: Erforschen und laden Sie eine riesige Sammlung von Datensätzen herunter und bewerten Sie Ihre Lieblingssammlung.

  • Wettbewerbe: Engagieren Sie sich individuell oder arbeiten Sie in einem Team an Datenwettbewerben, um die Möglichkeit einer finanziellen Belohnung zu erhalten. Auch wenn Sie die Wettbewerbe nicht gewinnen, ist dies eine gute Möglichkeit, sich mit anderen Analysten zu vernetzen.

  • Lernen: Nutzen Sie diese Ressource für einen zusätzlichen Einblick in die Datenvisualisierung, lineare Regressionstechniken oder den Code für Zeitreihendiagramme.

Web-Designer

Ein Webdesigner ist für die Gestaltung und das Layout von Webseiten verantwortlich, die Text, Grafiken und Videos enthalten. Webdesigner verwenden in der Regel Hypertext Markup Language v5 (HTML7) und Cascading Style Sheets (CSS), um Webseiten zu erstellen.

HTML7 sorgt für die Strukturierung von Webseiten und wird für die Anbindung an Hosting-Plattformen verwendet. Erfahren Sie mit diesen Ressourcen mehr über HTML7 und CSS:

  • HTML-Tutorial: eine Einführung in HTML mit Links zu HTML7-Funktionen, Beispielen und Referenzen

  • HTML7 Spickzettel: eine praktische Zusammenfassung der HTML7-Tags, Attribute und der Kompatibilität mit HTML4

  • HTML7- und CSS-Grundlagenkurs: ein kostenloser W3C-Kurs auf edX; ein geprüftes Kurszertifikat kann für $199 ausgestellt werden

CSS wird für das Design von Webseiten verwendet und kontrolliert grafische Elemente (Farbe, Layout und Schriftart) sowie die Präsentation der Seite auf verschiedenen Geräten (große Bildschirme, mobile Bildschirme und Drucker). Sehen Sie sich diese Spickzettel für CSS an:

Entwickler mobiler Apps

Ein Entwickler mobiler Anwendungen nutzt die Programmierung, um Apps zu erstellen, die auf Laptops, Handys und Tablets verwendet werden. Die beliebtesten Programmiersprachen für Entwickler mobiler Apps sind Swift, Java und C#.

Swift (für Apple Plattformen) ist eine Open Source Scripting Sprache für macOS, iOS, watchOS und tvOS. Ihr Hauptziel ist es, Apps schneller laufen zu lassen. In diesen Ressourcen finden Sie weitere Informationen über Swift:

  • Swift.org: eine Open-Source-Community mit Ressourcen zum Erlernen der Verwendung von Swift, einschließlich Videos und Stichproben-Code

  • Swift Entwickler-Websiteswift.org: eine Apple Entwickler-Website mit Informationen für Entwickler, die Swift verwenden möchten

  • Ressourcen für die Swift-Entwicklung: Apples Sammlung von Dokumentation, Stichproben, Videos und empfohlenen Büchern

Java (für Android-Geräte) ist die offizielle Sprache für die Android-Entwicklung. Der Artikel Ich möchte Android-Apps entwickeln – welche Sprachen sollte ich lernen? untersucht einige andere Sprachen, die für die Android-Entwicklung verwendet werden. Sehen Sie sich diese Ressourcen für Java an:

C# (ausgesprochen C-sharp) ist eine objektorientierte Programmiersprache, die weit verbreitet ist, um mobile Apps auf der Open-Source-Entwicklerplattform .NET zu erstellen. Xamarin erweitert die .NET Plattform um ein Framework, mit dem Entwickler plattformübergreifende mobile Apps für iOS und Android erstellen können. Hier finden Sie einige Ressourcen, die Ihnen helfen, C# zu lernen:

Entwickler von Web-Applikationen

Ein Web-Anwendungsentwickler entwirft und entwickelt Netzwerk-Apps, die im Internet eingesetzt werden. Die beliebtesten Programmiersprachen, die von Entwicklern von Webanwendungen verwendet werden, sind Java, Python, Ruby und PHP.

Java wird häufig verwendet, um Webanwendungen für Unternehmen zu erstellen, die auf mehreren Clients laufen können. Die größte Stärke von Java ist sein „Write Once, Run Anywhere“ (WORA) Ansatz. Stöbern Sie in diesen Ressourcen, um mehr über Java zu erfahren:

Python ist eine universell einsetzbare Programmiersprache. Sehen Sie sich die Ressourcen zu Python an, die in der Rubrik Fachkraft für Datenanalyse aufgeführt sind.

Ruby ist eine allgemeine, objektorientierte Programmiersprache für die Entwicklung von Web-Apps. Ruby ist nicht dasselbe wie Ruby on Rails, ein Open Source Framework für Web-Apps, das mit Ruby läuft. Schauen Sie sich diese Ressourcen an, um mehr über Ruby zu erfahren:

  • Ruby-Nachrichten: Informationen über die neuesten Ruby-Versionen und Links zu anderen Ressourcen

  • Ruby-Dokumentationruby-Dokumentation: enthält Anleitungen, Tutorials und Referenzmaterial, das Ihnen hilft, mehr über Ruby zu erfahren

  • Handbuch für Ruby-Programmierer: ein Tutorial und Referenzhandbuch für Ruby

  • Lernen Sie Ruby von Codecademycodecademy: eine Website mit kostenlosen interaktiven Grundkursen und zusätzlichen Aktivitäten, auf die Sie mit einem monatlichen Abonnement zugreifen können

PHP ist eine Scripting-Sprache, die sich besonders für die Entwicklung von Web-Apps eignet. Sie wurde auf der Grundlage von Perl, einer anderen Programmiersprache, entwickelt. PHP ist einfach, flexibel und relativ leicht zu erlernen. Sehen Sie sich diese Ressourcen an, um mehr über PHP zu erfahren:

Spiele-Entwickler

Ein Spieleentwickler ist ein App-Entwickler, der sich auf die Entwicklung von Videospielen spezialisiert hat. Spieleentwickler verwenden in der Regel die Programmiersprachen C# und C++.

C# ist eine objektorientierte Programmiersprache, die häufig zur Erstellung von Spielen verwendet wird. Sehen Sie sich die Ressourcen für C# an, die im Abschnitt für Entwickler mobiler Apps aufgeführt sind.

C++ ist eine Erweiterung der Programmiersprache C, die auch für die Entwicklung von Konsolenspielen, z.B. für die Xbox, verwendet wird. Hier finden Sie weitere Informationen über C++:

Tipps zum Erlernen von Programmiersprachen

Hier sind einige Tipps, die Sie beachten sollten, wenn Sie mit dem Erlernen einer neuen Programmiersprache beginnen:

  • Definieren Sie ein Übungsprojekt und verwenden Sie die Sprache, um es abzuschließen. Das macht den Lernprozess praktischer und fesselnder.

  • Behalten Sie frühere Konzepte und Coding-Prinzipien im Kopf. Viele davon sind von einer Programmiersprache zur anderen übertragbar. Nachdem Sie also eine Sprache gelernt haben, fällt Ihnen das Erlernen einer zweiten oder dritten Programmiersprache in der Regel viel leichter.

  • Erstellen und bewahren Sie gute Notizen und Spickzettel in dem Format auf, das für Sie am besten geeignet ist (handschriftlich oder maschinengeschrieben).

  • Legen Sie ein Online-Dateisystem für Informationen an, auf das Sie leicht zugreifen können, während Sie in verschiedenen Umgebungen der Programmierung arbeiten.

Von Tabellen zu SQL zu R

Obwohl die Programmiersprache R für Sie vielleicht neu ist, weist sie viele Ähnlichkeiten mit den anderen Tools auf, die Sie in diesem Programm kennen gelernt haben. In dieser Lektüre werden Sie Tabellenkalkulationsprogramme, SQL und R vergleichen, um ein besseres Gespür dafür zu bekommen, wie Sie die einzelnen Programme in Zukunft einsetzen können.

Image of person thinking with 3 speech bubbles: one has a bar chart, one has a spreadsheet, and one has the word "function"

Tabellenkalkulationen, SQL und R: ein Vergleich

Als Fachkraft für Datenanalyse ist die Wahrscheinlichkeit groß, dass Sie irgendwann in Ihrer Laufbahn mit SQL, R und Tabellenkalkulationen arbeiten werden. Jedes Tool hat seine eigenen Stärken und Schwächen, aber sie alle machen den Prozess der Datenanalyse reibungsloser und effizienter. Es gibt zwei wesentliche Dinge, die alle drei gemeinsam haben:

  • Sie arbeiten alle mit Filtern: Sie können zum Beispiel mit jedem dieser Tools ganz einfach ein Dataset filtern. In R können Sie die Filterfunktion verwenden. Diese führt die gleiche Aufgabe aus wie eine einfache SELECT-FROM-WHERE SQL-Abfrage. In einer Tabelle können Sie über die Menüoptionen einen Filter erstellen.

  • Sie alle verwenden Funktionen: In Tabellenkalkulationen verwenden Sie Funktionen in Formeln, und in SQL fügen Sie sie in Abfragen ein. In R werden Sie Funktionen in dem Code verwenden, der Teil Ihrer Analyse ist.

In der nachstehenden Tabelle finden Sie einige Schlüssel-Fragen, um diese Tools miteinander zu vergleichen. Sie können diese Tabelle als allgemeinen Leitfaden verwenden, wenn Sie beginnen, sich in R zurechtzufinden.

Schlüssel-Frage

Tabellenkalkulationen

SQL

R

Was ist R?

Ein Programm, das Zeilen und Spalten verwendet, um Daten zu organisieren und die Analyse und Manipulation durch Formeln, Funktionen und eingebaute Features zu ermöglichen

Eine Programmiersprache für Datenbanken, die zur Kommunikation mit Datenbanken verwendet wird, um eine Datenanalyse durchzuführen

Eine Programmiersprache für allgemeine Zwecke, die für statistische Analysen, Visualisierung und andere Datenanalysen verwendet wird

Was ist ein wesentlicher Vorteil?

Enthält eine Vielfalt von Tools und Funktionen für die Visualisierung

Ermöglicht es Nutzern, Daten nach Bedarf zu manipulieren und umzuorganisieren, um die Analyse zu unterstützen

Bietet eine barrierefreie Sprache zum Organisieren, Ändern und Bereinigen von Dataframes und zum Erstellen aufschlussreicher Datenvisualisierungen

Mit welchen Datasets funktioniert es am besten?

Kleinere Datasets

Größere Datasets

Größere Datasets

Aus welcher Quelle stammen die Daten?

Manuell eingegeben oder aus einer externen Quelle importiert

Von einer externen Datenbank abgerufen

Mit R geladen, wenn es installiert ist, von Ihrem Computer importiert oder aus externen Quellen geladen

Wo werden die Daten aus meiner Analyse normalerweise gespeichert?

In einer Tabelle auf Ihrem Computer

In Tabellen in der Datenbank, auf die Sie zugreifen

In einer R-Datei auf Ihrem Computer

Benutze ich Formeln und Funktionen?

Ja

Ja

Ja

Kann ich Visualisierungen erstellen?

Ja

Ja, mit Hilfe eines zusätzlichen Tools wie einem Datenbank-Management-System (DBMS) oder einem Business Intelligence (BI)-Tool

Ja

Einführung in R

Video 238

Einführung in RStudio

Video 239

Wann Sie RStudio verwenden sollten

Als Fachkraft für Datenanalyse haben Sie in jeder Phase Ihrer Analyse eine Vielzahl von Tools zur Verfügung, mit denen Sie arbeiten können. Manchmal können Sie Ihre Ziele erreichen, indem Sie in einem Tabellenkalkulationsprogramm arbeiten oder SQL mit einer Datenbank verwenden. In dieser Lektüre werden Sie einige Beispiele dafür kennenlernen, wann die Arbeit in R und RStudio die bessere Wahl sein könnte.

Image of maintenance worker handing a wrench tool to an office worker who is sitting at their desk

Warum RStudio?

Eine Ihrer Hauptaufgaben als Analyst ist die Umwandlung von Rohdaten in Statistiken, die genau, nützlich und interessant sind. Das kann schwierig sein, wenn die Rohdaten komplex sind. R und RStudio sind darauf ausgelegt, große Datensätze zu verarbeiten, die Tabellenkalkulationen möglicherweise nicht so gut verarbeiten können. Mit RStudio ist es außerdem einfach, Ihre Arbeit an verschiedenen Datasets zu reproduzieren. Wenn Sie Ihren Code eingegeben haben, können Sie einfach ein neues Dataset laden und Ihre Scripts erneut ausführen. Sie können mit RStudio auch detailliertere Visualisierungen erstellen.

Wenn RStudio wirklich glänzt

Wenn die Daten über mehrere Kategorien oder Gruppen verteilt sind, kann es eine Herausforderung sein, Ihre Analysen zu verwalten, Trends zu visualisieren und Grafiken zu erstellen. Und je mehr Datengruppen Sie bearbeiten müssen, desto schwieriger werden diese Aufgaben. Hier kommt RStudio ins Spiel.

Stellen Sie sich zum Beispiel vor, Sie analysieren die Verkaufsdaten für jede Stadt in einem ganzen Land. Das sind eine Menge Daten von vielen verschiedenen Gruppen – in diesem Fall hat jede Stadt ihre eigene Datengruppe.

Hier sind einige Möglichkeiten, wie RStudio in dieser Situation helfen könnte:

  • Mit RStudio ist es einfach, einen bestimmten Analyseschritt für jede Gruppe mit einfachem Code auszuführen. In diesem Beispiel könnten Sie den jährlichen MITTELWERT der Verkaufsdaten für jede Stadt berechnen.

  • RStudio ermöglicht auch eine flexible Datenvisualisierung. Sie können die Unterschiede zwischen den Städten mithilfe von Plot-Funktionen wie Facetten – über die Sie später noch mehr erfahren werden – effektiv visualisieren.

  • Sie können RStudio auch verwenden, um automatisch eine Ausgabe von zusammenfassenden Statistiken – oder sogar Ihre visualisierten Plots – für jede Gruppe zu erstellen.

Wenn Sie im weiteren Verlauf dieses Programms mehr über R und RStudio erfahren, werden Sie besser verstehen, wann RStudio das Tool Ihrer Wahl für die Datenanalyse sein sollte.

Für weitere Informationen

  • Die Vorteile von RStudio: Auf dieser Webseite werden einige der Gründe erläutert, warum RStudio von vielen Analysten als Schnittstelle zu R bevorzugt wird. Sie erfahren mehr über die Vorteile der Verwendung von RStudio für die Datenanalyse, von der Benutzerfreundlichkeit bis hin zu den Bedienungshilfen für Grafiken und mehr.

  • Datenanalyse und R-Programmierung: Diese Online-Einführung in die Datenanalyse und Programmierung mit R ist ein guter Ausgangspunkt für Nutzer von R und RStudio. Sie enthält auch eine Liste mit detaillierten Erklärungen zu den Vorteilen der Verwendung von R und RStudio. Außerdem finden Sie eine hilfreiche Anleitung für die Einrichtung von RStudio.

Kontakte zu anderen Analysten in der R-Community knüpfen

R ist ein leistungsfähiges Tool in Ihrem Werkzeugkasten für die Datenanalyse – und es hat auch eine starke Gemeinschaft von Nutzern, die begeistert sind, sich mit anderen auszutauschen, zusammenzuarbeiten und Kontakte zu knüpfen. In dieser Lektüre finden Sie einige Orte, an denen Sie online und persönlich mit anderen Analysten in der R-Community in Kontakt treten können.

A group of people is standing in a conference room. They are greeting each other and shaking hands

Online-Gemeinschaften

Online-Gemeinschaften ermöglichen es Ihnen, mit anderen R Nutzern in Kontakt zu treten, egal wo Sie leben. Diese Liste enthält Foren und Diskussionskanäle, in denen Sie sich an der Konversation beteiligen können. Sie enthält auch Social Media-Tags, die Sie auf Ihren bestehenden Social Media-Plattformen verwenden können, um mit anderen Fachkräften für Datenanalyse in Kontakt zu treten.

  • RStudio Gemeinschaft: Das RStudio Community-Forum ist ein großartiger Ort, um Hilfe zu erhalten und Lösungen für Ihre Probleme mit R zu finden – und vielleicht auch, um anderen zu helfen!

  • r/RLanguage: Das R language subreddit ist eine aktive Online-Community auf der Social Media Plattform Reddit, in der R Nutzer über R diskutieren, Fragen stellen und Tipps austauschen können.

  • rOpenSci: rOpenSci bietet ein Community-Forum, in dem R-Nutzer Fragen stellen und nach Lösungen suchen können. Es enthält auch Links zu ihrem Best Practices Guide und ihren Support-Seiten.

  • R4DS Online Learning Community und Slack-Kanal: Dies ist eine Community mit einem weiteren Slack-Kanal, in dem sich R-Lernende und Mentoren treffen und austauschen können. Hier können Sie sich über die Verwendung von R für die Datenwissenschaft austauschen.

  • Twitter #rstats: Wenn Sie Twitter benutzen, können Sie sich mit anderen Nutzern von R unter dem Hashtag #rstats austauschen. Viele R-Entwickler und Analysten sind auf Twitter aktiv.

Meetups

Viele Organisationen veranstalten sowohl persönliche als auch Online-Meetups für R Nutzer. Sie sollten immer vorsichtig sein, wenn Sie persönlich an einem Meetup teilnehmen.

  • Lokale Data Analytics-Treffen: Diese Treffen sind eine gute Möglichkeit, andere Menschen zu treffen, die sich für Data Analytics interessieren, und Ihr Netzwerk auszubauen. Diese Treffen sind ortsabhängig, so dass Sie sich mit anderen Fachkräften für Datenanalyse in Ihrer Nähe treffen können.

  • R-Nutzergruppen: Diese Liste enthält Links zu regionalen R-Communities, einschließlich Subreddits und Meetup-Gruppen. Dies ist eine nützliche Ressource, wenn Sie daran interessiert sind, R-Nutzer in Ihrer Umgebung zu finden.

  • RLadies Meetups: Dies sind persönliche und virtuelle Treffen speziell für R-Enthusiasten, die sich als unterrepräsentiert oder marginalisiert bezeichnen. Diese Treffen sind ebenfalls ortsgebunden und können Ihnen helfen, mit anderen Fachkräften für Datenanalyse in Ihrer Umgebung in Kontakt zu treten.

R kann schwierig zu erlernen sein, aber zum Glück gibt es eine starke Gemeinschaft von R Nutzern, die daran interessiert sind, zusammenzuarbeiten und sich gegenseitig zu helfen. Diese Ressourcen sind ein guter Ausgangspunkt, wenn Sie sich mit der größeren Gemeinschaft der Fachkräfte für Datenanalyse vernetzen möchten, also nutzen Sie sie!

Programmierung mit RStudio

Video 240

Grundlagen der Programmierung

Video 241

Vektoren und Listen in R

Sie können diese Lektüre zum späteren Nachschlagen speichern. Sie können auch eine PDF-Version dieser Lektüre herunterladen:

 
Vectors and lists in R.pdf
PDF File

In der Programmierung ist eine Datenstruktur ein Format zum Organisieren und Speichern von Daten. Es ist wichtig, Datenstrukturen zu verstehen, denn Sie werden häufig mit ihnen arbeiten, wenn Sie R für die Datenanalyse verwenden. Zu den gebräuchlichsten Datenstrukturen in der Programmiersprache R gehören:

  • Vektoren

  • Dataframes

  • Matrizen

  • Arrays

Stellen Sie sich eine Datenstruktur wie ein Haus vor, das Ihre Daten enthält.

Image of construction workers building the foundations of a house

Diese Lektüre konzentriert sich auf Vektoren. Später werden Sie mehr über Dataframes, Matrizen und Arrays erfahren.

Es gibt zwei Arten von Vektoren: atomare Vektoren und Listen. Im Folgenden lernen Sie die grundlegenden Eigenschaften von atomaren Vektoren und Listen kennen und erfahren, wie Sie sie mit R-Code erstellen können.

Atomare Vektoren

Zunächst werden wir die verschiedenen Arten von atomaren Vektoren durchgehen. Anschließend lernen Sie, wie Sie mit R Code die Vektoren erstellen, identifizieren und benennen können.

Sie haben bereits gelernt, dass ein Vektor eine Gruppe von Datenelementen desselben Typs ist, die in R in einer Sequenz gespeichert werden. Sie können keinen Vektor haben, der sowohl logische als auch numerische Werte enthält.

Es gibt sechs Haupttypen von atomaren Vektoren: logisch, ganzzahlig, doppelt, Zeichen (die Zeichenketten enthalten), komplex und raw. Die letzten beiden – komplex und raw – sind in der Datenanalyse nicht so häufig anzutreffen, so dass wir uns auf die ersten vier konzentrieren werden. Integer- und Double-Vektoren werden zusammen als numerische Vektoren bezeichnet, da sie beide Zahlen enthalten. Diese Tabelle fasst die vier primären Typen zusammen:

Typ

Beschreibung

Beispiel

Logisch

Wahr/Falsch

TRUE

Ganzzahl

Positive und negative ganze Werte

3

Doppelt

Dezimale Werte

101.175

Charakter

String/Zeichenwerte

“Coding” 

Dieses Diagramm veranschaulicht die Hierarchie der Beziehungen zwischen diesen vier Haupttypen von Vektoren:

4-level Hierarchy of vectors

Erstellen von Vektoren

Eine Möglichkeit, einen Vektor zu erstellen, ist die Funktion c() (auch „combine“-Funktion genannt). Die Funktion c() in R kombiniert mehrere Werte zu einem Vektor. In R ist diese Funktion einfach der Buchstabe „c“, gefolgt von den Werten, die Sie in Ihrem Vektor haben möchten, innerhalb der Klammern, getrennt durch ein Komma: c(x, y, z, …).

Sie können zum Beispiel die Funktion c() verwenden, um numerische Daten in einem Vektor zu speichern.

c(2.5, 48.5, 101.5)

Um mit der Funktion c() einen Vektor aus ganzen Zahlen zu erstellen, müssen Sie den Buchstaben „L“ direkt hinter jede Zahl setzen.

c(1L, 5L, 15L)

Sie können auch einen Vektor mit Zeichen oder logischen Zeichen erstellen.

c(“Sara” , “Lisa” , “Anna”)

c(TRUE, FALSE, TRUE)

Bestimmen der Eigenschaften von Vektoren

Jeder Vektor, den Sie erstellen, hat zwei Schlüsseleigenschaften: Typ und Länge.

mit Hilfe der Funktion typeof() können Sie feststellen, mit welchem Typ von Vektor Sie arbeiten. Platzieren Sie den Code für den Vektor innerhalb der Klammern der Funktion. Wenn Sie die Funktion ausführen, teilt R Ihnen den Typ mit. Ein Beispiel:

typeof(c(“a” , “b”))

#> [1] „character“

beachten Sie, dass die Ausgabe der Funktion typeof in diesem Beispiel “character” lautet. Ähnlich verhält es sich, wenn Sie die Funktion typeof auf einen Vektor mit ganzzahligen Werten anwenden. Die Ausgabe lautet dann “integer”:

typeof(c(1L , 3L))

#> [1] „integer“

Sie können die Länge eines vorhandenen Vektors – d.h. die Anzahl der Elemente, die er enthält – mit der Funktion length() ermitteln. In diesem Beispiel verwenden wir einen Zuweisungsoperator, um den Vektor der Variable x zuzuweisen. Anschließend wenden wir die Funktion length() auf die Variable an. Wenn wir die Funktion ausführen, teilt uns R mit, dass die Länge 3 ist.

x <- c(33.5, 57.75, 120.05)

length(x)

#> [1] 3

Sie können auch überprüfen, ob ein Vektor einen bestimmten Typ hat, indem Sie eine is-Funktion verwenden: is.logical(), is.double(), is.integer(), is.character(). In diesem Beispiel gibt R den Wert TRUE zurück, weil der Vektor ganze Zahlen enthält.

x <- c(2L, 5L, 11L)

is.integer(x)

#> [1] TRUE

In diesem Beispiel gibt R den Wert FALSE zurück, weil der Vektor keine Zeichen, sondern logische Zeichen enthält.

y <- c(TRUE, TRUE, FALSE)

is.character(y)

#> [1] FALSE

Vektoren benennen

Alle Arten von Vektoren können benannt werden. Namen sind nützlich, um lesbaren Code zu schreiben und Objekte in R zu beschreiben. Sie können die Elemente eines Vektors mit der Funktion names() benennen. Lassen Sie uns als Beispiel die Variable x einem neuen Vektor mit drei Elementen zuweisen.

x <- c(1, 3, 5)

Mit der Funktion names() können Sie jedem Element des Vektors einen anderen Namen zuweisen.

names(x) <- c(„a“, „b“, „c“)

Wenn Sie nun den Code ausführen, zeigt R an, dass das erste Element des Vektors den Namen a, das zweite b und das dritte c trägt.

#> a b c 

#> 1 3 5

Denken Sie daran, dass ein atomarer Vektor nur Elemente desselben Typs enthalten kann. Wenn Sie Elemente unterschiedlichen Typs in der gleichen Datenstruktur speichern möchten, können Sie eine Liste verwenden.

Erstellen von Listen

Listen unterscheiden sich von atomaren Vektoren, da ihre Elemente von beliebigem Typ sein können – wie Daten, Dataframes, Vektoren, Matrizen und mehr. Listen können sogar andere Listen beherbergen.

Sie können eine Liste mit der Funktion list() erstellen. Ähnlich wie die Funktion c() besteht die Funktion list() einfach aus list, gefolgt von den Werten, die Sie in Ihrer Liste in Klammern setzen möchten: list(x, y, z, …). In diesem Beispiel erstellen wir eine Liste, die vier verschiedene Arten von Elementen enthält: Character („a“), Integer (1L), Double (1.5) und Logical (TRUE).

list(„a“, 1L, 1.5, TRUE)

Wie wir bereits erwähnt haben, können Listen andere Listen enthalten. Wenn Sie wollen, können Sie sogar eine Liste innerhalb einer Liste innerhalb einer Liste speichern – und so weiter.

list(list(list(1 , 3, 5)))

Bestimmen der Struktur von Listen

Wenn Sie herausfinden möchten, welche Arten von Elementen eine Liste enthält, können Sie die Funktion str() verwenden. Dazu fügen Sie den Code für die Liste in die Klammern der Funktion ein. Wenn Sie die Funktion ausführen, zeigt R die Datenstruktur der Liste an, indem es ihre Elemente und deren Typen beschreibt.

Wenden wir nun die Funktion str() auf unser erstes Beispiel einer Liste an.

str(list(„a“, 1L, 1.5, TRUE))

Wir führen die Funktion aus und R sagt uns, dass die Liste vier Elemente enthält und dass die Elemente aus vier verschiedenen Typen bestehen: Zeichen (chr), Ganzzahl (int), Zahl (num) und logisch (logi).

#> List of 4

#>  $ : chr „a“

#>  $ : int 1

#>  $ : num 1.5

#>  $ : logi TRUE

Verwenden wir die Funktion str(), um die Struktur unseres zweiten Beispiels zu ermitteln. Zunächst weisen wir die Liste der Variable z zu, um die Eingabe in die Funktion str() zu erleichtern.

z <- list(list(list(1 , 3, 5)))

Führen wir die Funktion aus.

str(z)

#> List of 1

#>  $ :List of 1

#>   ..$ :List of 3

#>   .. ..$ : num 1

#>   .. ..$ : num 3

#>   .. ..$ : num 5

Die Einrückung der $ Symbole spiegelt die verschachtelte Struktur dieser Liste wider. Hier gibt es drei Ebenen (es gibt also eine Liste innerhalb einer Liste innerhalb einer Liste).

Listen benennen

Listen können, wie Vektoren, benannt werden. Sie können die Elemente einer Liste benennen, wenn Sie sie zum ersten Mal mit der Funktion list() erstellen:

list(‚Chicago‘ = 1, ‚New York‘ = 2, ‚Los Angeles‘ = 3)

$`Chicago`

[1] 1

$`New York`

[1] 2

$`Los Angeles`

[1] 3

Zusätzliche Ressource

Wenn Sie mehr über Vektoren und Listen erfahren möchten, lesen Sie R für Datenwissenschaft, Kapitel 20: Vektoren. R for Daten Science ist eine klassische Ressource, um zu lernen, wie man R für Datenwissenschaft und Datenanalyse verwendet. Es deckt alles von der Bereinigung über die Visualisierung bis hin zur Kommunikation Ihrer Daten ab. Wenn Sie sich näher mit dem Thema Vektoren und Listen befassen möchten, ist dieses Kapitel ein hervorragender Startpunkt für Sie.

Daten und Zeiten in R

In dieser Lektüre lernen Sie, wie Sie in R mit dem Paket lubridate mit Datums- und Zeitangaben arbeiten. Als Nächstes werden Sie die Tools des Pakets lubridate verwenden, um verschiedene Datentypen in R in Datums- und Zeitformate zu konvertieren.

Image of a calendar month. Each day has an analog clock featuring a different time.

Laden der Pakete tidyverse und lubridate

Bevor Sie mit der Arbeit mit Datums- und Zeitangaben beginnen, sollten Sie sowohl tidyverse als auch lubridate laden. Lubridate ist Teil von tidyverse.

Öffnen Sie zunächst RStudio.

Wenn Sie tidyverse noch nicht installiert haben, können Sie dies mit der Funktion install.packages() tun:

  • install.packages(„tidyverse“)

Als nächstes laden Sie die Pakete tidyverse und lubridate mit der Funktion library() . Laden Sie zunächst das Kernpaket tidyverse, um es in Ihrer aktuellen R-Sitzung verfügbar zu machen:

  • library(tidyverse)

Dann laden Sie das Paket lubridate:

  • library(lubridate)

Jetzt sind Sie bereit, die Tools des Pakets lubridate kennenzulernen.

Arbeiten mit Daten und Zeiten

Dieser Abschnitt befasst sich mit den Datentypen für Datums- und Zeitangaben in R und mit der Konvertierung von Strings in Datums- und Zeitformate.

Typen

In R gibt es drei Arten von Daten, die sich auf einen Zeitpunkt beziehen:

  • Ein Datum („2016-08-16“)

  • Eine Uhrzeit innerhalb eines Tages (“20:11:59 UTC“)

  • Und eine Datumszeit. Dies ist ein Datum plus eine Uhrzeit („2018-03-31 18:15:48 UTC“)

Die Uhrzeit wird in UTC angegeben, was für Universal Time Coordinated steht, besser bekannt als Universal Coordinated Time. Dies ist der primäre Standard, nach dem die Welt die Uhren und die Zeit regelt.

Um das aktuelle Datum zu erhalten, können Sie zum Beispiel die Funktion today() ausführen. Das Datum wird als Jahr, Monat und Tag angezeigt.

today()

#> [1] „2021-01-20“

Um das aktuelle Datum und die Uhrzeit zu ermitteln, können Sie die Funktion now() verwenden. Beachten Sie, dass die Zeit auf die nächste Sekunde genau angezeigt wird.

now()

#> [1] „2021-01-20 16:25:05 UTC“

Bei der Arbeit mit R gibt es drei Möglichkeiten, Datums- und Zeitformate zu erstellen:

  • Aus einer Zeichenkette

  • Aus einem einzelnen Datum

  • Aus einem bestehenden Datum/Zeit-Objekt

R erstellt Datumsangaben standardmäßig im Format jjjj-mm-tt.

Schauen wir uns jede Methode an.

Konvertierung von Strings

Datums-/Zeitdaten liegen oft als Strings vor. Sie können Strings mit den Tools von lubridate in Datums- und Zeitangaben umwandeln. Diese Tools ermitteln automatisch das Datums-/Zeitformat. Ermitteln Sie zunächst die Reihenfolge, in der das Jahr, der Monat und der Tag in Ihren Daten erscheinen. Dann ordnen Sie die Buchstaben y, m und d in der gleichen Reihenfolge an. So erhalten Sie den Namen der Lubridate-Funktion, die Ihr Datum analysiert. Für das Datum 2021-01-20 zum Beispiel verwenden Sie die Reihenfolge ymd:

ymd(„2021-01-20“)

Wenn Sie die Funktion ausführen, gibt R das Datum im Format yyyy-mm-dd zurück.

#> [1] „2021-01-20“

Die Funktion funktioniert für jede beliebige Reihenfolge gleich. Zum Beispiel Monat, Tag und Jahr: R gibt immer noch das Datum im Format jjjj-mm-tt zurück.

mdy(„January 20th, 2021“)

#> [1] „2021-01-20“

Oder Tag, Monat und Jahr: R gibt das Datum immer noch im Format jjjj-mm-tt zurück.

dmy(„20-Jan-2021“)

#> [1] „2021-01-20“

Diese Funktionen nehmen auch nicht in Anführungszeichen gesetzte Zahlen und konvertieren sie in das Format yyyy-mm-dd.

ymd(20210120)

#> [1] „2021-01-20“

Erstellen von Datum-Zeit-Komponenten

Die Funktion ymd() und ihre Variationen erstellen Datumsangaben. Um eine Datumszeit aus einem Datum zu erstellen, fügen Sie dem Namen der Funktion einen Unterstrich und einen oder mehrere der Buchstaben h, m und s (Stunden, Minuten, Sekunden) hinzu:

ymd_hms(„2021-01-20 20:11:59“)

#> [1] „2021-01-20 20:11:59 UTC“

mdy_hm(„01/20/2021 08:01“)

#> [1] „2021-01-20 08:01:00 UTC“

Optional: Umschalten zwischen vorhandenen Datum-Zeit-Objekten

Schließlich möchten Sie vielleicht zwischen einem Datum-Zeit-Objekt und einem Datum umschalten.

Sie können die Funktion as_date() verwenden, um eine Datumszeit in ein Datum umzuwandeln. Fügen Sie zum Beispiel die aktuelle Datumszeit – jetzt() – in die Klammern der Funktion ein.

as_date(now())

#> [1] „2021-01-20“

Zusätzliche Ressourcen

Wenn Sie mehr über die Arbeit mit Datums- und Zeitangaben in R erfahren möchten, lesen Sie die folgenden Ressourcen:

  • lubridate.tidyverse: Dies ist der Eintrag „lubridate“ aus der offiziellen tidyverse-Dokumentation, die ein umfassendes Nachschlagewerk zu den verschiedenen tidyverse-Paketen bietet. Unter diesem Link finden Sie einen Überblick über die wichtigsten Konzepte und Funktionen.

  • Daten und Zeiten mit lubridate: Spickzettel: Dieser „Spickzettel“ gibt Ihnen eine detaillierte Karte der verschiedenen Dinge, die Sie mit dem lubridate-Paket tun können. Sie müssen nicht alle diese Informationen kennen, aber der Spickzettel ist eine nützliche Referenz für alle Fragen, die Sie zur Arbeit mit Datums- und Zeitangaben in R haben könnten.

Andere gängige Datenstrukturen

In dieser Lektüre werden Sie die Erforschung von Datenstrukturen durch eine Einführung in Dataframes und Matrizen fortsetzen. Sie werden die grundlegenden Eigenschaften jeder Struktur kennenlernen und einfache Möglichkeiten, sie mit R-Code zu erstellen. Sie werden auch kurz auf Dateien eingehen, die häufig für den Zugriff auf und die Speicherung von Daten und zugehörigen Informationen verwendet werden. Die Abschnitte über Dateien und Matrizen in dieser Lektüre sind optional.

Datenstrukturen

Erinnern Sie sich daran, dass eine Datenstruktur wie ein Haus ist, das Ihre Daten enthält und Ihnen dabei hilft, Datenelemente auf eine strukturierte Weise zusammenzubringen, die es Ihnen ermöglicht, Schlussfolgerungen zu ziehen.

Image of a house made up of different data folders and files.

Dataframes

Dataframes sind die gebräuchlichste Form der Datenspeicherung und -analyse in R. Daher ist es wichtig zu verstehen, was sie sind und wie man sie erstellt. Ein Dataframe ist eine Sammlung von Spalten, die Daten enthalten, ähnlich wie eine Tabelle oder eine SQL-Tabelle. Jede Spalte hat einen Namen, der eine Variable darstellt, und enthält eine Beobachtung pro Zeile. Dataframes fassen Daten zusammen und organisieren sie in einem Format, das einfach zu lesen und zu verwenden ist.

Der Dataframe unten zeigt zum Beispiel das Dataset diamonds, eines der vorgeladenen Datasets in R. Jede Spalte enthält eine einzelne Variable, die sich auf Diamanten bezieht: Karat, Schliff, Farbe, Reinheit, Tiefe usw. Jede Zeile steht für eine einzelne Beobachtung.

The first five rows of the diamonds dataset in RStudio’s data viewer]

Bei der Arbeit mit Dataframes gibt es einige Schlüssel zu beachten:

  • Dataframes können viele verschiedene Arten von Daten enthalten, z. B. numerische, logische oder Zeichen.

  • Dataframes können in jeder Zelle nur ein Element enthalten.

  • Jede Spalte sollte benannt werden.

  • Jede Spalte sollte aus Elementen desselben Datentyps bestehen.

Sie werden später im Programm mehr über Dataframes erfahren, aber dies ist ein guter Ausgangspunkt.

Wenn Sie einen Dataframe in R manuell erstellen müssen, können Sie die Funktion data.frame() verwenden. Die Funktion data.frame() nimmt Vektoren als Eingabe entgegen. Geben Sie in die Klammern den Namen der Spalte ein, gefolgt von einem Gleichheitszeichen, und dann den Vektor, den Sie für diese Spalte eingeben möchten. In diesem Beispiel ist die Spalte x ein Vektor mit den Elementen 1, 2, 3, und die Spalte y ein Vektor mit den Elementen 1,5, 5,5, 7,5. Führen Sie den folgenden Code aus, um den Dataframe zu erstellen.

data.frame(x = c(1, 2, 3) , y = c(1.5, 5.5, 7.5))

Wenn Sie den Code ausführen, zeigt R den Dataframe in geordneten Zeilen und Spalten an.

Verwenden Sie den Operator extract, um eine Teilmenge aus einem Dataframe zu extrahieren. Wenn Sie diesen Operator auf einen Daten-Frame anwenden, benötigt er zwei Argumente: die Zeile(n) und Spalte(n), die Sie extrahieren möchten, getrennt durch ein Komma. Nennen Sie zum Beispiel den obigen Dataframe z. Um das Element aus der zweiten Zeile und der ersten Spalte zu extrahieren, verwenden Sie den Code z[2,1], der den Wert 2 zurückgibt:

z <- data.frame(x = c(1, 2, 3) , y = c(1.5, 5.5, 7.5))
z[2,1]
 

Sie werden später im Kurs mehr über Dataframes lernen, aber das reicht für den Anfang!

Optional: Dateien

Wenn Sie Daten analysieren, werden Sie normalerweise keinen Dataframe selbst erstellen. Stattdessen werden Sie Daten aus einer anderen Quelle importieren, z. B. aus einer CSV-Datei, einer relationalen Datenbank oder einem Software-Programm. Aus diesem Grund ist es unerlässlich, in R mit Dateien arbeiten zu können. In diesem Abschnitt lernen Sie einige der nützlichsten Funktionen für die Arbeit mit Dateien kennen, darunter Befehle zum Erstellen, Kopieren und Löschen von Dateien in R.

Erstellen einer Datei

Verwenden Sie die Funktion file.create() , um eine leere Datei zu erstellen. Setzen Sie den Namen und den Typ der Datei in die Klammern der Funktion. Ihre Dateitypen sind normalerweise .txt, .docx oder .csv.

file.create(„new_text_file.txt“)
file.create(„new_word_file.docx“)
file.create(„new_csv_file.csv“)
 

Wenn die Datei beim Ausführen der Funktion erfolgreich erstellt wurde, gibt R den Wert TRUE zurück. Andernfalls gibt R den Wert FALSE zurück.

file.create(„new_csv_file.csv“)
# code output:
# [1] TRUE

Kopieren einer Datei

Kopieren Sie eine Datei mit der Funktion file.copy(). Fügen Sie in die Klammern den Namen der zu kopierenden Datei ein. Geben Sie dann ein Komma ein und fügen Sie den Namen des Zielordners hinzu, in den Sie die Datei kopieren möchten.

file.copy(„new_text_file.txt“, „destination_folder“)

Wenn Sie die Registerkarte “ Dateien“ in RStudio überprüfen, wird eine Kopie der Datei im entsprechenden Ordner angezeigt:

screenshot of the files page in r studio

Sie können R-Dateien mit der Funktion unlink() löschen. Geben Sie den Namen der Datei in die Klammern der Funktion ein.

unlink(„some_.file.csv“)
 

Sie werden später in diesem Kurs Techniken zum Importieren von Dateien in R kennenlernen.

Optional: Matrizen

Eine Matrix ist eine zweidimensionale Sammlung von Datenelementen. Das heißt, sie hat sowohl Zeilen als auch Spalten. Im Gegensatz dazu ist ein Vektor eine eindimensionale Folge von Datenelementen. Wie Vektoren können Matrizen jedoch nur einen einzigen Datentyp enthalten. Zum Beispiel können Sie in einer Matrix nicht sowohl logische als auch numerische Daten haben.

Um eine Matrix in R zu erstellen, können Sie die Funktion matrix() verwenden. Die Funktion matrix() hat zwei Hauptargumente, die Sie in die Klammern eingeben. Fügen Sie zunächst einen Vektor hinzu. Der Vektor enthält die Werte, die Sie in der Matrix platzieren möchten. Als nächstes fügen Sie mindestens eine Matrixdimension hinzu. Sie können die Anzahl der Zeilen oder die Anzahl der Spalten mit dem Code nrow = oder ncol = angeben.

Um beispielsweise eine 2×3-Matrix (zwei Zeilen mal drei Spalten) zu erstellen, die die Werte 3-8 enthält, geben Sie einen Vektor mit dieser Zahlenreihe ein: c(3:8). Geben Sie dann ein Komma ein. Geben Sie schließlich nrow = 2 ein, um die Anzahl der Zeilen anzugeben. Führen Sie den Code aus:

matrix(c(3:8), nrow = 2)
 

R zeigt eine Matrix mit drei Spalten und zwei Zeilen (typischerweise als „2×3“ bezeichnet) an, die die numerischen Werte 3, 4, 5, 6, 7, 8 enthalten. R setzt den ersten Wert (3) des Vektors in die oberste Zeile und die äußerste linke Spalte der Matrix und setzt die Reihenfolge von links nach rechts fort.

Sie können auch die Anzahl der Spalten (ncol = ) anstelle der Anzahl der Zeilen (nrow = ) angeben. Führen Sie den Code aus:

matrix(c(3:8), ncol = 2)
 

R leitet die Anzahl der Zeilen automatisch ab.

Ähnlich wie bei Dataframes können Sie mit dem Extraktionsoperator [] ein Element aus einer Matrix extrahieren.

Die wichtigsten Erkenntnisse

Als Fachkraft für Datenanalyse werden Sie häufig mit Dataframes arbeiten. Dataframes in R sind eine Sammlung von Spalten, die Daten enthalten, ähnlich wie eine Tabelle oder eine SQL-Tabelle. Dataframes können Daten unterschiedlichen Typs enthalten, allerdings muss jede Spalte vom gleichen Datentyp sein. Im Gegensatz dazu sind Matrizen eine Sammlung von zweidimensionalen Datenelementen, die nur einen Datentyp enthalten können. In der Regel werden Sie Daten in R importieren, bevor Sie sie analysieren, daher ist es wichtig zu wissen, wie man mit R mit Dateien arbeitet. Sie werden später in diesem Kurs Techniken zum Importieren von Dateien kennenlernen, aber Sie können auch R-Funktionen zum Erstellen, Kopieren und Löschen von Dateien verwenden.

Ressourcen für weitere Informationen

Weitere Informationen zur Arbeit mit Dateien in R finden Sie in der R-Dokumentation: files. Es ist ein nützliches Nachschlagewerk für Funktionen in R-Code.

Operatoren und Berechnungen

Video 242

 

Logische Operatoren und bedingte Anweisungen

Tipp: Sie können die in Boolesche Logik verstehen vorgestellten Konzepte auffrischen, um zu verstehen, wie logische Operatoren funktionieren.

Sie haben bereits gelernt, dass ein Operator ein Symbol ist, das die Art der in einer Formel auszuführenden Operation oder Berechnung angibt. In dieser Lektüre lernen Sie die wichtigsten Arten von logischen Operatoren kennen und erfahren, wie sie zur Erstellung von bedingten Anweisungen in R-Code verwendet werden können.

A person is placing the final piece of a very large puzzle. Another person is across from them taking notes.

Logische Operatoren

Logische Operatoren geben einen logischen Datentyp wie TRUE oder FALSE zurück.

Es gibt drei Haupttypen von logischen Operatoren:

  • AND (in R manchmal als & oder && dargestellt)

  • OR (wird in R manchmal als | oder || dargestellt)

  • NICHT (!)

Sehen Sie sich die unten zusammengefassten logischen Operatoren an.

AND Operator „&“

  • Der AND Operator nimmt zwei logische Werte an. Er gibt TRUE nur zurück, wenn beide Einzelwerte WAHR sind. Das bedeutet, dass WAHR & WAHR den Wert TRUE ergibt. FALSCH & WAHR, WAHR & FALSCH und FALSCH & FALSCH ergeben jedoch alle den Wert FALSE.

  • Wenn Sie den entsprechenden Code in R ausführen, erhalten Sie die folgenden Ergebnisse: > TRUE & TRUE [1] TRUE > TRUE & FALSE [1] FALSE > FALSE & TRUE [1] FALSE > FALSE & FALSE [1] FALSE Sie können dies anhand der Ergebnisse unserer Vergleiche veranschaulichen. Stellen Sie sich vor, Sie erstellen eine Variable x, die gleich 10 ist. x <- 10 Um zu prüfen, ob x größer als 3 aber kleiner als 12 ist, können Sie x > 3 und x < 12 als Werte eines „UND“-Ausdrucks verwenden. x > 3 & x < 12 Wenn Sie die Funktion ausführen, gibt R das Ergebnis TRUE zurück. [1] TRUE Der erste Teil, x > 3, wird zu TRUE ausgewertet, da 10 größer als 3 ist. Der zweite Teil, x < 12, wird ebenfalls zu TRUE ausgewertet, da 10 kleiner als 12 ist. Da also beide Werte WAHR sind, ist das Ergebnis des AND-Ausdrucks TRUE. Die Zahl 10 liegt zwischen den Zahlen 3 und 12. Wenn Sie jedoch x gleich 20 machen, wird der Ausdruck x > 3 & x < 12 ein anderes Ergebnis liefern. x <- 20 x > 3 & x < 12 [1] FALSE Obwohl x > 3 gleich TRUE (20 > 3) ist, ist x < 12 gleich FALSE (20 < 12). Wenn ein Teil eines AND-Ausdrucks FALSCH ist, ist der gesamte Ausdruck FALSCH (WAHR & FALSCH = FALSCH). R gibt also das Ergebnis FALSE zurück.

OR Operator „|“

  • Der OR Operator (|) funktioniert auf ähnliche Weise wie der AND Operator (&). Der Hauptunterschied besteht darin, dass mindestens einer der Werte der ODER-Verknüpfung WAHR sein muss, damit die gesamte ODER-Verknüpfung zu TRUE ausgewertet wird. Das bedeutet, dass WAHR | WAHR, WAHR | FALSCH und FALSCH | WAHR alle zu TRUE ausgewertet werden. Wenn beide Werte FALSCH sind, ist das Ergebnis FALSE.

  • Wenn Sie den Code ausschreiben, erhalten Sie die folgenden Ergebnisse: > TRUE | TRUE [1] TRUE > TRUE | FALSE [1] TRUE > FALSE | TRUE [1] TRUE > FALSE | FALSE [1] FALSE Nehmen wir zum Beispiel an, Sie erstellen eine Variable y gleich 7. Um zu prüfen, ob y kleiner als 8 oder größer als 16 ist, können Sie den folgenden Ausdruck verwenden: y <- 7 y < 8 | y > 16 Das Ergebnis des Vergleichs ist TRUE (7 ist kleiner als 8) | FALSE (7 ist nicht größer als 16). Da nur ein Wert eines OR-Ausdrucks WAHR sein muss, damit der gesamte Ausdruck WAHR ist, gibt R das Ergebnis WAHR zurück. [1] TRUE Nehmen wir nun an, y ist 12. Der Ausdruck y < 8 | y > 16 wird nun zu FALSCH (12 < 8) | FALSCH (12 > 16) ausgewertet. Beide Vergleiche sind FALSCH, also ist das Ergebnis FALSE. y <- 12 y < 8 | y > 16 [1] FALSE

NOT Operator „!“

  • Der NOT Operator (!) negiert einfach den logischen Wert, auf den er angewendet wird. Mit anderen Worten: !TRUE ergibt FALSE, und !FALSE ergibt TRUE.

  • Wenn Sie den Code ausführen, erhalten Sie die folgenden Ergebnisse: > !TRUE  [1] FALSE > !FALSE [1] TRUE Genau wie die Operatoren OR und AND können Sie auch den Operator NOT in Kombination mit logischen Operatoren verwenden. Null wird als FALSCH betrachtet und Zahlen, die nicht Null sind, werden als WAHR angesehen. Der Operator NOT wertet den entgegengesetzten logischen Wert aus. Nehmen wir an, Sie haben eine Variable x, die gleich 2 ist: x <- 2 Die NOT-Operation ergibt FALSCH, da sie den entgegengesetzten logischen Wert einer Zahl ungleich Null (WAHR) annimmt. > !x [1] FALSE

—————–

Schauen wir uns ein Beispiel dafür an, wie Sie logische Operatoren zur Analyse von Daten verwenden können. Stellen Sie sich vor, Sie arbeiten mit dem Dataset zur Luftqualität, das in RStudio vorgeladen ist. Er enthält Daten über tägliche Messungen der Luftqualität in New York von Mai bis September 1973.

Der Dataframe hat sechs Spalten: Ozon (die Ozonmessung), Solar.R (die Sonnenmessung), Wind (die Windmessung), Temp (die Temperatur in Fahrenheit) und den Monat und den Tag dieser Messungen (jede Zeile steht für eine bestimmte Monats- und Tageskombination).

Image of the first four rows of the “airquality” dataset in the RStudio data viewer.

Schauen wir uns an, wie die Operatoren AND, OR und NOT in dieser Situation hilfreich sein könnten.

UND-Beispiel

Stellen Sie sich vor, Sie möchten Zeilen angeben, die extrem sonnig und windig sind, d.h. die einen Sonnenstand von über 150 und einen Windstand von über 10 haben.

In R können Sie diese logische Aussage als Solar.R > 150 & Wind > 10 ausdrücken.

Nur die Zeilen, in denen beide Bedingungen erfüllt sind, erfüllen die Kriterien:

Image of a single row of the “airquality” dataset in the RStudio data viewer.

ODER Beispiel

Als nächstes stellen Sie sich vor, Sie möchten Zeilen angeben, in denen es extrem sonnig oder extrem windig ist, was Sie als einen Sonnenmesswert von über 150 oder einen Windmesswert von über 10 definieren.

In R können Sie diese logische Anweisung als Solar.R > 150 | Wind > 10 ausdrücken.

Alle Zeilen, in denen eine dieser Bedingungen erfüllt ist, erfüllen die Kriterien:

Image of three rows of the “airquality” dataset in the RStudio data viewer.

NOT Beispiel

Stellen Sie sich nun vor, Sie möchten sich nur auf die Wettermessungen für Tage konzentrieren, die nicht der erste Tag des Monats sind.

In R können Sie diese logische Aussage als Day != 1 ausdrücken.

Die Zeilen, bei denen diese Bedingung erfüllt ist, erfüllen die Kriterien:

Image of three rows of the “airquality” dataset in the RStudio data viewer.

Stellen Sie sich vor, Sie möchten sich auf Szenarien konzentrieren, die nicht extrem sonnig und nicht extrem windig sind, basierend auf Ihren vorherigen Definitionen von extrem sonnig und extrem windig. Mit anderen Worten, die folgende Aussage sollte nicht zutreffen: entweder eine Sonnenmessung größer als 150 oder eine Windmessung größer als 10.

Beachten Sie, dass diese Aussage das Gegenteil der oben verwendeten ODER-Anweisung ist. Um diese Aussage in R auszudrücken, können Sie ein Ausrufezeichen (!) vor die vorherige OR-Anweisung setzen: !(Solar.R > 150 | Wind > 10). R wendet den Operator NOT auf alles innerhalb der Klammern an.

In diesem Fall erfüllt nur eine Zeile die Kriterien:

Image of a single row of the “airquality” dataset in the RStudio data viewer.

—————————————————————————————————————————————-

Optional: Bedingte Anweisungen

Eine bedingte Anweisung ist eine Erklärung, dass, wenn eine bestimmte Bedingung erfüllt ist, ein bestimmtes Ereignis eintreten muss. Zum Beispiel: „Wenn die Temperatur über dem Gefrierpunkt liegt , werde ich draußen spazieren gehen“ Wenn die erste Bedingung erfüllt ist (die Temperatur liegt über dem Gefrierpunkt), dann wird die zweite Bedingung eintreten (ich werde spazieren gehen). Bedingte Anweisungen in R Code haben eine ähnliche Logik.

Lassen Sie uns besprechen, wie Sie bedingte Anweisungen in R mit Hilfe von drei verwandten Anweisungen erstellen können:

  • if()

  • else()

  • else if()

if-Anweisung

Die if-Anweisung setzt eine Bedingung, und wenn die Bedingung zu TRUE ausgewertet wird, wird der mit der if-Anweisung verbundene R-Code ausgeführt.

In R platzieren Sie den Code für die Bedingung innerhalb der Klammern der if-Anweisung. Der Code, der ausgeführt werden muss, wenn die Bedingung WAHR ist, folgt in geschweiften Klammern (expr). Beachten Sie, dass in diesem Fall die zweite geschweifte Klammer in einer eigenen Codezeile steht und das Ende des Codes kennzeichnet, den Sie ausführen möchten.

if (condition) {

 expr

}

Lassen Sie uns zum Beispiel eine Variable x gleich 4 erstellen.

x <- 4

Als nächstes erstellen wir eine bedingte Anweisung: Wenn x größer als 0 ist, gibt R die Zeichenfolge aus “x is a positive number“. 

if (x > 0) {

  print(„x is a positive number“)

}

Da x = 4 ist, ist die Bedingung wahr (4 > 0). Wenn Sie den Code ausführen, gibt R daher die Zeichenfolge “x is a positive number“ aus.

[1] „x is a positive number“

Wenn Sie jedoch x in eine negative Zahl ändern, z.B. -4, dann ist die Bedingung FALSCH (-4 > 0). Wenn Sie den Code ausführen, wird R die Druckanweisung nicht ausführen. Stattdessen wird eine leere Zeile als Ergebnis angezeigt.

else-Anweisung

Die else-Anweisung wird in Kombination mit einer if-Anweisung verwendet. So ist der Code in R aufgebaut:

if (condition) {

  expr1

} else {

 expr2

}

Der mit der else-Anweisung verbundene Code wird immer dann ausgeführt, wenn die Bedingung der if-Anweisung nicht TRUE ist. Mit anderen Worten: Wenn die Bedingung WAHR ist, dann führt R den Code in der if-Anweisung(expr1) aus; wenn die Bedingung nicht WAHR ist, dann führt R den Code in der else-Anweisung(expr2) aus.

Lassen Sie uns ein Beispiel ausprobieren. Erstellen Sie zunächst eine Variable x, die gleich 7 ist.

x <- 7

Als nächstes stellen wir die folgenden Bedingungen auf:

  • Wenn x größer als 0 ist, wird R “x is a positive number” ausgeben.

  • Wenn x kleiner oder gleich 0 ist, gibt R “x is either a negative number or zero” aus.

In unserem Code wird die erste Bedingung (x > 0) Teil der if-Anweisung sein. Die zweite Bedingung, dass x kleiner oder gleich 0 ist, wird in der else-Anweisung impliziert. Wenn x > 0 ist, wird R “x is a positive number” ausgeben. Andernfalls gibt R “x is either a negative number or zero” aus.

x <- 7

if (x > 0) {

 print („x is a positive number“)

} else {

 print („x is either a negative number or zero“)

}

Da 7 größer als 0 ist, ist die Bedingung der if-Anweisung wahr. Wenn Sie den Code ausführen, gibt R also “x is a positive number” aus.

[1] „x is a positive number“

Wenn Sie jedoch x gleich -7 machen, ist die Bedingung der if-Anweisung nicht wahr (-7 ist nicht größer als 0). Daher wird R den Code in der else-Anweisung ausführen. Wenn Sie den Code ausführen, druckt R “x is either a negative number or zero” aus.

x <- -7

if (x > 0) {

 print(„x is a positive number“)

} else {

 print („x is either a negative number or zero“)

}

[1] „x is either a negative number or zero“

else if-Anweisung

In einigen Fällen möchten Sie Ihre bedingte Anweisung vielleicht noch weiter anpassen, indem Sie die else if-Anweisung hinzufügen. Die else if-Anweisung wird zwischen der if-Anweisung und der else-Anweisung eingefügt. Dies ist die Codestruktur:

if (condition1) {

 expr1

} else if (condition2) {

 expr2

} else {

 expr3

}

Wenn die if-Bedingung(condition1) erfüllt ist, dann führt R den Code im ersten Ausdruck(expr1) aus. Wenn die if-Bedingung nicht erfüllt ist und die else-Bedingung(condition2) erfüllt ist, dann führt R den Code im zweiten Ausdruck(expr2) aus. Wenn keine der beiden Bedingungen erfüllt ist, führt R den Code im dritten Ausdruck(expr3) aus.

In unserem vorherigen Beispiel kann R mit Hilfe der if- und else-Anweisungen nur dann “x is either a negative number or zero” ausgeben, wenn x gleich 0 ist oder x kleiner als Null ist. Stellen Sie sich vor, Sie möchten, dass R die Zeichenkette “x is zero” ausgibt, wenn x gleich 0 ist. Dazu müssen Sie eine weitere Bedingung mit der if-Anweisung else hinzufügen.

Lassen Sie uns ein Beispiel versuchen. Legen Sie zunächst eine Variable x an, die den Wert 1 („-1“) hat, und führen Sie den Code aus, um die Variable im Speicher zu speichern.

x <- -1

Nun möchten Sie die folgenden Bedingungen einrichten:

  • Wenn x kleiner als 0 ist, drucken Sie “x is a negative number”

  • Wenn x gleich 0 ist, drucken Sie “x is zero”

  • Andernfalls drucken Sie “x is a positive number”

Im Code wird die erste Bedingung Teil der if-Anweisung sein, die zweite Bedingung Teil der else if-Anweisung und die dritte Bedingung Teil der else-Anweisung. Wenn x < 0 ist, dann druckt R “x is a negative number”.. Wenn x = 0 ist, dann druckt R “x is zero”. Andernfalls wird R “x is a positive number” ausgeben.

x <- -1

# run the code

if (x < 0) {

 print(„x is a negative number“)

} else if (x == 0) {

 print(„x is zero“)

} else {

 print(„x is a positive number“)

}

Führen Sie den Code aus. Da -1 kleiner als 0 ist, wird die Bedingung für die if-Anweisung zu TRUE ausgewertet und R gibt “x is a negative number” aus.

[1] „x is a negative number“

Wenn Sie x gleich 0 machen, prüft R zunächst die if-Bedingung (x < 0) und stellt fest, dass sie FALSE ist. Dann wertet R die else if-Bedingung aus. Diese Bedingung, x==0, ist TRUE. In diesem Fall gibt R also “x is zero” aus.

Wenn Sie x gleich 1 machen, ergeben sowohl die if-Bedingung als auch die else if-Bedingung FALSE. R führt also die else-Anweisung aus und gibt “x is a positive number” aus.

Sobald R eine Bedingung entdeckt, die zu TRUE ausgewertet wird, führt R den entsprechenden Code aus und ignoriert den Rest.

Zusätzliche Ressource

Wenn Sie mehr über logische Operatoren und bedingte Anweisungen erfahren möchten, sehen Sie sich das Tutorial von DataCamp an Konditionale Anweisungen und Kontrolle Flow in R. DataCamp ist eine beliebte Ressource für Menschen, die sich mit Computerprogrammierung beschäftigen. Das Tutorial ist voll von nützlichen Beispielen für Coding-Apps für logische Operatoren und bedingte Anweisungen (und relationale Operatoren) und bietet einen hilfreichen Überblick über jedes Thema und die Verbindungen zwischen ihnen.

Das Geschenk, das nicht aufhört zu geben

Video 243

Verfügbare R-Pakete

Um R für Ihre Datenanalyse optimal zu nutzen, müssen Sie Pakete installieren. Pakete sind Einheiten von reproduzierbarem R-Code, mit denen Sie R weitere Funktionen hinzufügen können. Das Beste daran ist, dass die R-Community Pakete erstellt und weitergibt, damit andere Nutzer darauf zugreifen können! In dieser Lektüre erfahren Sie mehr über weit verbreitete Pakete und wo Sie sie finden können.

Image of a person in a suit unloading boxes from a truck

Pakete finden Sie in Repositories, d.h. in Sammlungen nützlicher Pakete, die zur Installation bereitstehen. Sie können Repositories auf Bioconductor, R-Forge, rOpenSci oder GitHub finden, aber das am häufigsten verwendete Repository ist das Comprehensive R Archive Network oder CRAN. CRAN speichert Code und Dokumentation, so dass Sie die Pakete in Ihrem eigenen RStudio-Bereich installieren können.

Paket-Dokumentation

Pakete enthalten nicht nur den Code selbst, sondern auch eine Dokumentation, in der der Autor des Pakets, seine Funktion und alle anderen Pakete, die Sie herunterladen müssen, erläutert werden. Wenn Sie CRAN verwenden, finden Sie die Paketdokumentation in der Datei DESCRIPTION.

Lesen Sie Karl Bromans R Package Primer , um mehr zu erfahren.

Die Auswahl der richtigen Pakete

Bei der großen Anzahl von Paketen kann es schwierig sein, herauszufinden, welche Pakete für Ihre Mediathek oder Ihr Verzeichnis der installierten Pakete am nützlichsten sein werden. Glücklicherweise gibt es einige großartige Ressourcen:

  • Tidyverse: tidyverse ist eine Sammlung von R-Paketen, die speziell für die Arbeit mit Daten entwickelt wurden. Es ist eine Standard-Mediathek für die meisten Fachkräfte für Datenanalyse, aber Sie können die Pakete auch einzeln herunterladen.

  • Schnelle Liste nützlicher R-Pakete: Dies ist die Liste nützlicher Pakete von RStudio Support mit Installationsanweisungen und Funktionsbeschreibungen.

  • CRAN Task Views: Dies ist ein Index der CRAN Pakete, sortiert nach Aufgabe. Sie können nach der Art der Aufgabe suchen, die Sie durchführen müssen, und es wird eine Seite mit Paketen angezeigt, die mit dieser Aufgabe in Zusammenhang stehen und die Sie untersuchen können.

Sie werden im Laufe dieses Kurses weitere Pakete entdecken, wenn Sie R häufiger verwenden, aber dies ist ein guter Ausgangspunkt für den Aufbau Ihrer eigenen Mediathek.

Willkommen im tidyverse

Video 244

Mehr über das tidyverse

Video 245

Verwenden Sie Pipes zum Verschachteln von Code

Video 246

R-Ressourcen für mehr Hilfe

An uppercase R is giving a presentation to a bunch of lowercase r letters

Die R-Gemeinschaft ist voll von engagierten Nutzern, die sich gegenseitig helfen, Lösungen für Probleme und neue Möglichkeiten der Verwendung von R zu finden. Es gibt auch eine Menge großartiger Blogs, in denen Sie Tutorials und andere Ressourcen finden. Hier sind einige von ihnen:

Hinweis: Aufgrund der Änderung des Unternehmens von R Studio zu Posit haben sich die Referenzen in den folgenden Ressourcen möglicherweise geändert.

  • Posit (RStudio): Der beste Ort, um Hilfe zu R zu finden, ist in R selbst! Sie können ‚?‘ oder den Befehl help() eingeben, um in R zu suchen. Sie können auch das Hilfe-Fenster öffnen, um weitere Ressourcen zu R zu finden.

  • Posit Blog: Der Blog von Posit ist ein hervorragender Ort, um Informationen über RStudio zu finden, einschließlich Unternehmensnachrichten. Sie können die neuesten vorgestellten Beiträge oder verwenden Sie die Suchleiste und die Liste der Kategorien auf der linken Seite, um bestimmte Themen zu erkunden, die Sie interessieren könnten, oder um nach einem bestimmten Beitrag zu suchen.

  • Stack Overflow: Der Stack Overflow Blog veröffentlicht Meinungen und Ratschläge von anderen Programmierern. Dies ist ein großartiger Ort, um mit den Gesprächen in der Community in Kontakt zu bleiben.

  • R-Blogger: Der R-Bloggers-Blog enthält nützliche Tutorials und Nachrichtenartikel, die von anderen Nutzern von R in der Community veröffentlicht werden.

  • R-Bloggers‘ Tutorials zum Erlernen von R: Dieser Blog-Post von R-Bloggers stellt einige grundlegende R-Tutorials zusammen und verweist auch auf weiterführende Anleitungen.

Connor: Coding-Tipps

Video 247

Daten in R

Video 248

Einführung in RStudio

Video 249

R Dataframes

Video 250

Arbeiten mit Dataframes

Video 251

Mehr über Tibbles

In dieser Lektüre lernen Sie Tibbles kennen, ein äußerst nützliches Werkzeug zur Organisation von Daten in R. Sie erhalten einen Überblick darüber, was Tibbles sind, wie sie sich von Standard-Dataframes unterscheiden und wie man sie in R erstellt.

Tibbles

Image of a person sitting down holding an empty frame. There are other empty picture frames on the floor around them.

Tibbles unterscheiden sich ein wenig von Standard Dataframes. Ein Dataframe ist eine Sammlung von Spalten, wie eine Tabelle oder eine SQL-Tabelle. Tibbles sind wie optimierte Dataframes, die automatisch so eingestellt sind, dass sie nur die ersten 10 Zeilen eines Datasets und nur so viele Spalten anzeigen, wie auf den Bildschirm passen. Dies ist sehr nützlich, wenn Sie mit großen Datenmengen arbeiten. Anders als Dataframes ändern Tibbles niemals die Namen Ihrer Variablen oder die Datentypen Ihrer Eingaben. Insgesamt können Sie zwar mehr Änderungen an Dataframes vornehmen, aber Tibbles sind einfacher zu verwenden. Das tibble-Paket ist Teil des Kerns von tidyverse. Wenn Sie also tidyverse bereits installiert haben, haben Sie alles, was Sie brauchen, um mit tibbles zu arbeiten.

Tibbles erstellen

Lassen Sie uns nun anhand eines Beispiels zeigen, wie Sie ein Tibble in R erstellen. Sie können das vorinstallierte Diamonds Dataset verwenden, das Sie bereits aus früheren Videos kennen. AS, das Diamonds Dataset enthält Informationen über verschiedene Diamantqualitäten wie Karat, Schliff, Farbe, Reinheit und mehr.

Sie können das Dataset mit der Funktion data() laden, indem Sie den folgenden Code verwenden:

library(tidyverse) 

data(diamonds)

Dann fügen wir den Dataframe mit der Funktion View() zu unserem Datenbetrachter in RStudio hinzu.

View(diamonds)

Das Dataset besteht aus 10 Spalten und Tausenden von Zeilen. Dieses Bild zeigt einen Teil des Dataframes:

Image of the first 21 rows of the “diamonds” dataset in the RStudio data viewer.

Lassen Sie uns nun ein Tibble aus demselben Dataset erstellen. Sie können mit der Funktion as_tibble() ein Tibble aus vorhandenen Daten erstellen. Geben Sie in den Klammern der Funktion die Daten an, die Sie verwenden möchten. In diesem Fall geben Sie das Wort „Diamanten“ ein

as_tibble(diamonds)

Ergebnisse

Wenn Sie die Funktion ausführen, erhalten Sie ein Tibble des Diamanten Dataset.

screenshot of a tibble of the same diamonds dataset

Während das integrierte Dataframe-Tool von RStudio Tausende von Zeilen im Diamonds Dataset zurückgibt, liefert das Tibble nur die ersten 10 Zeilen in einer übersichtlichen Tabelle. Das erleichtert das Anzeigen und Drucken.

Zusätzliche Ressourcen

Weitere Informationen zu Tibbles finden Sie in den folgenden Ressourcen:

  • Der Eintrag für Tibble in der Tidyverse-Dokumentation fasst zusammen, was ein Tibble ist und wie es in R-Code funktioniert. Wenn Sie sich einen schnellen Überblick über das Wesentliche verschaffen wollen, ist dies die richtige Adresse für Sie.

  • Das Tidy-Kapitel in „A Tidyverse Cookbook“ ist eine hervorragende Ressource, wenn Sie mehr darüber erfahren möchten, wie Sie mit Tibbles in R-Code arbeiten können. Das Kapitel beschäftigt sich mit einer Vielzahl von R-Funktionen, mit denen Sie Tibbles erstellen und umwandeln können, um Ihre Daten zu organisieren und aufzuräumen.

Daten-Import Grundlagen

Die Funktion data()

 

Image of a machine with a control panel, a slot for inputs, and a conveyor belt for outputs.

Die Standardinstallation von R wird mit einer Reihe von vorinstallierten Datasets geliefert, mit denen Sie üben können. Dies ist eine gute Möglichkeit, Ihre R-Kenntnisse zu erweitern und einige wichtige Funktionen zur Datenanalyse kennenzulernen. Außerdem verwenden viele Online-Ressourcen und Tutorials diese Stichproben-Datasets, um Coding-Konzepte in R zu vermitteln.

Sie können die Funktion data() verwenden, um diese Datasets in R zu laden. Wenn Sie die Funktion data ohne ein Argument ausführen, zeigt R eine Liste der verfügbaren Datasets an.

data()

Dazu gehört auch die Liste der vorgeladenen Datasets aus dem Paket datasets.

 Image of the names of preloaded datasets in the RStudio viewer

Wenn Sie einen bestimmten Dataset laden möchten, geben Sie einfach dessen Namen in die Klammern der Funktion data() ein. Lassen Sie uns zum Beispiel das Dataset mtcars laden, das Informationen über Autos enthält, die in vergangenen Ausgaben der Zeitschrift Motor Trend vorgestellt wurden.

data(mtcars)

Wenn Sie die Funktion ausführen, wird R das Dataset laden. Der Dataset wird auch im Environment-Fenster Ihres RStudios angezeigt. Das Umgebungsfenster zeigt die Namen der Datenobjekte, wie Dataframes und Variablen, an, die Sie in Ihrem aktuellen Arbeitsbereich haben. In dieser Abbildung erscheint mtcars in der fünften Zeile des Fensters. R sagt uns, dass es 32 Beobachtungen und 11 Variablen enthält.

Image of the names of loaded datasets in the environment pane of RStudio.

Jetzt, da das Dataset geladen ist, können Sie sich im R Konsolenfenster eine Vorschau ansehen. Geben Sie einfach seinen Namen ein…

mtcars

…und drücken Sie dann ctrl (oder cmnd) und enter.

screenshot of dataset preview display

Sie können das Dataset auch anzeigen, indem Sie direkt auf den Namen des Datasets im Bereich Umgebung klicken. Wenn Sie also im Umgebungsfenster auf mtcars klicken, führt R automatisch die Funktion View() aus und zeigt das Dataset im RStudio-Datenviewer an.

Image of the first ten rows of the “mtcars” dataset in the RStudio data viewer.

Experimentieren Sie mit anderen Datasets aus der Liste, wenn Sie mehr Übung brauchen.

Das readr-Paket

Neben der Verwendung der in R eingebauten Datasets ist es auch hilfreich, Daten aus anderen Quellen zu importieren, um sie für Übungen oder Analysen zu verwenden. Das readr-Paket in R ist ein hervorragendes Werkzeug zum Lesen rechteckiger Daten. Rechteckige Daten sind Daten, die in ein Rechteck aus Zeilen und Spalten passen, wobei sich jede Spalte auf eine einzelne Variable und jede Zeile auf eine einzelne Beobachtung bezieht.

Hier sind einige Beispiele für Datentypen, die rechteckige Daten speichern:

  • .csv (kommagetrennte Werte): eine .csv-Datei ist eine einfache Textdatei, die eine Liste von Daten enthält. Sie verwenden meist Kommas, um Daten zu trennen (oder abzugrenzen), aber manchmal werden auch andere Zeichen wie Semikolons verwendet.

  • .tsv (Tab-getrennte Werte): Eine .tsv-Datei speichert eine Datentabelle, in der die Datenspalten durch Tabulatoren getrennt sind. Zum Beispiel eine Datenbanktabelle oder Daten aus einer Tabelle.

  • .fwf (Dateien mit fester Spaltenbreite): eine .fwf-Datei hat ein spezielles Format, das die Speicherung von Textdaten in einer organisierten Form ermöglicht.

  • .log: eine .log-Datei ist eine vom Computer erzeugte Datei, die Datensätze von Betriebssystemen und anderen Software-Programmen aufzeichnet.

Base R verfügt auch über Funktionen zum Lesen von Dateien, aber die entsprechenden Funktionen in readr sind in der Regel viel schneller. Außerdem erzeugen sie Tibbles, die einfach zu verwenden und zu lesen sind.

Das Paket readr ist Teil des Kernpakets tidyverse. Wenn Sie also tidyverse bereits installiert haben, haben Sie alles, was Sie brauchen, um mit readr zu arbeiten. Wenn nicht, können Sie tidyverse jetzt installieren.

readr Funktionen

Das Ziel von readr ist es, eine schnelle und benutzerfreundliche Methode zum Lesen von rechteckigen Daten bereitzustellen. readr unterstützt mehrere read_ Funktionen. Jede Funktion bezieht sich auf ein bestimmtes Dateiformat.

  • read_csv()cSV-Dateien (comma-separated values, kommagetrennte Werte)

  • read_tsv(): Tab-getrennte Werte-Dateien

  • read_delim(): allgemeine Dateien mit Trennzeichen

  • read_fwf(): Dateien mit fester Breite

  • read_table(): Tabellarische Dateien, bei denen die Spalten durch Weißraum getrennt sind

  • read_log(): Web-Protokolldateien

Diese Funktionen haben alle eine ähnliche Syntax. Wenn Sie also einmal gelernt haben, wie man eine dieser Funktionen benutzt, können Sie Ihr Wissen auch auf die anderen anwenden. Diese Lektüre konzentriert sich auf die Funktion read_csv(), da .csv-Dateien eine der gängigsten Formen der Datenspeicherung sind und Sie häufig mit ihnen arbeiten werden.

In den meisten Fällen funktionieren diese Funktionen automatisch: Sie geben den Pfad zu einer Datei an, führen die Funktion aus und erhalten ein Tibble, das die Daten in der Datei anzeigt. Hinter den Kulissen analysiert readr die gesamte Datei und gibt an, wie jede Spalte von einem Zeichenvektor in den am besten geeigneten Datentyp konvertiert werden soll.

Lesen einer .csv-Datei mit readr

Das readr-Paket wird mit einigen Stichproben aus integrierten Datasets geliefert, die Sie für Beispielcode verwenden können. Um die Beispieldateien aufzulisten, können Sie die Funktion readr_example() ohne Argumente ausführen.

readr_example()

[1] „challenge.csv“     „epa78.txt“         „example.log“      

[4] „fwf-sample.txt“    „massey-rating.txt“ „mtcars.csv“       

[7] „mtcars.csv.bz2“    „mtcars.csv.zip“

Die Datei “mtcars.csv” bezieht sich auf das bereits erwähnte Dataset mtcars. Lassen Sie uns als Beispiel die Funktion read_csv() verwenden, um die Datei “mtcars.csv” zu lesen. In den Klammern müssen Sie den Pfad zu der Datei angeben. In diesem Fall ist es “readr_example(“mtcars.csv”).

read_csv(readr_example(„mtcars.csv“))

Wenn Sie die Funktion ausführen, gibt R eine Spaltenspezifikation aus, die den Namen und den Typ jeder Spalte enthält.

screenshot of column specification

R gibt auch ein Tibble aus.

screenshot of a tibble of the first 10 rows. 22 more rows are hidden

——————————————————————————————————

Optional: das readxl-Paket

Um Daten aus Tabellenkalkulationen in R zu importieren, können Sie das readxl-Paket verwenden. Das readxl-Paket erleichtert die Übertragung von Daten aus Excel nach R. Readxl unterstützt sowohl das alte .xls-Dateiformat als auch das moderne xml-basierte .xlsx-Dateiformat.

Das readxl-Paket ist Teil von tidyverse, aber kein Kernpaket von tidyverse. Sie müssen readxl also mit der Funktion library() in R laden.

library(readxl)

Lesen einer .xlsx-Datei mit readxl

Wie das readr-Paket enthält auch readxl einige Stichproben aus integrierten Datasets, die Sie zum Üben verwenden können. Sie können den Code readxl_example() ausführen, um die Liste zu sehen.

Sie können die Funktion read_excel() verwenden, um eine Tabellenkalkulationsdatei zu lesen, genauso wie Sie die Funktion read_csv() verwenden, um eine .csv-Datei zu lesen. Der Code zum Lesen der Beispieldatei “type-me.xlsx” enthält den Pfad zur Datei in den Klammern der Funktion.

read_excel(readxl_example(„type-me.xlsx“))

Sie können die Funktion excel_sheets() verwenden, um die Namen der einzelnen Blätter aufzulisten.

excel_sheets(readxl_example(„type-me.xlsx“))

[1] „logical_coercion“ „numeric_coercion“ „date_coercion“ „text_coercion“

Sie können ein Blatt auch über den Namen oder die Nummer angeben. Geben Sie einfach “sheet =” gefolgt von dem Namen oder der Nummer des Blattes ein. Sie können zum Beispiel das Blatt mit dem Namen “numeric_coercion” aus der obigen Liste verwenden.

read_excel(readxl_example(„type-me.xlsx“), sheet = „numeric_coercion“)

Wenn Sie die Funktion ausführen, gibt R ein Tibble des Blattes zurück.

screenshot of a tibble with 7 rows

Zusätzliche Ressourcen

  • Wenn Sie lernen möchten, wie Sie readr-Funktionen verwenden können, um mit komplexeren Dateien zu arbeiten, lesen Sie das Kapitel Datenimport des Buchs R für Datenwissenschaft. Darin werden einige der häufigsten Probleme behandelt, die beim Lesen von Dateien auftreten können, und wie Sie readr verwenden können, um diese Probleme zu bewältigen.

  • Die readxl eintrag in der tidyverse Dokumentation gibt einen guten Überblick über die grundlegenden Funktionen in readxl, erklärt ausführlich die Funktionsweise des Pakets und die dahinter stehenden Coding-Konzepte und bietet Links zu anderen nützlichen Ressourcen.

  • Das R „datasets“ Paket enthält viele nützliche vorinstallierte Datasets. Eine Liste finden Sie unter The R Datasets Package. Die Liste enthält Links zu detaillierten Beschreibungen der einzelnen Datasets.

 

Aufräumen mit den Grundlagen

Video 252

Namenskonventionen für Dateien

Ein wichtiger Teil der Bereinigung von Daten besteht darin, sicherzustellen, dass alle Ihre Dateien korrekt benannt sind. Auch wenn die individuellen Präferenzen ein wenig variieren, sind sich die meisten Analysten darin einig, dass Dateinamen genau, konsistent und leicht zu lesen sein sollten. In dieser Lektüre finden Sie einige allgemeine Richtlinien, die Sie bei der Benennung oder Umbenennung Ihrer Datendateien beachten sollten.

A tall filing cabinet with one open drawer. Manila files are spread across the floor below.

Was steckt in einem (Datei-)Namen?

Wenn Sie zum ersten Mal mit R (oder einer anderen Programmiersprache, einem Analysetool oder einer Plattform) arbeiten, sollten Sie oder Ihr Unternehmen Namenskonventionen für Ihre Dateien festlegen. Damit stellen Sie sicher, dass jeder, der Ihre Analyse überprüft – Sie selbst eingeschlossen – schnell und einfach finden kann, was er braucht. Im Folgenden finden Sie einige hilfreiche „Do’s“ und „Don’ts“, die Sie bei der Benennung Ihrer Dateien beachten sollten.

Do

  • Halten Sie Ihre Dateinamen auf eine angemessene Länge

  • Verwenden Sie Unterstriche und Bindestriche zur besseren Lesbarkeit

  • Beginnen oder beenden Sie Ihren Dateinamen mit einem Buchstaben oder einer Zahl

  • Verwenden Sie ein Standard-Datumsformat, falls zutreffend; Beispiel: JJJJ-MM-TT

  • Verwenden Sie Dateinamen für zusammenhängende Dateien, die gut mit der Standardreihenfolge funktionieren; Beispiel: in chronologischer Reihenfolge oder in logischer Reihenfolge mit Zahlen zuerst

Beispiele für gute Dateinamen

2020-04-10_März-Anwesenheit.R

2021_03_20_neue_Kunden_ids.csv

01_daten-verkäufe.html

02_daten-verkäufe.html

Vermeiden Sie

  • Verwenden Sie keine unnötigen zusätzlichen Zeichen in Dateinamen

  • Verwenden Sie Leerzeichen oder „illegale“ Zeichen; Beispiele: &, %, #, <, oder >

  • Beginnen oder beenden Sie Ihren Dateinamen mit einem Symbol

  • Verwenden Sie unvollständige oder inkonsistente Datumsformate; Beispiel: M-D-YY

  • Verwenden Sie Dateinamen für zusammengehörige Dateien, die mit der Standardreihenfolge nicht gut funktionieren; Beispiele: ein Zufallszahlen-System oder Datumsformate oder die Verwendung von Buchstaben an erster Stelle

Beispiele für zu vermeidende Dateinamen

4102020Marktorganisation<Workinprogress>.R

_20210320*newcustomeridsforfebonly.csv

firstfile_for_datasales/1-25-2020.html

zweiteDatei_für_Verkaufsdaten/2-5-2020.html

Zusätzliche Ressourcen

Diese Ressourcen enthalten weitere Informationen zu einigen der hier besprochenen Standards für die Benennung von Dateien und bieten zusätzliche Statistiken zu bewährten Verfahren.

  • Wie man Dateien benennt: Diese Ressource von Speaker Deck ist ein spielerischer Ansatz für die Benennung von Dateien. Sie enthält mehrere Folien mit Tipps und Beispielen für die korrekte Benennung vieler verschiedener Arten von Dateien. Sie erfahren, warum Dateinamen sowohl maschinenlesbar als auch menschenlesbar sein sollten.

  • Benennung und Struktur von Dateien: Diese Ressource aus der Mediathek der Princeton University bietet eine übersichtliche Liste mit bewährten Verfahren, Überlegungen und Beispielen für die Entwicklung von Dateinamenskonventionen.

 
 

Mehr über R Operatoren

Sie erinnern sich vielleicht daran, dass ein Operator ein Symbol ist, das die Art der Operation oder Berechnung angibt, die in einer Formel durchgeführt werden soll. In einem früheren Video haben Sie gelernt, wie Sie die Operatoren Zuweisung und Arithmetik verwenden, um Variablen zuzuweisen und Berechnungen durchzuführen. In dieser Lektüre erhalten Sie eine detaillierte Zusammenfassung der wichtigsten Arten von Operatoren in R und lernen, wie Sie bestimmte Operatoren in R-Code verwenden.

Operatoren

in R gibt es vier Haupttypen von Operatoren:

  1. Arithmetische Operatoren

  2. Relativität

  3. Logisch

  4. Zuweisung

Schauen Sie sich die spezifischen Operatoren in jeder Kategorie an und sehen Sie sich einige Beispiele an, wie Sie diese in R-Code verwenden können.

Arithmetische Operatoren

Mitarithmetischen Operatoren können Sie grundlegende mathematische Operationen wie Addition, Subtraktion, Multiplikation und Division durchführen.

Die folgende Tabelle fasst die verschiedenen arithmetischen Operatoren in R zusammen. Die in der Tabelle verwendeten Beispiele basieren auf der Erstellung von zwei Variablen: : x ist gleich 2 und y ist gleich 5. Beachten Sie, dass Sie den Zuweisungsoperator verwenden, um diese Werte zu speichern:

x <- 2

y <- 5

Operator

Beschreibung

Beispiel Code

Ergebnis/ Ausgabe

+

Addition

x + y

[1] 7

Subtraktion

x – y

[1] -3

*

Multiplikation

x * y

[1] 10

/

Division

x / y

[1] 0.4

%%

Modulus (gibt den Rest nach der Division zurück)

y %% x

[1] 1

%/%

Ganzzahlige Division (gibt nach der Division einen ganzzahligen Wert zurück)

y%/% x

[1] 2

^

Exponent

y ^ x

[1]25

Relationale Operatoren

Relationale Operatoren, auch bekannt als Komparatoren, ermöglichen es Ihnen, Werte zu vergleichen. Relationale Operatoren geben an, wie sich ein R-Objekt zu einem anderen verhält, z. B. ob ein Objekt kleiner, gleich oder größer als ein anderes Objekt ist. Die Ausgabe für Relationale Operatoren ist entweder TRUE oder FALSE (was ein logischer Datentyp oder boolesch ist).

Die folgende Tabelle fasst die sechs relationalen Operatoren in R zusammen. Die in der Tabelle verwendeten Beispiele basieren auf der Erstellung von zwei Variablen: x gleich 2 und y gleich 5. Beachten Sie, dass Sie den Zuweisungsoperator verwenden, um diese Werte zu speichern.

x <- 2

y <- 5

Wenn Sie mit jedem Operator Berechnungen durchführen, erhalten Sie die folgenden Ergebnisse. In diesem Fall ist die Ausgabe boolesch: TRUE oder FALSE. Beachten Sie, dass die [1], die vor jeder Ausgabe erscheint, dazu dient, darzustellen, wie die Ausgabe in RStudio angezeigt wird.

Operator

Beschreibung

Beispiel Code

Ergebnis/Ausgabe

<

Kleiner als

x < y

[1] WAHR

>

Größer als

x > y

[1] FALSCH

<=

Kleiner als oder gleich

x < = 2

[1] WAHR

>=

Größer als oder gleich

y >= 10

[1] FALSCH

==

Gleich

y == 5

[1] WAHR

!=

Nicht gleich

x != 2

[1] FALSCH

Logische Operatoren

Mitlogischen Operatoren können Sie logische Werte kombinieren. Logische Operatoren geben einen logischen Datentyp oder einen booleschen Wert (TRUE oder FALSE) zurück. Logische Operatoren haben Sie bereits in Logische Operatoren und bedingte Anweisungen kennengelernt, aber hier gibt es eine kurze Auffrischung.

In der folgenden Tabelle finden Sie eine Zusammenfassung der logischen Operatoren in R.

Operator

Beschreibung

&

Elementweises logisches UND

&&

Logisches UND

|

Elementweises logisches ODER

||

Logisches ODER

!

Logisches NOT

Als nächstes sehen Sie sich einige Beispiele an, wie logische Operatoren in R-Code funktionieren.

Elementweises logisches AND (&) und OR (|)

Sie können das logische AND (&) und OR (|) veranschaulichen, indem Sie numerische Werte vergleichen. Erstellen Sie eine Variable x, die gleich 10 ist.

x <- 10

Der Operator AND gibt nur dann TRUE zurück, wenn beide Einzelwerte TRUE sind.

x > 2 & x < 12

[1] WAHR

10 ist größer als 2 und 10 ist kleiner als 12. Die Operation ergibt also TRUE.

Der OR Operator (|) funktioniert auf ähnliche Weise wie der AND Operator (&). Der Hauptunterschied besteht darin, dass nur einer der Werte der OR-Operation WAHR sein muss, damit die gesamte OR-Operation als WAHR ausgewertet wird. Nur wenn beide Werte FALSCH sind, wird die gesamte ODER-Verknüpfung als FALSE ausgewertet.

Versuchen Sie nun ein Beispiel mit der gleichen Variable (x <- 10):

x > 2 | x < 8

[1] TRUE

10 ist größer als 2, aber 10 ist nicht kleiner als 8. Da aber mindestens einer der Werte (10>2) WAHR ist, ergibt die ODER-Verknüpfung den Wert TRUE.

Logisches NOT (!)

Der NOT Operator negiert einfach den logischen Wert und wertet das Gegenteil aus. In R gilt Null als FALSCH und alle Zahlen, die nicht Null sind, gelten als WAHR.

Wenden Sie zum Beispiel den Operator NOT auf Ihre Variable (x <- 10) an:

!(x < 15)

[1] FALSE

Die NOT-Operation ergibt FALSE, da sie den entgegengesetzten logischen Wert der Anweisung x < 15 annimmt, der WAHR ist (10 ist kleiner als 15).

Zuweisungsoperatoren

MitZuweisungsoperatoren können Sie Variablen Werte zuweisen.

In vielen Scripting Programmiersprachen können Sie einfach das Gleichheitszeichen (=) verwenden, um eine Variable zuzuweisen. In R verwenden Sie am besten die Pfeilzuweisung (<-). Technisch gesehen kann die einfache Pfeilzuweisung in die linke oder rechte Richtung verwendet werden. Aber die Zuweisung nach rechts wird im Allgemeinen nicht in R-Code verwendet.

Sie können auch die Doppelpfeil-Zuweisung verwenden, die als Scoping-Zuweisung bekannt ist. Die Scoping-Zuweisung ist jedoch für fortgeschrittene Nutzer von R gedacht, so dass Sie sie in dieser Lektüre nicht kennenlernen werden.

Die folgende Tabelle fasst die Operatoren für Zuweisungen und den Beispielcode in R zusammen. Beachten Sie, dass die Ausgabe für jede Variable der ihr zugewiesene Wert ist.

Operator

Beschreibung

Beispielcode (nach der Stichprobe unten wird durch Eingabe von x die Ausgabe in der nächsten Spalte erzeugt)

Ergebnis/ Ausgabe

<-

Zuweisung nach links

x <- 2

[1] 2

<<-

Zuweisung nach links

x <<- 7

[1] 7

=

Zuweisung nach links

x = 9

[1] 9

->

Zuweisung nach rechts

11 -> x

[1] 11

->>

Zuweisung nach rechts

21 ->> x

[1] 21

Die Operatoren, die Sie in dieser Lektüre kennen gelernt haben, sind eine hervorragende Grundlage für die Verwendung von Operatoren in R.

Zusätzliche Ressource

Sehen Sie sich den Artikel über R Operatoren auf der R Coder-Website, um einen umfassenden Leitfaden zu den verschiedenen Arten von Operatoren in R zu erhalten. Der Artikel enthält viele nützliche Coding-Beispiele und Informationen über verschiedene Operatoren, den Infix-Operator und den Pipe-Operator.

Organisieren Sie Ihre Daten

Video 253

Daten transformieren

Video 254

Breit bis lang mit Tidyr

Wenn Sie Ihre Daten mit R organisieren oder aufräumen, müssen Sie möglicherweise Wide Data in Long Data oder Long in Wide konvertieren. Erinnern Sie sich daran, wie die Daten in einer Tabelle im Wide-Format aussehen:

screenshot of a spreadsheet in wide format. there are 7 rows shown and 8 columns

Wide Data enthält Beobachtungen über mehrere Spalten hinweg. Jede Spalte enthält Daten aus einer anderen Bedingung der Variable. In diesem Beispiel sind die Spalten verschiedene Jahre.

Sehen Sie sich nun die gleichen Daten in einem Langformat an:

screenshot of spreadsheet in long format. there are 12 rows shown and 3 columns

Um noch einmal zu wiederholen, was Sie bereits über den Unterschied gelernt haben: Long Data enthält alle Beobachtungen in einer einzigen Spalte, und die Bedingungen der Variablen sind in separaten Zeilen untergebracht.

Die Funktionen pivot_longer und pivot_wider

Image of 1 person vacuuming and another person sweeping piles of data and visualizations.

Es gibt zwingende Gründe, beide Formate zu verwenden. Aber als Analytiker ist es wichtig zu wissen, wie man Daten aufräumt, wenn es nötig ist. In R haben Sie vielleicht einen Dataframe in einem breiten Format, der mehrere Variablen und Bedingungen für jede Variable enthält. Das kann sich ein bisschen unordentlich anfühlen.

An dieser Stelle kommt pivot_longer()ins Spiel. Als Teil des tidyr Pakets können Sie diese R Funktion verwenden, um die Daten in einem Dataframe zu verlängern, indem Sie die Anzahl der Zeilen erhöhen und die Anzahl der Spalten verringern. Ähnlich verhält es sich, wenn Sie Ihre Daten so konvertieren möchten, dass sie mehr Spalten und weniger Zeilen haben, dann verwenden Sie die Funktion pivot_wider().

Zusätzliche Ressourcen

Wenn Sie mehr über diese beiden Funktionen und ihre Anwendung in Ihrer Programmierung in R erfahren möchten, lesen Sie diese Ressourcen:

  • Pivotieren: Betrachten Sie dies als Ausgangspunkt für das Aufräumen von Daten durch Wide und Long Conversions. Diese Webseite stammt direkt aus den Informationen zum Paket tidyr unter tidyverse.org. Sie erläutert die Komponenten der Funktionen pivot_longer und pivot_wider anhand konkreter Details, Beispiele und Definitionen.

  • CleanItUp 5: R-Ladies Sydney: Weit zu Lang zu Weit zu…PIVOT: Diese Ressource liefert Ihnen zusätzliche Details zu den Funktionen pivot_longer und pivot_wider. Die bereitgestellten Beispiele verwenden interessante Datasets, um zu veranschaulichen, wie Sie Daten von Wide zu Long und zurück zu Wide konvertieren können.

  • Plotten mehrerer Variablen: Diese Ressource erklärt, wie man breite und lange Daten visualisiert, wobei ggplot2 hilft, sie aufzuräumen. Der Schwerpunkt liegt auf der Verwendung von pivot_longer zur Umstrukturierung von Daten und zur Erstellung ähnlicher Diagramme für mehrere Variablen auf einmal. Sie können das Gelernte aus den anderen Ressourcen hier anwenden, um ein breiteres Verständnis der Pivot-Funktionen zu erlangen.

Gleiche Daten, anderes Ergebnis

Video 255

Arbeiten mit voreingenommenen Daten

Jede Fachkraft für Datenanalyse wird irgendwann im Prozess der Datenanalyse auf ein Element der Voreingenommenheit stoßen. Deshalb ist es so wichtig, dass Sie wissen, wie Sie Voreingenommenheit bei Daten erkennen und verwalten können. Sie erinnern sich vielleicht daran, dass wir uns in Kurs 3 dieses Programms ausführlich mit Voreingenommenheit beschäftigt haben. In dieser Lektüre lesen Sie ein Beispiel aus dem wirklichen Leben eines Analysten, der Voreingenommenheit in seinen Daten entdeckt hat, und erfahren, wie er R verwendet hat, um diese zu beseitigen.

Umgang mit Voreingenommenheit in Daten mit R

A woman is standing, holding a speech bubble. Several other speech bubbles are on the ground near her.

Dieses Szenario wurde von einem quantitativen Analysten erzählt, der Daten von Menschen aus der ganzen Welt sammelt. Er erklärt, wie er Voreingenommenheit in seinen Daten entdeckte und wie er R einsetzte, um sie zu beseitigen:

„Ich arbeite in einem Team, das umfrageähnliche Daten sammelt. Eine der Aufgaben, die mein Team durchführt, ist ein sogenannter Seite-an-Seite-Vergleich. Wir können Nutzern zum Beispiel zwei Anzeigen gleichzeitig nebeneinander zeigen. In unserer Umfrage fragen wir sie, welche der beiden Anzeigen sie bevorzugen. In einem Fall stellten wir nach vielen Iterationen eine konsistente Voreingenommenheit zugunsten der ersten Anzeige fest. Außerdem nahm die Präferenz für einen Artikel messbar ab, wenn wir seine Position auf den zweiten Platz verschoben.

Also beschlossen wir, die Position der Anzeigen mit Hilfe von R zu randomisieren. Wir wollten sicherstellen, dass die Artikel an der ersten und zweiten Position mit ähnlicher Häufigkeit erscheinen. Wir verwendeten sample(), um ein Zufallselement in unsere Programmierung in R einzufügen. In R können Sie mit der Funktion sample() eine Stichprobe von Elementen aus einem Datensatz ziehen. Durch das Hinzufügen dieses Codes wurden die Zeilen in unserem Datensatz nach dem Zufallsprinzip gemischt. Als wir den Nutzern die Anzeigen präsentierten, waren die Positionen der Anzeigen nun zufällig und wurden auf Voreingenommenheit kontrolliert. Das machte die Umfrage effektiver und die Daten zuverlässiger.“

Die wichtigsten Erkenntnisse

Die Funktion Stichprobe() ist nur eine von vielen Funktionen und Methoden in R, die Sie verwenden können, um Voreingenommenheit in Ihren Daten zu bekämpfen. Je nach Art der Analyse, die Sie durchführen, müssen Sie möglicherweise einige fortgeschrittene Prozesse in Ihre Programmierung einbeziehen. Obwohl dieses Programm diese Art von Prozessen nicht im Detail behandelt, werden Sie wahrscheinlich mehr darüber erfahren, wenn Sie mehr Erfahrung im Bereich Data Analytics sammeln.

Wenn Sie mehr über Voreingenommenheit und Datenethik erfahren möchten, sehen Sie sich diese Ressourcen an:

  • Voreingenommenheit Funktion: Diese Webseite ist ein guter Ausgangspunkt, um zu erfahren, wie die Funktion Voreingenommenheit in R Ihnen helfen kann, Voreingenommenheit in Ihrer Analyse zu erkennen und zu verwalten.

  • Ethik in der Datenwissenschaft: Dieser Online-Kurs bietet Folien, Videos und Übungen, mit denen Sie mehr über Ethik in der Welt der Data Analytics erfahren können. Er enthält Informationen über Datenschutz, falsche Darstellungen in Daten und die Anwendung von Ethik auf Ihre Visualisierungen.

Die Funktion der Voreingenommenheit

Video 256

Visualisierungen in R

Video 257

Grundlagen der Visualisierung in R und Tidyverse (R)

Video 258

Getting started with ggplot()

Video 259

Häufige Probleme beim Visualisieren in R

Codierungsfehler sind ein unvermeidlicher Teil des Code-Schreibens – insbesondere, wenn Sie zum ersten Mal eine neue Programmiersprache erlernen. In dieser Lektüre erfahren Sie, wie Sie häufige Codierungsfehler beim Erstellen von Visualisierungen mit ggplot2 erkennen . Sie finden auch Links zu einigen Ressourcen, die Sie bei der Behebung etwaiger Codierungsprobleme nutzen können, auf die Sie in Zukunft stoßen könnten.

Häufige Codierungsfehler in ggplot2

Bei der Arbeit mit R-Code in ggplot2 sind viele der häufigsten Codierungsfehler Probleme mit der Syntax, wie etwa falsch platzierte Zeichen. Deshalb ist es beim Schreiben von Code so wichtig, auf Details zu achten. Wenn in Ihrem Code ein Fehler auftritt, den R erkennen kann, wird eine Fehlermeldung generiert. Fehlermeldungen können Ihnen dabei helfen, die richtige Richtung zu weisen, aber sie helfen Ihnen nicht immer dabei, das genaue Problem herauszufinden.

Sehen wir uns einige der häufigsten Codierungsfehler an, die in ggplot2 auftreten können.

Groß- und Kleinschreibung beachten 

Beim R-Code muss die Groß-/Kleinschreibung beachtet werden. Wenn Sie in einer bestimmten Funktion versehentlich den ersten Buchstaben groß schreiben, kann dies Auswirkungen auf Ihren Code haben. Hier ist ein Beispiel: 

Blick (Pinguine)

Die Fehlermeldung informiert Sie darüber, dass R eine Funktion namens „Glimpse“ nicht finden kann:

Fehler in Glimpse(penguins): Funktion „Glimpse“ konnte nicht gefunden werden

Aber Sie wissen, dass die Funktion glimpse (Kleinbuchstabe „g“) existiert. Beachten Sie, dass die Fehlermeldung nicht genau erklärt, was falsch ist, sondern Ihnen eine allgemeine Richtung weist. 

Auf dieser Grundlage können Sie herausfinden, dass dies der richtige Code ist: 

Blick (Pinguine) 

Klammern und Anführungszeichen ausbalancieren 

Ein weiterer häufiger R-Codierungsfehler sind Klammern und Anführungszeichen. In R müssen Sie sicherstellen, dass jede öffnende Klammer in Ihrer Funktion eine schließende Klammer und jedes öffnende Anführungszeichen ein schließendes Anführungszeichen hat. Wenn Sie beispielsweise den folgenden Code ausführen, passiert nichts. R erstellt den Plot nicht. Das liegt daran, dass in der zweiten Codezeile zwei schließende Klammern fehlen: 

ggplot(data = Pinguine) + 

  geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g

RStudio macht Sie auf das Problem aufmerksam. Links neben der Codezeile in Ihrem RStudio-Quelleditor sehen Sie möglicherweise einen roten Kreis mit einem weißen „X“ in der Mitte. Wenn Sie mit dem Cursor über den Kreis fahren, erscheint diese Meldung:

Bild des Codeskripts und einer Fehlermeldung im Quelleditorfenster von RStudio

RStudio informiert Sie darüber, dass Sie über eine unübertroffene öffnende Klammer verfügen. Um den Code zu korrigieren, wissen Sie also, dass Sie eine schließende Klammer hinzufügen müssen, die zu jeder öffnenden Klammer passt. 

Hier ist der richtige Code: 

ggplot(data = Pinguine) + 

  geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

Verwenden Sie das Pluszeichen, um Ebenen hinzuzufügen 

In ggplot2 müssen Sie Ihrem Code ein Pluszeichen („+“) hinzufügen, wenn Sie Ihrem Plot eine neue Ebene hinzufügen. Das Pluszeichen an der falschen Stelle zu platzieren, ist ein häufiger Fehler. Das Pluszeichen sollte immer am Ende einer Codezeile und nicht am Zeilenanfang platziert werden.

Hier ist ein Beispiel für Code, der eine falsche Platzierung des Pluszeichens enthält:

ggplot(data = Pinguine) 

  + geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

In diesem Fall identifiziert die Fehlermeldung von R das Problem und fordert Sie auf, es zu beheben: 

Fehler: „+.gg()“ kann nicht mit einem einzelnen Argument verwendet werden. Haben Sie versehentlich + in eine neue Zeile gesetzt? 

Hier ist der richtige Code: 

ggplot(data = Pinguine) + 

  geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

Sie könnten auch versehentlich einen senkrechten Strich anstelle eines Pluszeichens verwenden, um Ihrem Plot eine neue Ebene hinzuzufügen, etwa so:

ggplot(data = Pinguine)%>%   

  geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

Sie erhalten dann folgende Fehlermeldung: 

Fehler: „Daten“ muss ein Datenrahmen oder ein anderes durch „fortify()“ erzwingbares Objekt sein, kein S3-Objekt mit der Klasse gg/ggplot

Hier ist der richtige Code: 

ggplot(data = Pinguine) + 

  geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))

Wenn Sie diese Probleme im Hinterkopf behalten und beim Schreiben von Code auf Details achten, können Sie Fehler reduzieren und Zeit sparen, sodass Sie sich auf Ihre Analyse konzentrieren können. 

Hilferessourcen

Beim Schreiben von Code macht jeder Fehler – das ist nur ein Teil des Lernprozesses. Glücklicherweise stehen in RStudio und online viele hilfreiche Ressourcen zur Verfügung. 

R-Dokumentation

R verfügt über eine integrierte Dokumentation für alle Funktionen und Pakete. Um mehr über eine R-Funktion zu erfahren, führen Sie einfach den Code ?function_name aus . Wenn Sie beispielsweise mehr über die Funktion geom_bar erfahren möchten, geben Sie Folgendes ein:

?geom_bar

Wenn Sie den Code ausführen, wird im Hilfe-Viewer im unteren rechten Bereich Ihres RStudio-Arbeitsbereichs ein Eintrag zu „geom_bar“ angezeigt. Der Eintrag beginnt mit einem Abschnitt „Beschreibung“, in dem Balkendiagramme erläutert werden:

Bild des Eintrags zu „Balkendiagrammen“ im RStudio-Hilfe-Viewer.

DerRDocumentation-Websiteenthält einen Großteil des gleichen Inhalts in einem etwas anderen Format, mit zusätzlichen Beispielen und Links.

ggplot2-Dokumentation

Derggplot2-Seite, das Teil der offiziellen Tidyverse-Dokumentation ist, ist eine großartige Ressource für alles, was mit ggplot2 zu tun hat. Es enthält Einträge zu Schlüsselthemen, nützliche Codebeispiele und Links zu anderen hilfreichen Ressourcen. 

Online-Suche

Eine weitere Möglichkeit besteht darin, online nach der Fehlermeldung zu suchen, auf die Sie stoßen (und dabei „R“ und den Funktions- oder Paketnamen in Ihre Suchbegriffe aufzunehmen). Es besteht eine gute Chance, dass jemand anderes bereits auf denselben Fehler gestoßen ist und online darüber gepostet hat. 

Die R-Community

Wenn die anderen Ressourcen nicht helfen, können Sie versuchen, online Kontakt mit der R-Community aufzunehmen. Es gibt viele nützliche Online-Foren und Websites, auf denen Menschen um Hilfe bitten und diese erhalten, darunter:

Joseph: Karrierepfad zu People Analytics

Video 260

Verbesserte Visualisierungen in R

Video 261

Ästhetische Attribute

In dieser Lektüre lernen Sie die drei grundlegenden ästhetischen Attribute kennen, die bei der Erstellung von Visualisierungen mit ggplot2 (R) zu berücksichtigen sind: Farbe, Größe und Form. Diese Attribute sind wichtige Tools für die Erstellung von Datenvisualisierungen mit ggplot2 und sind direkt in den Code integriert.

Image of a triangle, sphere, and cube that are different colors and sizes. The shapes all have eyes and smiling expressions.

Ästhetik in ggplot2

ggplot2 ist ein R-Paket, mit dem Sie verschiedene Arten von Datenvisualisierungen direkt in Ihrem R-Arbeitsbereich erstellen können. In ggplot2 ist eine Ästhetik als eine visuelle Eigenschaft eines Objekts in Ihrer Darstellung definiert.

Es gibt drei ästhetische Attribute in ggplot2:

  • Farbe: Damit können Sie die Farbe aller Punkte in Ihrem Diagramm oder die Farbe jeder Datengruppe ändern

  • Größe: Hiermit können Sie die Größe der Punkte in Ihrem Diagramm nach Datengruppen ändern

  • Form: Hiermit können Sie die Form der Punkte in Ihrem Diagramm nach Datengruppe ändern

Hier sehen Sie ein Beispiel dafür, wie ästhetische Attribute in R angezeigt werden:

ggplot(data, aes(x=distance, y= dep_delay, color=carrier, size=air_time, shape = carrier))       geom_point()

Indem Sie diese ästhetischen Attribute auf Ihre Arbeit mit ggplot2 anwenden, können Sie in R Datenvisualisierungen erstellen, die Trends in Ihren Daten klar vermitteln.

Zusätzliche Ressourcen

Weitere Informationen über ästhetische Attribute finden Sie in diesen Ressourcen:

  • Datenvisualisierung mit ggplot2 – Spickzettel: Der Spickzettel von RStudio ist eine hervorragende Referenz für die Arbeit mit ggplot2. Er enthält eine Menge hilfreicher Informationen, darunter Erklärungen zur Verwendung von Geoms und Beispiele für die verschiedenen Visualisierungen, die Sie erstellen können.

  • RDocumentation aes Funktion: Diese Anleitung beschreibt die Syntax der Funktion aes und erklärt, was die einzelnen Argumente bewirken.

Mehr tun mit ggplot

Video 262

Glätten

In dieser Lektüre lernen Sie die Glättung in ggplot2 kennen und erfahren, wie Sie sie einsetzen können, um Ihre Datenvisualisierungen in R klarer und übersichtlicher zu gestalten. Manchmal kann es schwierig sein, Trends in Ihren Daten nur anhand von Streudiagrammen zu erkennen. Die Glättung ermöglicht die Erkennung eines Datentrends, selbst wenn Sie anhand der aufgezeichneten Datenpunkte nicht ohne weiteres einen Trend erkennen können. Die Glättungsfunktion von ggplot2 ist hilfreich, da sie eine Glättungslinie als weitere Ebene zu einem Diagramm hinzufügt; die Glättungslinie trägt dazu bei, dass die Daten für einen zufälligen Beobachter Sinn ergeben.

Beispiel-Code

ggplot(data, aes(x=distance, y= dep_delay)) + geom_point() + geom_smooth()

Der Beispielcode erstellt ein Diagramm mit einer Trendlinie ähnlich der blauen Linie unten.

Screenshot of a scatterplot. There are points on the plot with a blue smoothing line indicating the upward trend of the poi

Zwei Arten der Glättung

Image of person painting over a rough, textured wall

Typ der Glättung

Beschreibung

Beispiel-Code

Löß-Glättung

Der Prozess der Lößglättung eignet sich am besten für die Glättung von Diagrammen mit weniger als 1000 Punkten.

ggplot(data, aes(x=, y=))+  geom_point() +       geom_smooth(method=“loess“)

Gam-Glättung

Die Gam-Glättung oder generalisiertes additives Modell glättung, ist nützlich für die Glättung von Plots mit einer großen Anzahl von Punkten.

ggplot(data, aes(x=, y=)) + geom_point() +         geom_smooth(method=“gam“, formula = y ~s(x))

Die Glättungsfunktion in ggplot2 trägt dazu bei, dass Datenplots besser lesbar sind, so dass Sie Datentrends besser erkennen und wichtige Schlüssel-Erkenntnisse gewinnen können. Das erste Diagramm unten zeigt die Daten vor der Glättung, das zweite Diagramm unten die gleichen Daten nach der Glättung.

A screenshot of ggplot2 scatterplot with the x-axis as weight from 2-5, and the y-axis as miles per gallon from 10-35
A ggplot2 scatterplot and a smooth line with the x-axis as weight from 2-5, and the y-axis as miles per gallon from 10-35

Die wichtigsten Erkenntnisse

Die Glättung hilft Datenexperten, Trends zu erkennen. Wenn Streudiagramme allein nicht klar genug sind, fügt die Glättung eine Trendlinie hinzu, so dass die zugrundeliegenden Muster in den Daten für Gelegenheitsbeobachter leichter zu erkennen sind. ggplot2 bietet zwei Glättungsmethoden: Loess eignet sich am besten für Diagramme mit weniger als 1.000 Punkten und erzeugt eine flexible, lokale Glättung. Gam ist ideal für größere Datasets, da es ein robusteres Modell für allgemeine Trends verwendet. Die Glättung verbessert die Datenkommunikation, indem sie Trends visuell hervorhebt, so dass Datenvisualisierungen für das Publikum klarer und wirkungsvoller werden.

Ästhetik und Facetten

Video 263

Filtern und Plotten

Wahrscheinlich haben Sie inzwischen mindestens ein paar Pakete in Ihre R Mediathek heruntergeladen. Die Tools in einigen dieser Pakete lassen sich sogar kombinieren und zusammen verwenden, um noch nützlicher zu werden. In dieser Lektüre finden Sie einige Ressourcen, die Ihnen zeigen, wie Sie die Filter Funktion von dplyr nutzen können, um die mit ggplot2 erstellten Plots besser lesbar zu machen.

Image of a person fishing on a boat using a large fishing net to capture letters and numbers in the water

Beispiel für das Filtern von Daten zum Plotten

Wenn Sie Ihre Daten filtern, bevor Sie sie plotten, können Sie sich auf bestimmte Teilmengen Ihrer Daten konzentrieren und gezieltere Statistiken gewinnen. Fügen Sie dazu einfach die Funktion dplyr filter() in Ihre ggplot-Syntax ein.

Beispiel-Code

data %>%    filter(variable1 == „DS“) %>%   ggplot(aes(x = weight, y = variable2, colour = variable1)) +   geom_point(alpha = 0.3,  position = position_jitter()) + stat_smooth(method = „lm“)

Zusätzliche Ressourcen

Wenn Sie mehr über ggplot2 und das Filtern mit dplyr erfahren möchten, sehen Sie sich diese Ressourcen an:

  • Alles zusammenfügen: (dplyr+ggplot): Der R-Kurs der RLadies of Sydney verwendet echte Daten, um R-Funktionen zu demonstrieren. Diese Lektion konzentriert sich speziell auf die Kombination von dplyr und ggplot, um Daten vor dem Plotten zu filtern. Das Lehrvideo führt Sie durch jeden Schritt des Prozesses, während Sie mit den zur Verfügung gestellten Daten mitarbeiten.

  • Datentransformation: Diese Ressource konzentriert sich auf die Verwendung der Funktion filter() in R und demonstriert, wie filter() mit ggplot() kombiniert werden kann. Dies ist eine nützliche Ressource, wenn Sie daran interessiert sind, mehr darüber zu erfahren, wie filter() vor dem Plotten verwendet werden kann.

  • Visualisierung von Daten mit ggplot2: Dieser umfassende Leitfaden enthält alles von den grundlegendsten Anwendungen für ggplot2 bis zur Erstellung komplizierter Visualisierungen. In den meisten Beispielen wird die Funktion filter() verwendet, damit Sie lernen, wie Sie sie in R implementieren können, um Datenvisualisierungen zu erstellen.

Ebene der Anmerkungen

Video 264

Hinzufügen von Anmerkungen in R

An archer aiming a triangle through a bow at a pile of shapes (rectangles, circles, squares, etc.)

Anmerkungen sind eine nützliche Methode, um Notizen zu Ihrem Diagramm hinzuzufügen. Sie helfen Ihnen, den Zweck des Diagramms zu erklären, wichtige Datenpunkte hervorzuheben oder Datentrends oder Erkenntnisse zu kommentieren, die das Diagramm veranschaulicht. Sie haben bereits gelernt, wie Sie Notizen als Beschriftungen, Titel, Untertitel und Beschriftungen hinzufügen können. Sie können auch Pfeile zeichnen oder Formen zu Ihrem Diagramm hinzufügen, um eine stärkere Betonung zu erreichen. Normalerweise fügen Sie diese Arten von Anmerkungen in Ihrer Präsentation App hinzu, nachdem Sie die Visualisierungen gespeichert haben. Aber jetzt können Sie mit ggplot2 auch Linien, Pfeile und Formen zu Ihren Plots hinzufügen.

Ressourcen

Schauen Sie sich diese Ressourcen an, um mehr zu erfahren:

  • Erstellen Sie eine Anmerkungsebene: Diese Anleitung erklärt, wie Sie mit ggplot2 eine Anmerkungsebene hinzufügen können. Sie enthält eine Stichprobe von Code und Datenvisualisierungen mit in ggplot2 erstellten Anmerkungen.

  • Wie man einen Plot in ggplot2 mit Anmerkungen versieht: Diese Ressource enthält Erklärungen dazu, wie Sie verschiedene Arten von Anmerkungen zu Ihren ggplot2-Plots hinzufügen können, und ist eine hervorragende Referenz, wenn Sie schnell eine bestimmte Art von Anmerkung nachschlagen müssen.

  • Anmerkungen: Kapitel acht des Online-Lehrbuchs zu ggplot2 ist ganz auf Anmerkungen ausgerichtet. Es bietet ausführliche Erklärungen zu den verschiedenen Arten von Anmerkungen, deren Verwendung und detaillierte Beispiele.

  • Wie man einen Plot mit Anmerkungen versieht: Dieser Artikel von R-Bloggers erklärt, wie man Plots in ggplot2 mit Anmerkungen versieht. Er beginnt mit grundlegenden Konzepten und deckt kompliziertere Informationen ab, je weiter Sie lesen.

  • Text-Anmerkungen: Diese Ressource konzentriert sich speziell auf das Hinzufügen von Textanmerkungen und Beschriftungen zu ggplot2-Visualisierungen.

Speichern Ihrer Visualisierungen

Video 265

Speichern von Bildern ohne ggsave()

In den meisten Fällen ist ggsave() der einfachste Weg, Ihren Plot zu speichern. Es gibt jedoch Situationen, in denen es besser ist, Ihren Plot zu speichern, indem Sie ihn direkt auf ein Grafikgerät schreiben. In dieser Lektüre werden einige der verschiedenen Möglichkeiten behandelt, wie Sie Bilder und Plots ohne ggsave() speichern können, und es werden zusätzliche Ressourcen genannt, die Sie sich ansehen können, wenn Sie mehr erfahren möchten.

A person is holding a laptop standing in a gallery. Their laptop screen has the same image as one of the paintings

 

Ein Grafikgerät ermöglicht die Darstellung eines Plots auf Ihrem Computer. Beispiele hierfür sind:

  • Ein Fenster auf Ihrem Computer (Bildschirmgerät)

  • Eine PDF-, PNG- oder JPEG-Datei (Dateigerät)

  • Eine SVG- oder skalierbare Vektorgrafikdatei (Dateigerät)

Wenn Sie eine Grafik in R erstellen, muss diese an ein bestimmtes Grafikgerät „gesendet“ werden. Um Bilder zu speichern, ohne ggsave() zu verwenden, können Sie ein R-Grafikgerät wie png() oder pdf() öffnen; damit können Sie Ihre Darstellung als .png- oder .pdf-Datei speichern. Sie können den Plot auch ausdrucken und dann das Gerät mit dev.off() schließen.

Beispiel für die Verwendung von png()

Beispiel für die Verwendung von pdf()

png(file = „exampleplot.png“, bg = „transparent“) plot(1:10) rect(1, 5, 3, 7, col = „white“) dev.off()

pdf(file = „/Users/username/Desktop/example.pdf“,     width = 4,      height = 4)  plot(x = 1:10,       y = 1:10) abline(v = 0) text(x = 0, y = 1, labels = „Random text“) dev.off()

Wenn Sie mehr über die verschiedenen Prozesse zum Speichern von Bildern erfahren möchten, sehen Sie sich diese Ressourcen an:

  • Speichern von Bildern ohne ggsave(): Diese Ressource stammt direkt aus der ggplot2-Dokumentation unter tidyverse.org. Sie erläutert die Tools, die Sie zum Speichern von Bildern in R verwenden können, und enthält mehrere Beispiele, mit denen Sie lernen können, wie Sie Bilder in Ihrem eigenen R-Arbeitsbereich speichern können.

  • Wie man einen ggplot speichert: Diese Ressource behandelt mehrere verschiedene Methoden zum Speichern von ggplots. Sie enthält auch kopierbaren Code mit Erklärungen zur Verwendung der einzelnen Funktionen, damit Sie jeden Schritt des Prozesses besser verstehen können.

  • Speichern eines Plots in R: Dieser Leitfaden behandelt mehrere Dateiformate, die Sie zum Speichern Ihrer Plots in R verwenden können. Jeder Abschnitt enthält ein Beispiel mit einem tatsächlichen Plot, den Sie kopieren und in Ihrem eigenen R-Arbeitsbereich verwenden können.

Dokumentation und Berichte

Video 266

Überblick über R Markdown (R)

Video 267

R Markdown (R)-Ressourcen

R Markdown ist ein nützliches Tool, mit dem Sie Code speichern und ausführen und Berichte für Stakeholder erstellen können. Wenn Sie mehr über die Verwendung von R Markdown lernen, kann es hilfreich sein, einige Ressourcen als Lesezeichen zu speichern, um später darauf zurückzugreifen.

In dieser Lektüre finden Sie einige großartige Online-Ressourcen, die Ihnen helfen werden, mehr über R Markdown zu erfahren und zu lernen, wie Sie damit Ihre Analysen dokumentieren können.

Image of a person sitting down holding a large reference book

R Markdown Dokumentation

RStudio’s R Markdown-Dokumentation enthält eine Reihe von Tutorials, in denen Sie die wichtigsten Funktionen von R Markdown kennen lernen können, darunter Code-Chunks, Ausgabeformate, Notizbücher, interaktive Dokumente und vieles mehr. Die Tutorials enthalten Online-Lektionen, die Sie direkt in Ihrem RStudio Cloud-Arbeitsbereich absolvieren können.

R Markdown Referenzmaterialien

RStudio hat ein Referenzhandbuch und einen Spickzettel entwickelt, die Sie mit einem Lesezeichen versehen und immer dann verwenden können, wenn Sie das Schreiben von R Markdown-Dateien üben.

  • Die R Markdown Referenzhandbuch enthält drei Abschnitte: Markdown-Syntax, Knitr-Chunk-Optionen und Pandoc-Optionen. Der Leitfaden ist sehr detailliert und enthält zahlreiche Beispiele und Erklärungen, so dass Sie genau die Informationen finden können, die Sie für die Anpassung Ihrer R Markdown-Dokumente benötigen.

  • Die R Markdown Spickzettel ist eine praktische Zusammenfassung der verschiedenen Schritte und Prozesse in R. Es enthält auch Abschnitte mit kurzen Erklärungen zu den Chunk-Optionen von knitr und pandoc sowie andere nützliche Informationen, die Sie während Ihrer Arbeit nachschlagen können.

R für Datenwissenschaft Buch

Eine gut organisierte Einführung in die Grundlagen von R Markdown finden Sie in dem Buch Kommunizieren des Buchs R for Daten Science. Es behandelt die wichtigsten Funktionen von R Markdown, die verschiedenen Ausgabeformate und den Arbeitsablauf für die Kombination von Text und Code zur Erstellung eines Analyse-Notizbuchs.

R Markdown: Der endgültige Leitfaden

Wenn Sie die Möglichkeiten von R Markdown wirklich systematisch erkunden möchten, R Markdown: The Definitive Guide einen umfassenden Leitfaden für das R Markdown-Ökosystem. Dieses Buch besteht aus vier Hauptteilen:

  1. Teil I erklärt, wie Sie die relevanten Pakete installieren und bietet einen Überblick über R Markdown, einschließlich der Syntax für Markdown und Code-Chunks.

  2. Teil II bietet eine ausführliche Dokumentation der in R Markdown integrierten Ausgabeformate, wie Dokumentformate und Präsentationsformate.

  3. Teil III stellt mehrere R Markdown-Erweiterungspakete vor, mit denen Sie verschiedene Apps erstellen oder Ausgabedokumente mit unterschiedlichen Stilen erzeugen können.

  4. Teil IV behandelt fortgeschrittene Themen in R Markdown.

Optional: Jupyter Notizbücher

Image of the planet jupiter. Jupiter's moons are different icons of code and computer tools

 

Jupyter-Notizbücher sind Dokumente, die Computer-Code und Rich-Text-Elemente enthalten – wie Kommentare, Links oder Beschreibungen Ihrer Analysen und Ergebnisse. Sie werden in einer Vielzahl von Online-Tools verwendet, darunter Projekt Jupyter, Kaggle und Google Colaboratory (kurz „Colab“). Bei diesen Notizbüchern kann es sich um ausführbare Dokumente handeln, die Sie zur Durchführung einer Analyse ausführen können.

Jupyter-Notizbücher können bei allem nützlich sein, von der Datenbereinigung und -umwandlung bis hin zur statistischen Modellierung und Visualisierung. Sie sind mit R kompatibel, so dass Sie sie als Alternative zu R Markdown betrachten können. Und genau wie R Markdown-Dokumente können Sie Jupyter-Notizbücher problemlos mit Team-Mitgliedern und Stakeholdern teilen.

Jupyter Notizbücher in Kaggle

Wenn Sie in Kaggle arbeiten, gibt es zwei Arten von Notizbüchern: Jupyter-Notizbücher und Scripts (einschließlich R Markdown-Scripts). Weitere Informationen finden Sie auf der Seite Verwendung von Kaggle-Notizbüchern.

Jupyter Notizbücher in Google Colab

Google Colab ist ein Produkt von Google Research. Colab ist ein gehosteter Dienst für Jupyter-Notizbücher, für dessen Nutzung keine Einrichtung erforderlich ist. Weitere Informationen finden Sie auf der Seite Willkommen im Colaboratory.

Zusätzliche Ressourcen

Wenn Sie mehr über Jupyter Notizbücher erfahren möchten, sehen Sie sich diese Ressourcen an:

  • Projekt Jupyter: Dies ist die Heimat der Jupyter-Notizbücher sowie von JupyterLab – der webbasierten interaktiven Entwicklungsumgebung für Jupyter-Notizbücher, Code und Daten.

  • Jupyter Notebook: Eine Einführung: Diese ausführliche Einführung in Jupyter Notebooks stammt von Real Python, einer Website mit Tutorials rund um Python. Sie können einen Videokurs besuchen oder dem schriftlichen Tutorial folgen, um mit Jupyter Notebooks zu beginnen und die Funktionen und Möglichkeiten kennenzulernen.

Und genau wie R Markdown enthalten Jupyter Notizbücher grundlegende Formatierungstools und -regeln, die Ihnen helfen, Ihre Arbeit zu organisieren und benutzerfreundlich zu gestalten. Jupyter verwendet nämlich R Markdown als Sprache für das Schreiben und Formatieren von Text in einem Notizbuch.

Wenn Sie mehr über die grundlegende Formatierung in Jupyter Notizbüchern erfahren möchten, sehen Sie sich diese Ressourcen an:

  • Das Jupyter Notizbuch: Diese Ressource bietet einen Überblick über Jupyter Notebook, einschließlich Informationen über die Struktur der Nutzer-Schnittstelle und des Notebook-Dokuments. Außerdem erfahren Sie etwas über den grundlegenden Arbeitsablauf bei der Verwendung eines Notizbuchdokuments sowie Informationen über Tastaturverknüpfungen und andere Funktionen, die Ihnen bei der Formatierung Ihrer Arbeit helfen werden.

  • Jupyter Notebook für das Schreiben verwenden: Diese Ressource befasst sich mit der Verwendung von Markdown zur Formatierung Ihrer Texte in einem Jupyter Notebook. Nutzen Sie diese Anleitung, um die Syntax Ihrer Texte zu verwalten, einschließlich der Erstellung von Titeln und Unterüberschriften und dem Hinzufügen von Links.

  • Das Jupyter Notebook Formatierungshandbuch: Diese Ressource enthält eine große Vielfalt an Formatierungsoptionen für Jupyter Notizbücher. Sie lernen sowohl die Grundlagen als auch einige fortgeschrittene Optionen kennen, wie das Einbetten von PDF-Dokumenten und Videos.

Nachdem Sie wissen, wie Sie grundlegende Formatierungen in Ihren Notizbüchern vornehmen können, können Sie sich mit den fortgeschritteneren Optionen beschäftigen.

Verwendung von R Markdown in RStudio

Video 268

Struktur von Markdown-Dokumenten

Video 269

Meg: Programmieren ist befähigend

Video 270

Noch mehr Dokumentelemente

Video 271

Code-Chunks

Video 272

Dokumentation exportieren

Video 273

Ausgabeformate in R Markdown

In dieser Lektüre lernen Sie die verschiedenen Ausgabeformate kennen, die Sie mit R Markdown erzeugen können.

Einstellen der Ausgabe eines R Markdown Dokuments

Wenn Sie in RStudio arbeiten, können Sie die Ausgabe eines Dokuments in R Markdown festlegen, indem Sie die YAML-Überschrift ändern.

Der folgende Code erzeugt zum Beispiel ein HTML-Dokument:

titel: „Demo“

ausgabe: html_document

Und der folgende Code erstellt ein PDF-Dokument:

titel: „Demo“

ausgabe: pdf_document

Die Schaltfläche Stricken im RStudio-Quelltexteditor rendert eine Datei in das erste Format, das in ihrem Ausgabefeld aufgeführt ist (HTML ist die Standardeinstellung). Sie können eine Datei in weiteren Formaten ausgeben, indem Sie auf das Dropdown-Menü neben der Schaltfläche stricken klicken.

Verfügbare Dokumentausgaben

Neben der standardmäßigen HTML-Ausgabe(html_document) können Sie in R Markdown mit den folgenden Ausgabeeinstellungen weitere Dokumenttypen erstellen:

  • pdf_document – Damit wird eine PDF-Datei mit LaTeX (einem Open Source-Dokumentenlayoutsystem) erstellt. Wenn Sie LaTeX noch nicht haben, werden Sie von RStudio automatisch aufgefordert, es zu installieren.

  • word_document – Damit erstellen Sie ein Microsoft Word-Dokument (.docx).

  • odt_document – Damit erstellen Sie ein OpenDocument Text-Dokument (.odt).

  • rtf_document – Damit wird ein Rich Text Format Dokument (.rtf) erstellt.

  • md_document – Damit erstellen Sie ein Markdown-Dokument (das sich streng an die ursprüngliche Markdown-Spezifikation hält)

  • github_document – Damit wird ein GitHub-Dokument erstellt, das eine angepasste Version eines Markdown-Dokuments ist, das für die gemeinsame Nutzung auf GitHub bestimmt ist.

Eine ausführliche Anleitung zur Erstellung verschiedener Arten von R Markdown-Dokumenten finden Sie in der Dokumente im Kapitel R Markdown: Der definitive Leitfaden.

Notizbücher

Ein Notizbuch (html_notebook) ist eine Variante eines HTML-Dokuments (html_document). Insgesamt sind die Ausgabeformate ähnlich; der Hauptunterschied zwischen ihnen besteht darin, dass die gerenderte Ausgabe eines Notizbuchs immer eine eingebettete Kopie des Quellcodes enthält.

Notizbücher und HTML-Dokumente haben auch unterschiedliche Zwecke. HTML-Dokumente sind gut für die Kommunikation mit Stakeholdern geeignet. Notizbücher sind besser für die Zusammenarbeit mit anderen Fachkräften für Datenanalyse oder Datenwissenschaftlern geeignet.

Wenn Sie mehr erfahren möchten, lesen Sie den Abschnitt über Notizbücher in der R Markdown Dokumentation.

Präsentationen

Sie können R Markdown auch zur Erstellung von Präsentationen verwenden. Das automatische Einfügen der Ergebnisse Ihres R Codes in eine Präsentation kann Ihnen viel Zeit ersparen.

R Markdown rendert Dateien in bestimmten Präsentationsformaten, wenn Sie die folgenden Ausgabeeinstellungen verwenden:

  • beamer_presentation – für PDF Präsentationen mit beamer

  • ioslides_presentation – für HTML Präsentationen mit ioslides

  • slidy_presentation – für HTML Präsentationen mit Slidy

  • powerpoint_presentation – für PowerPoint Präsentationen

  • revealjs : : revealjs_presentation – für HTML-Präsentationen mit reveal.js (ein Framework zur Erstellung von HTML-Präsentationen, das das Paket reveal.js erfordert)

um mehr zu erfahren, lesen Sie den Abschnitt über Folien-Präsentationen in der R Markdown Dokumentation.

Dashboards

Dashboards sind eine nützliche Methode, um schnell eine Vielzahl von Informationen zu vermitteln. Das flexdashboard paket können Sie eine Gruppe von zusammenhängenden Datenvisualisierungen als Dashboard veröffentlichen. Flexdashboard bietet auch Tools zum Erstellen von Seitenleisten, Tabsets, Werteboxen und Messgeräten.

Um mehr zu erfahren, besuchen Sie die flexdashboard für R seite und die Dashboards abschnitt in der R Markdown Dokumentation.

Shiny

Shiny ist ein R-Paket, mit dem Sie interaktive Webanwendungen mit R-Code erstellen können. Sie können Ihre Anwendungen in R Markdown-Dokumente einbetten oder sie auf einer Webseite hosten.

Um Shiny-Code aus einem R Markdown-Dokument aufzurufen, fügen Sie runtime: shiny in die YAML-Überschrift ein:

titel: „Shiny Web App“

ausgabe: html_document

runtime: shiny

Wenn Sie mehr über Shiny und die Verwendung von R-Code zum Hinzufügen interaktiver Komponenten zu einem R Markdown-Dokument erfahren möchten, lesen Sie die Shiny tutorial von RStudio.

Andere Formate

Andere Pakete bieten noch mehr Ausgabeformate:

  • Das bookdown paket ist hilfreich für das Schreiben von Büchern und langen Artikeln.

  • Das prettydoc paket bietet eine Reihe attraktiver Themen für R Markdown-Dokumente.

  • Das rticles paket bietet Vorlagen für verschiedene Zeitschriften und Verlage.

besuchen Sie die RStudio Formate seite in der R Markdown Dokumentation für eine umfassendere Liste von Ausgabeformaten und Paketen.

Zusätzliche Ressourcen

Weitere Informationen finden Sie in diesen zusätzlichen Ressourcen:

  • Die R Markdown Galerie von RStudio enthält zahlreiche Beispiele für die Ausgaben, die Sie mit R Markdown erstellen können.

  • Die R Markdown Formate im Buch R for Daten Science enthält weitere Einzelheiten zu den in dieser Lektüre vorgestellten Ausgabeformaten. Diese Lektüre wurde aus den Informationen in diesem Buch zusammengestellt.

Als Nächstes kommen wir…

Herzlichen Glückwunsch zum Abschluss des siebten Kurses des Google Data Analytics Zertifikats!

List of all 8 courses. Courses 1-7 are checked off.

Um die Fortsetzung des Programms zu erleichtern, klicken Sie auf diesen Link, um zum nächsten Kurs zu gelangen: Google Data Analytics Capstone: Schließen Sie eine Fallstudie ab.

Machen Sie weiter so; Sie sind fast am Ziel!

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert