Syllabus des Kurses
In früheren Kursen haben Sie gelernt, wie man strukturiertes Denken einsetzt, um Geschäftsprobleme zu lösen, wie man Daten in Tabellen und Datenbanken aufbereitet, bereinigt, umwandelt und analysiert und wie man effektive Data Stories erzählt. Als Teil Ihrer wachsenden Fähigkeiten haben Sie auch gelernt, wie man dynamische und interaktive Datenvisualisierungen in Tableau erstellt. Bisher waren die Fähigkeiten, die Sie erlernt haben, eng mit den Funktionen und Möglichkeiten von Tabellenkalkulationen, SQL-Datenbanken und Tableau verbunden. Was aber, wenn Sie mit Ihren Daten auf individuellere Weise arbeiten möchten? Oder was ist, wenn die Standard-Tools nicht genau die Funktionen bieten, die Sie benötigen? In diesem Fall kann die Programmiersprache R sehr hilfreich sein. Mit R gewinnen Sie zusätzliche Flexibilität und Kontrolle über Ihre Daten und Analysen.
-
Fragen stellen, um datengesteuerte Entscheidungsfindungen zu treffen
-
Datenanalyse mit R-Programmierung (dieser Kurs)
-
Google Data Analytics Capstone: Vervollständigen Sie eine Fallstudie
In diesem Kurs lernen Sie, wie Sie die Programmiersprache R verwenden, um mit Ihren Daten ohne Tool-Einschränkungen zu arbeiten. Sie erhalten viel Übung im Umgang mit R für statistische Analysen und RStudio, einer integrierten Entwicklungsumgebung (IDE) für R, mit der Sie fortgeschrittene Datenvisualisierungen mit vielen Details erstellen können. R macht es einfacher, Ihre Daten in einem schönen, künstlerischen Stil zu präsentieren. Einige weitere Vorteile von R sind:
-
Beliebtheit: R wird häufig für die Datenanalyse verwendet
-
Tools: R verfügt über eine praktische Mediathek mit gebrauchsfertigen Tools zur Datenbereinigung und -analyse
-
Schwerpunkt: R wurde mit Blick auf die Statistik entwickelt; Fachkräfte für Datenanalyse können bequem eine umfangreiche Mediathek mit statistischen Routinen nutzen
-
Anpassungsfähigkeit: R eignet sich gut für den Einsatz in Projekten zum maschinellen Lernen und zur Datenanalyse
-
Verfügbarkeit: R ist eine Open-Source Programmiersprache
Nachdem Sie sich mit R und RStudio vertraut gemacht haben, werden Sie vielleicht neugierig darauf, weitere Programmiersprachen zu erlernen und Ihrem Kompetenzspektrum (und Lebenslauf) hinzuzufügen. Ziemlich aufregend, oder?
Inhalt des Kurses
Kurs 7 – Datenanalyse mit R-Programmierung
-
Verstehen der Grundlagen von R: R ist eine Programmiersprache, mit der Sie Aufgaben in jeder Phase des Prozesses der Datenanalyse durchführen können. In diesem Teil des Kurses lernen Sie R und RStudio kennen, eine integrierte Entwicklungsumgebung (IDE) für R. Sie werden die Vorteile der Verwendung von RStudio bei der Arbeit mit R kennenlernen. Mit RStudio können Sie die Funktionen von R problemlos nutzen.
-
Programmierung mit RStudio: In diesem Teil des Kurses lernen Sie die grundlegenden Konzepte von R kennen. Sie erfahren etwas über Funktionen und Variablen, die Sie bei Ihren Berechnungen und anderen Programmierungen verwenden können. Sie lernen auch die R-Pakete kennen, d.h. Sammlungen von R-Funktionen, Code und Stichproben, die Sie in RStudio verwenden können.
-
Arbeiten mit Daten in R: Die Programmiersprache R wurde für die Arbeit mit Daten in allen Phasen des Datenanalyseprozesses entwickelt. In diesem Teil des Kurses werden Sie untersuchen, wie R Ihnen helfen kann, Ihre Daten durch Funktionen und andere Prozesse zu strukturieren, zu organisieren und zu bereinigen. Sie lernen Dataframes kennen und erfahren, wie Sie mit ihnen in R arbeiten können. Sie werden auch das Konzept der Datenverzerrung wieder aufgreifen und erfahren, wie Sie R einsetzen können, um diese zu beseitigen.
-
Visualisierungen, Ästhetik und Anmerkungen: R ist ein großartiges Werkzeug für die Erstellung detaillierter Visualisierungen. In diesem Teil des Kurses lernen Sie, wie Sie mit R Visualisierungen erstellen und Fehlerbehebungen vornehmen. Sie werden auch die Funktionen von R und RStudio kennenlernen, mit denen Sie die Ästhetik Ihrer Visualisierungen verbessern können. Sie werden lernen, wie Sie Visualisierungen mit Anmerkungen versehen und die Änderungen speichern.
-
Dokumentation und Berichte: R verfügt über eine Reihe verschiedener Optionen, die Sie erkunden können, wenn Sie bereit sind, Ihre Analyse zu speichern und zu präsentieren. In diesem Teil des Kurses lernen Sie R Markdown kennen, ein Dateiformat für die Erstellung dynamischer Dokumente mit R. Sie erfahren, wie Sie R Markdown formatieren und exportieren und R Code-Chunks in Ihre Dokumente einbauen.
-
Herausforderung des Kurses: Am Ende des Kurses werden Sie alles, was Sie gelernt haben, in der Kursherausforderung anwenden. Die Kursherausforderung stellt Ihnen Fragen zu den Schlüsselqualifikationen, die Sie geübt haben, und gibt Ihnen die Möglichkeit, diese Fähigkeiten in drei Szenarien zu demonstrieren.
Sind Sie bereits mit der Programmierung in R vertraut?
Wenn Sie bereits mit R und RStudio gearbeitet haben, werden Sie die ersten beiden Module dieses Kurses vielleicht als Wiederholung grundlegender Themen empfinden, die Sie bereits verstehen. Sie können diese grundlegenden Videos und Lektüren überspringen und mit den Modulaufgaben für Modul 1 und Modul 2 fortfahren. Die Modulaufgaben helfen Ihnen, sich auf die Kursaufgabe am Ende dieses Kurses vorzubereiten. Um das Zertifikat zu erhalten, müssen Sie bei allen benoteten Aktivitäten des Programms mindestens 80 % erreichen.
Was Sie erwarten können
Sie können davon ausgehen, dass Sie diesen Kurs in etwa vier bis fünf Wochen abschließen werden. Dazu müssen Sie alle Aktivitäten absolvieren, einschließlich:
-
Videos von Ausbildern, die neue Konzepte vermitteln und die Verwendung von Tools demonstrieren
-
In-Video-Fragen , die während oder am Ende eines Videos auftauchen, um Ihren Lernstand zu überprüfen
-
Lesungen zur Einführung neuer Ideen und zur Vertiefung der Konzepte aus den Videos
-
Diskussionsforen, um neue Ideen zu diskutieren, zu erforschen und zu festigen, um besser zu lernen
-
Diskussionsprompts zur Förderung des Denkens und der Einbindung in die Diskussionsforen
-
Qwiklabs zur Einführung in reale Situationen am Arbeitsplatz und die Tools und Aufgaben zur Erledigung von Aufträgen
-
Übungstests zur Vorbereitung auf benotete Tests
-
Praktische Aktivitäten zur Festigung der erlernten Fähigkeiten für die benoteten Tests
-
Benotete Quizfragen, um Ihre Fortschritte zu messen und Ihnen wertvolles Feedback zu geben
Praktische Übungen bieten Ihnen zusätzliche Möglichkeiten, Ihre Fähigkeiten auszubauen, also versuchen Sie, so viel wie möglich davon zu nutzen. Die Beurteilungen basieren auf dem Ansatz des Kurses, eine große Vielfalt an Lernmaterialien und Aktivitäten anzubieten, die wichtige Fähigkeiten verstärken. Benotete und unbenotete Quizfragen helfen Ihnen, den Inhalt zu verinnerlichen und wichtige Fähigkeiten zu festigen. Unbenotete Übungstests bieten Ihnen die Möglichkeit, sich auf die benoteten Tests vorzubereiten, und sowohl die benoteten als auch die unbenoteten Tests können mehrmals absolviert werden.
Zur Erinnerung: Dieser Kurs richtet sich an alle Lerntypen, d.h. es sind weder ein Hochschulabschluss noch Vorkenntnisse erforderlich. Jeder Mensch lernt anders, und das Google Data Analytics-Zertifikat wurde unter Berücksichtigung dieser Tatsache entwickelt. Die persönlichen Fristen sind nur ein Anhaltspunkt, also arbeiten Sie ruhig in Ihrem eigenen Tempo. Für verspätete Aufgaben gibt es keine Strafe. Wenn Sie möchten, können Sie Ihre Fristen verlängern, indem Sie im Navigationsbereich zur Übersicht zurückkehren und auf Sitzungen wechseln klicken. Wenn Sie bereits frühere Fristen verpasst haben, klicken Sie stattdessen auf Meine Fristen zurücksetzen.
Wenn Sie sich frühere Inhalte ansehen oder einen Blick auf kommende Inhalte werfen möchten, können Sie die Navigationslinks oben auf dieser Seite verwenden, um zu einem anderen Kurs des Programms zu wechseln. Wenn Sie alle erforderlichen Aufgaben erfüllt haben, sind Sie auf dem besten Weg, Ihr Zertifikat zu erhalten.
Tipps
-
Versuchen Sie, alle Aufgaben in der richtigen Reihenfolge zu erledigen, da neue Informationen immer auf den vorherigen Lektionen aufbauen.
-
Behandeln Sie jede Aufgabe so, als ob es sich um eine praktische Erfahrung handeln würde. Stellen Sie sich vor, dass Sie in einem Unternehmen oder in einer Organisation als Fachkraft für Datenanalyse arbeiten. Das wird Ihnen helfen, das, was Sie in diesem Programm lernen, in der realen Welt anzuwenden.
-
Wiederholen Sie die gezeigten Aufgaben für sich selbst, um noch mehr zu üben und schneller zu werden. Nachdem Sie zum Beispiel ein- oder zweimal einem Video gefolgt sind, um die gezeigten Aufgaben auszuführen, versuchen Sie, die gleichen Aufgaben ohne das Video abzuspielen und sich von den Prompts des Kursleiters helfen zu lassen.
-
Auch wenn sie nicht benotet werden, sollten Sie unbedingt an allen Übungsaktivitäten teilnehmen und diese abschließen. Sie werden Ihnen helfen, eine solide Grundlage als Fachkraft für Datenanalyse zu schaffen und Sie auf die benoteten Prüfungen vorzubereiten.
-
Nutzen Sie alle zusätzlich zur Verfügung gestellten Ressourcen, einschließlich Diskussionsforen und Links zu externen Artikeln für weitere Informationen.
-
Wenn Sie im Kurs auf nützliche Links stoßen, denken Sie daran, diese mit einem Lesezeichen zu versehen, damit Sie die Informationen zum Studium oder zur Wiederholung nachschlagen können.
-
Die zusätzlichen Ressourcen sind kostenlos, aber einige Websites haben ein LIMIT, wie viele Artikel Sie pro Monat kostenlos abrufen können. Manchmal können Sie sich auf der Website registrieren, um vollen Zugriff zu erhalten, aber Sie können auch jederzeit ein Lesezeichen setzen und später darauf zurückkommen, um sie anzusehen.
-
Maximieren Sie den Wert praktischer Aktivitäten. Praktische Aktivitäten ergänzen die gezeigten Aufgaben, indem sie zum zusätzlichen Üben mit ähnlichen Szenarien anregen. Die Syntax einer Programmiersprache wird für Sie umso selbstverständlicher, je mehr Sie mit ihr üben.
-
Legen Sie ein Notizbuch oder ein Dokument an, in dem Sie die Dinge festhalten, die Sie sich über die Syntax von R merken müssen. Dies wird ein praktisches und persönliches Nachschlagewerk sein, das Sie während des gesamten Programms und auch später jederzeit verwenden können.
Die R-gegen-Python Debatte
Viele Menschen fragen sich, welche Programmiersprache sie zuerst lernen sollten. Vielleicht fragen Sie sich das auch. Dieses Zertifikat lehrt die Open-Source-Programmiersprache R. R ist ein guter Ausgangspunkt für grundlegende Datenanalysen und verfügt über hilfreiche Pakete, die Anfänger auf Projekte anwenden können. Python steht nicht auf dem Lehrplan, aber wir ermutigen Sie, Python nach Abschluss des Zertifikats zu erkunden. Wenn Sie neugierig auf andere Programmiersprachen sind, sollten Sie alles daran setzen, sich weiterzubilden.
Jede Sprache, die ein Anfänger zu lernen beginnt, hat einige Vorteile und Herausforderungen. Lassen Sie uns dies anhand von R und Python in den Kontext stellen. Die folgende Tabelle ist eine Übersicht auf hohem Niveau, die auf einer Auswahl von Artikeln und Meinungen von Fachleuten aus der Branche basiert. Sie können sich die Informationen ansehen, ohne sich unbedingt für eine Seite in der Debatte R vs. Python entscheiden zu müssen. Wenn Sie sich den Blog-Artikel von RStudio im Abschnitt Zusätzliche Ressourcen ansehen, geht es tatsächlich mehr um die Zusammenarbeit als um den Sieg in einer Debatte.
Sprachen |
R |
Python |
---|---|---|
Gemeinsame Funktionen |
– Open-Source – Daten in Dataframes gespeichert – Leicht verfügbare Formeln und Funktionen – Gemeinschaft für Coding-Entwicklung und Support |
– Open-Source – In Dataframes gespeicherte Daten – Leicht verfügbare Formeln und Funktionen – Gemeinschaft für Coding-Entwicklung und Support |
Eindeutige Vorteile |
– Datenmanipulation, Datenvisualisierung und Statistik-Pakete – „Skalpell“-Ansatz für Daten: Finden Sie Pakete, die das tun, was Sie mit den Daten wollen |
– Einfache Syntax für die Anforderungen des maschinellen Lernens – Integriert sich in Cloud Plattformen wie Google Cloud, Amazon Web Services und Azure |
Eindeutige Herausforderungen |
– Inkonsistente Namenskonventionen erschweren es Anfängern, die richtigen Funktionen auszuwählen – Die Methoden für den Umgang mit Variablen sind für Anfänger möglicherweise etwas kompliziert zu verstehen |
– Viele weitere Entscheidungen über Dateneingabe/-ausgabe, Struktur, Variablen, Pakete und Objekte, die Anfänger treffen müssen – der „Schweizer Taschenmesser“-Ansatz für Daten: Finden Sie heraus einen Weg, um mit den Daten zu machen, was Sie wollen |
Zusätzliche Ressourcen
Weitere Informationen zum Vergleich von R und Python finden Sie in diesen Ressourcen:
-
R versus Python, ein umfassender Leitfaden für Datenexperten: Dieser Artikel wurde von einem Datenexperten mit umfassender Erfahrung im Umgang mit beiden Sprachen verfasst und bietet einen detaillierten Vergleich.
-
R gegen Python, ein objektiver Vergleich: Dieser Artikel bietet einen Vergleich der Sprachen anhand von Beispielen für die Verwendung von Code.
-
R gegen Python: Welche ist die beste Sprache für Datenwissenschaft?: Dieser Blog-Artikel gibt die Sichtweise von RStudio zur Debatte R vs. Python wieder.
Die wichtigsten Erkenntnisse
Manche Programmiersprachen sind aufgrund bestimmter Aspekte leichter zu erlernen als andere. Das bedeutet aber nicht, dass die schwierigeren Sprachen für Anfänger unmöglich zu erlernen sind. Andererseits macht die Beliebtheit einer Programmiersprache diese auch nicht immer zur besten Sprache für Anfänger.
R wird von Fachleuten verwendet, die einen statistischen oder forschungsorientierten Ansatz zur Lösung von Problemen haben; dazu gehören Wissenschaftler, Statistiker und Ingenieure. Python wird von Fachleuten verwendet, die nach Lösungen in den Daten selbst suchen, also von denjenigen, die Daten intensiv nach Antworten durchsuchen müssen; dazu gehören Datenwissenschaftler, Spezialisten für maschinelles Lernen und Softwareentwickler.
Wenn Sie sich als Data Analytics-Experte weiterentwickeln, müssen Sie möglicherweise weitere Programmiersprachen erlernen. Die Fähigkeiten und Kompetenzen, die Sie bei Ihrer ersten Erfahrung mit der Programmierung erlernen, sind eine gute Grundlage. Deshalb konzentriert sich dieser Kurs auf die Grundlagen von R. Sie können die richtige Perspektive entwickeln, dass Programmiersprachen eine wichtige Rolle im Prozess der Datenanalyse spielen, egal welche Berufsbezeichnung Sie haben.
Die gute Nachricht ist, dass viele der Konzepte und Coding-Prinzipien, die Sie in diesem Kurs bei der Verwendung von R lernen werden, auf andere Programmiersprachen übertragbar sind. Sie werden auch lernen, wie Sie R Code in einer Integrierten Entwicklungsumgebung (IDE) namens RStudio schreiben können. Mit RStudio können Sie Projekte verwalten, die R oder Python oder sogar eine Kombination aus beidem verwenden. Siehe RStudio: A Single Home for R & Python für weitere Informationen. Nachdem Sie also mit R und RStudio gearbeitet haben, wird das Erlernen von Python oder einer anderen Programmiersprache in Zukunft intuitiver sein.
Einen besseren Überblick über beliebte Programmiersprachen nach Rolle im Beruf finden Sie unter Wie Sie das Programmieren lernen können. Hier finden Sie eine Liste der Programmiersprachen, die von Fachkräften für Datenanalyse, Webdesignern, Entwicklern von mobilen und Web-Anwendungen sowie Spieleentwicklern am häufigsten verwendet werden, sowie Links zu Ressourcen, die Ihnen helfen, mehr über diese Sprachen zu erfahren.
Einführung in die spannende Welt der Programmierung
Spaß mit R
Carrie: Erste Schritte mit R
Programmiersprachen
Wege, etwas über Programmierung zu lernen
Das Schreiben von Code in Programmiersprachen kann eine spannende und lohnende Erfahrung sein. Das Feld der Programmierung blickt auf eine lange Geschichte zurück, in der sich Menschen gegenseitig geholfen haben, ihre Fähigkeiten zu verbessern und bewährte Verfahren zu entwickeln. Sie werden sich in diesem Kurs auf die Programmiersprache R konzentrieren, aber in Zukunft können Sie sich je nach Ihren Interessen und beruflichen Zielen für weitere Programmiersprachen entscheiden. Diese Lektüre ist ein allgemeiner Leitfaden, der Ihnen helfen soll zu entscheiden, welche Programmiersprachen für Sie am besten geeignet sind.
Beliebte Programmiersprachen nach Beruf
Gehen wir einige mögliche Berufsbezeichnungen durch, die Ihnen begegnen könnten, und die beliebtesten Programmiersprachen, die in diesen Berufen verwendet werden. Außerdem finden Sie hier eine Liste mit zusätzlichen Ressourcen, die Sie nutzen können, um mehr über jede der vorgestellten Programmiersprachen zu erfahren.
Fachkraft für Datenanalyse
Eine Fachkraft für Datenanalyse sammelt, transformiert und organisiert Daten, um Schlussfolgerungen zu ziehen, Vorhersagen zu treffen und fundierte Entscheidungen zu treffen. Die beliebtesten Programmiersprachen für Datenanalysten sind R und Python.
R bietet praktische statistische Funktionen für die Datenanalyse und ist nützlich für die Erstellung fortgeschrittener Datenvisualisierungen. Schauen Sie sich diese Ressourcen an, um mehr über R zu erfahren:
-
Das R Projekt für statistische Berechnungen: eine Website zum Herunterladen von R, Dokumentation und Hilfe
-
R-Handbücher: Links zu Handbüchern des R Core Teams, einschließlich Einführung, Administration und Hilfe
-
Coding Club R Tutorials: eine Sammlung von Coding-Tutorials für R
-
R für Einsteigerr for Beginners : ein Leitfaden für den Einstieg in die Arbeit mit Daten, Grafiken und Statistiken in R
Python ist eine Allzwecksprache, mit der Sie alles erstellen können, was Sie für die Datenanalyse benötigen. Hier finden Sie einige Ressourcen, um mit dem Erlernen von Python zu beginnen:
-
Die Python Software Foundation (PSF): eine Website mit Anleitungen, die Ihnen als Anfänger den Einstieg erleichtern
-
Python-Tutorial: ein Python 3-Tutorial von der PSF-Website
-
Coding Club Python Tutorials: eine Sammlung von Coding-Tutorials für Python
Kaggle ist ein Online-Repository mit verschiedenen Datasets, die sowohl in R als auch in Python verwendet werden können. Es handelt sich um eine robuste Plattform, auf der regelmäßig lösungsbasierte Wettbewerbe mit Datensätzen aus hochinteressanten Branchen stattfinden. Lernende können auch eine riesige Fundgrube an Diskussionen über Datenmodellierung, aktuelle Plug-in-Modelle und nützliche Codeschnipsel erkunden. Hier finden Sie einige großartige Ressourcen für den Einstieg in Kaggle:
-
Datasets: Erforschen und laden Sie eine riesige Sammlung von Datensätzen herunter und bewerten Sie Ihre Lieblingssammlung.
-
Wettbewerbe: Engagieren Sie sich individuell oder arbeiten Sie in einem Team an Datenwettbewerben, um die Möglichkeit einer finanziellen Belohnung zu erhalten. Auch wenn Sie die Wettbewerbe nicht gewinnen, ist dies eine gute Möglichkeit, sich mit anderen Analysten zu vernetzen.
-
Lernen: Nutzen Sie diese Ressource für einen zusätzlichen Einblick in die Datenvisualisierung, lineare Regressionstechniken oder den Code für Zeitreihendiagramme.
Web-Designer
Ein Webdesigner ist für die Gestaltung und das Layout von Webseiten verantwortlich, die Text, Grafiken und Videos enthalten. Webdesigner verwenden in der Regel Hypertext Markup Language v5 (HTML7) und Cascading Style Sheets (CSS), um Webseiten zu erstellen.
HTML7 sorgt für die Strukturierung von Webseiten und wird für die Anbindung an Hosting-Plattformen verwendet. Erfahren Sie mit diesen Ressourcen mehr über HTML7 und CSS:
-
HTML-Tutorial: eine Einführung in HTML mit Links zu HTML7-Funktionen, Beispielen und Referenzen
-
HTML7 Spickzettel: eine praktische Zusammenfassung der HTML7-Tags, Attribute und der Kompatibilität mit HTML4
-
HTML7- und CSS-Grundlagenkurs: ein kostenloser W3C-Kurs auf edX; ein geprüftes Kurszertifikat kann für $199 ausgestellt werden
CSS wird für das Design von Webseiten verwendet und kontrolliert grafische Elemente (Farbe, Layout und Schriftart) sowie die Präsentation der Seite auf verschiedenen Geräten (große Bildschirme, mobile Bildschirme und Drucker). Sehen Sie sich diese Spickzettel für CSS an:
-
Interaktiver CSS-Spickzettel: enthält die gängigsten CSS-Schnipsel für Farbverlauf, Hintergrund, Schriftart, Rahmen und vieles mehr
-
50 beste HTML & CSS Spickzettel: eine Liste mit 50 Spickzetteln – wählen Sie ein paar aus, die für Sie nützlich sind
Entwickler mobiler Apps
Ein Entwickler mobiler Anwendungen nutzt die Programmierung, um Apps zu erstellen, die auf Laptops, Handys und Tablets verwendet werden. Die beliebtesten Programmiersprachen für Entwickler mobiler Apps sind Swift, Java und C#.
Swift (für Apple Plattformen) ist eine Open Source Scripting Sprache für macOS, iOS, watchOS und tvOS. Ihr Hauptziel ist es, Apps schneller laufen zu lassen. In diesen Ressourcen finden Sie weitere Informationen über Swift:
-
Swift.org: eine Open-Source-Community mit Ressourcen zum Erlernen der Verwendung von Swift, einschließlich Videos und Stichproben-Code
-
Swift Entwickler-Websiteswift.org: eine Apple Entwickler-Website mit Informationen für Entwickler, die Swift verwenden möchten
-
Ressourcen für die Swift-Entwicklung: Apples Sammlung von Dokumentation, Stichproben, Videos und empfohlenen Büchern
Java (für Android-Geräte) ist die offizielle Sprache für die Android-Entwicklung. Der Artikel Ich möchte Android-Apps entwickeln – welche Sprachen sollte ich lernen? untersucht einige andere Sprachen, die für die Android-Entwicklung verwendet werden. Sehen Sie sich diese Ressourcen für Java an:
-
Android Studio: eine herunterladbare Integrierte Entwicklungsumgebung (IDE) mit Tools zum Erstellen von Apps für Android-Geräte
-
Erstellen Sie Ihre erste Android-App in Javaandroid Studio: Anleitung für die Installation von Android Studio und die Erstellung Ihrer ersten App
-
Java-Tutorial für Anfänger: Schreiben Sie eine einfache App ohne Vorkenntnissejava: ein Überblick über das Erlernen von Java, mit Beispielen
C# (ausgesprochen C-sharp) ist eine objektorientierte Programmiersprache, die weit verbreitet ist, um mobile Apps auf der Open-Source-Entwicklerplattform .NET zu erstellen. Xamarin erweitert die .NET Plattform um ein Framework, mit dem Entwickler plattformübergreifende mobile Apps für iOS und Android erstellen können. Hier finden Sie einige Ressourcen, die Ihnen helfen, C# zu lernen:
-
Microsoft .NET-Lernmaterialien für C#: enthält kostenlose Kurse, Tutorials und Videos zum Erlernen der Programmiersprache C#
-
Microsoft Xamarin Materialien zum Lernenmicrosoft Xamarin: enthält kostenlose Kurse, Tutorials und Videos zum Erlernen der mobilen Entwicklung mit Xamarin
-
Xamarin Tutorial – Erstellen Sie Ihre erste iOS- oder Android-App in C#xamarin Tutorial: Anleitung zum Erstellen einer mobilen App, die den Text „Hello World“ anzeigt
-
Lernen Sie C# von Codecademycodecademy: eine Website mit kostenlosen grundlegenden interaktiven Lektionen und zusätzlichen Aktivitäten, auf die Sie mit einem monatlichen Abonnement zugreifen können
Entwickler von Web-Applikationen
Ein Web-Anwendungsentwickler entwirft und entwickelt Netzwerk-Apps, die im Internet eingesetzt werden. Die beliebtesten Programmiersprachen, die von Entwicklern von Webanwendungen verwendet werden, sind Java, Python, Ruby und PHP.
Java wird häufig verwendet, um Webanwendungen für Unternehmen zu erstellen, die auf mehreren Clients laufen können. Die größte Stärke von Java ist sein „Write Once, Run Anywhere“ (WORA) Ansatz. Stöbern Sie in diesen Ressourcen, um mehr über Java zu erfahren:
-
Oracle Java Tutorials: Java-Tutorials aus der Oracle-Dokumentation
-
Java für Einsteiger: ein kostenloser Java-Kurs für Anfänger von der Website „Home and Learn“
Python ist eine universell einsetzbare Programmiersprache. Sehen Sie sich die Ressourcen zu Python an, die in der Rubrik Fachkraft für Datenanalyse aufgeführt sind.
Ruby ist eine allgemeine, objektorientierte Programmiersprache für die Entwicklung von Web-Apps. Ruby ist nicht dasselbe wie Ruby on Rails, ein Open Source Framework für Web-Apps, das mit Ruby läuft. Schauen Sie sich diese Ressourcen an, um mehr über Ruby zu erfahren:
-
Ruby-Nachrichten: Informationen über die neuesten Ruby-Versionen und Links zu anderen Ressourcen
-
Ruby-Dokumentationruby-Dokumentation: enthält Anleitungen, Tutorials und Referenzmaterial, das Ihnen hilft, mehr über Ruby zu erfahren
-
Handbuch für Ruby-Programmierer: ein Tutorial und Referenzhandbuch für Ruby
-
Lernen Sie Ruby von Codecademycodecademy: eine Website mit kostenlosen interaktiven Grundkursen und zusätzlichen Aktivitäten, auf die Sie mit einem monatlichen Abonnement zugreifen können
PHP ist eine Scripting-Sprache, die sich besonders für die Entwicklung von Web-Apps eignet. Sie wurde auf der Grundlage von Perl, einer anderen Programmiersprache, entwickelt. PHP ist einfach, flexibel und relativ leicht zu erlernen. Sehen Sie sich diese Ressourcen an, um mehr über PHP zu erfahren:
-
PHP Downloads und Dokumentation: Informationen zu den neuesten PHP-Versionen und Links zu anderen Ressourcen
-
PHP auf die richtige Art: eine Kurzreferenz für gängige PHP Coding Standards
-
Interaktives PHP-Tutorial: ein kostenloses Tutorial, das PHP-Code in Übungen durchführt
Spiele-Entwickler
Ein Spieleentwickler ist ein App-Entwickler, der sich auf die Entwicklung von Videospielen spezialisiert hat. Spieleentwickler verwenden in der Regel die Programmiersprachen C# und C++.
C# ist eine objektorientierte Programmiersprache, die häufig zur Erstellung von Spielen verwendet wird. Sehen Sie sich die Ressourcen für C# an, die im Abschnitt für Entwickler mobiler Apps aufgeführt sind.
C++ ist eine Erweiterung der Programmiersprache C, die auch für die Entwicklung von Konsolenspielen, z.B. für die Xbox, verwendet wird. Hier finden Sie weitere Informationen über C++:
-
Microsoft-Ressourcen für C++: lernen Sie, wie Sie die Visual Studio IDE installieren und C++ Code schreiben
-
Microsoft C++ und C# Codebeispiele für Spiele: eine Ressource mit über 40 C++- und C#-Codebeispielen für Spiele
-
Interaktives C++-Tutorialinteraktives C++-Tutorial: ein kostenloses Tutorial, das C++-Code in Übungen ausführt
Tipps zum Erlernen von Programmiersprachen
Hier sind einige Tipps, die Sie beachten sollten, wenn Sie mit dem Erlernen einer neuen Programmiersprache beginnen:
-
Definieren Sie ein Übungsprojekt und verwenden Sie die Sprache, um es abzuschließen. Das macht den Lernprozess praktischer und fesselnder.
-
Behalten Sie frühere Konzepte und Coding-Prinzipien im Kopf. Viele davon sind von einer Programmiersprache zur anderen übertragbar. Nachdem Sie also eine Sprache gelernt haben, fällt Ihnen das Erlernen einer zweiten oder dritten Programmiersprache in der Regel viel leichter.
-
Erstellen und bewahren Sie gute Notizen und Spickzettel in dem Format auf, das für Sie am besten geeignet ist (handschriftlich oder maschinengeschrieben).
-
Legen Sie ein Online-Dateisystem für Informationen an, auf das Sie leicht zugreifen können, während Sie in verschiedenen Umgebungen der Programmierung arbeiten.
Von Tabellen zu SQL zu R
Obwohl die Programmiersprache R für Sie vielleicht neu ist, weist sie viele Ähnlichkeiten mit den anderen Tools auf, die Sie in diesem Programm kennen gelernt haben. In dieser Lektüre werden Sie Tabellenkalkulationsprogramme, SQL und R vergleichen, um ein besseres Gespür dafür zu bekommen, wie Sie die einzelnen Programme in Zukunft einsetzen können.
Tabellenkalkulationen, SQL und R: ein Vergleich
Als Fachkraft für Datenanalyse ist die Wahrscheinlichkeit groß, dass Sie irgendwann in Ihrer Laufbahn mit SQL, R und Tabellenkalkulationen arbeiten werden. Jedes Tool hat seine eigenen Stärken und Schwächen, aber sie alle machen den Prozess der Datenanalyse reibungsloser und effizienter. Es gibt zwei wesentliche Dinge, die alle drei gemeinsam haben:
-
Sie arbeiten alle mit Filtern: Sie können zum Beispiel mit jedem dieser Tools ganz einfach ein Dataset filtern. In R können Sie die Filterfunktion verwenden. Diese führt die gleiche Aufgabe aus wie eine einfache SELECT-FROM-WHERE SQL-Abfrage. In einer Tabelle können Sie über die Menüoptionen einen Filter erstellen.
-
Sie alle verwenden Funktionen: In Tabellenkalkulationen verwenden Sie Funktionen in Formeln, und in SQL fügen Sie sie in Abfragen ein. In R werden Sie Funktionen in dem Code verwenden, der Teil Ihrer Analyse ist.
In der nachstehenden Tabelle finden Sie einige Schlüssel-Fragen, um diese Tools miteinander zu vergleichen. Sie können diese Tabelle als allgemeinen Leitfaden verwenden, wenn Sie beginnen, sich in R zurechtzufinden.
Schlüssel-Frage |
Tabellenkalkulationen |
SQL |
R |
---|---|---|---|
Was ist R? |
Ein Programm, das Zeilen und Spalten verwendet, um Daten zu organisieren und die Analyse und Manipulation durch Formeln, Funktionen und eingebaute Features zu ermöglichen |
Eine Programmiersprache für Datenbanken, die zur Kommunikation mit Datenbanken verwendet wird, um eine Datenanalyse durchzuführen |
Eine Programmiersprache für allgemeine Zwecke, die für statistische Analysen, Visualisierung und andere Datenanalysen verwendet wird |
Was ist ein wesentlicher Vorteil? |
Enthält eine Vielfalt von Tools und Funktionen für die Visualisierung |
Ermöglicht es Nutzern, Daten nach Bedarf zu manipulieren und umzuorganisieren, um die Analyse zu unterstützen |
Bietet eine barrierefreie Sprache zum Organisieren, Ändern und Bereinigen von Dataframes und zum Erstellen aufschlussreicher Datenvisualisierungen |
Mit welchen Datasets funktioniert es am besten? |
Kleinere Datasets |
Größere Datasets |
Größere Datasets |
Aus welcher Quelle stammen die Daten? |
Manuell eingegeben oder aus einer externen Quelle importiert |
Von einer externen Datenbank abgerufen |
Mit R geladen, wenn es installiert ist, von Ihrem Computer importiert oder aus externen Quellen geladen |
Wo werden die Daten aus meiner Analyse normalerweise gespeichert? |
In einer Tabelle auf Ihrem Computer |
In Tabellen in der Datenbank, auf die Sie zugreifen |
In einer R-Datei auf Ihrem Computer |
Benutze ich Formeln und Funktionen? |
Ja |
Ja |
Ja |
Kann ich Visualisierungen erstellen? |
Ja |
Ja, mit Hilfe eines zusätzlichen Tools wie einem Datenbank-Management-System (DBMS) oder einem Business Intelligence (BI)-Tool |
Ja |
Einführung in R
Einführung in RStudio
Wann Sie RStudio verwenden sollten
Als Fachkraft für Datenanalyse haben Sie in jeder Phase Ihrer Analyse eine Vielzahl von Tools zur Verfügung, mit denen Sie arbeiten können. Manchmal können Sie Ihre Ziele erreichen, indem Sie in einem Tabellenkalkulationsprogramm arbeiten oder SQL mit einer Datenbank verwenden. In dieser Lektüre werden Sie einige Beispiele dafür kennenlernen, wann die Arbeit in R und RStudio die bessere Wahl sein könnte.
Warum RStudio?
Eine Ihrer Hauptaufgaben als Analyst ist die Umwandlung von Rohdaten in Statistiken, die genau, nützlich und interessant sind. Das kann schwierig sein, wenn die Rohdaten komplex sind. R und RStudio sind darauf ausgelegt, große Datensätze zu verarbeiten, die Tabellenkalkulationen möglicherweise nicht so gut verarbeiten können. Mit RStudio ist es außerdem einfach, Ihre Arbeit an verschiedenen Datasets zu reproduzieren. Wenn Sie Ihren Code eingegeben haben, können Sie einfach ein neues Dataset laden und Ihre Scripts erneut ausführen. Sie können mit RStudio auch detailliertere Visualisierungen erstellen.
Wenn RStudio wirklich glänzt
Wenn die Daten über mehrere Kategorien oder Gruppen verteilt sind, kann es eine Herausforderung sein, Ihre Analysen zu verwalten, Trends zu visualisieren und Grafiken zu erstellen. Und je mehr Datengruppen Sie bearbeiten müssen, desto schwieriger werden diese Aufgaben. Hier kommt RStudio ins Spiel.
Stellen Sie sich zum Beispiel vor, Sie analysieren die Verkaufsdaten für jede Stadt in einem ganzen Land. Das sind eine Menge Daten von vielen verschiedenen Gruppen – in diesem Fall hat jede Stadt ihre eigene Datengruppe.
Hier sind einige Möglichkeiten, wie RStudio in dieser Situation helfen könnte:
-
Mit RStudio ist es einfach, einen bestimmten Analyseschritt für jede Gruppe mit einfachem Code auszuführen. In diesem Beispiel könnten Sie den jährlichen MITTELWERT der Verkaufsdaten für jede Stadt berechnen.
-
RStudio ermöglicht auch eine flexible Datenvisualisierung. Sie können die Unterschiede zwischen den Städten mithilfe von Plot-Funktionen wie Facetten – über die Sie später noch mehr erfahren werden – effektiv visualisieren.
-
Sie können RStudio auch verwenden, um automatisch eine Ausgabe von zusammenfassenden Statistiken – oder sogar Ihre visualisierten Plots – für jede Gruppe zu erstellen.
Wenn Sie im weiteren Verlauf dieses Programms mehr über R und RStudio erfahren, werden Sie besser verstehen, wann RStudio das Tool Ihrer Wahl für die Datenanalyse sein sollte.
Für weitere Informationen
-
Die Vorteile von RStudio: Auf dieser Webseite werden einige der Gründe erläutert, warum RStudio von vielen Analysten als Schnittstelle zu R bevorzugt wird. Sie erfahren mehr über die Vorteile der Verwendung von RStudio für die Datenanalyse, von der Benutzerfreundlichkeit bis hin zu den Bedienungshilfen für Grafiken und mehr.
-
Datenanalyse und R-Programmierung: Diese Online-Einführung in die Datenanalyse und Programmierung mit R ist ein guter Ausgangspunkt für Nutzer von R und RStudio. Sie enthält auch eine Liste mit detaillierten Erklärungen zu den Vorteilen der Verwendung von R und RStudio. Außerdem finden Sie eine hilfreiche Anleitung für die Einrichtung von RStudio.
Kontakte zu anderen Analysten in der R-Community knüpfen
R ist ein leistungsfähiges Tool in Ihrem Werkzeugkasten für die Datenanalyse – und es hat auch eine starke Gemeinschaft von Nutzern, die begeistert sind, sich mit anderen auszutauschen, zusammenzuarbeiten und Kontakte zu knüpfen. In dieser Lektüre finden Sie einige Orte, an denen Sie online und persönlich mit anderen Analysten in der R-Community in Kontakt treten können.
Online-Gemeinschaften
Online-Gemeinschaften ermöglichen es Ihnen, mit anderen R Nutzern in Kontakt zu treten, egal wo Sie leben. Diese Liste enthält Foren und Diskussionskanäle, in denen Sie sich an der Konversation beteiligen können. Sie enthält auch Social Media-Tags, die Sie auf Ihren bestehenden Social Media-Plattformen verwenden können, um mit anderen Fachkräften für Datenanalyse in Kontakt zu treten.
-
RStudio Gemeinschaft: Das RStudio Community-Forum ist ein großartiger Ort, um Hilfe zu erhalten und Lösungen für Ihre Probleme mit R zu finden – und vielleicht auch, um anderen zu helfen!
-
r/RLanguage: Das R language subreddit ist eine aktive Online-Community auf der Social Media Plattform Reddit, in der R Nutzer über R diskutieren, Fragen stellen und Tipps austauschen können.
-
rOpenSci: rOpenSci bietet ein Community-Forum, in dem R-Nutzer Fragen stellen und nach Lösungen suchen können. Es enthält auch Links zu ihrem Best Practices Guide und ihren Support-Seiten.
-
R4DS Online Learning Community und Slack-Kanal: Dies ist eine Community mit einem weiteren Slack-Kanal, in dem sich R-Lernende und Mentoren treffen und austauschen können. Hier können Sie sich über die Verwendung von R für die Datenwissenschaft austauschen.
-
Twitter #rstats: Wenn Sie Twitter benutzen, können Sie sich mit anderen Nutzern von R unter dem Hashtag #rstats austauschen. Viele R-Entwickler und Analysten sind auf Twitter aktiv.
Meetups
Viele Organisationen veranstalten sowohl persönliche als auch Online-Meetups für R Nutzer. Sie sollten immer vorsichtig sein, wenn Sie persönlich an einem Meetup teilnehmen.
-
Lokale Data Analytics-Treffen: Diese Treffen sind eine gute Möglichkeit, andere Menschen zu treffen, die sich für Data Analytics interessieren, und Ihr Netzwerk auszubauen. Diese Treffen sind ortsabhängig, so dass Sie sich mit anderen Fachkräften für Datenanalyse in Ihrer Nähe treffen können.
-
R-Nutzergruppen: Diese Liste enthält Links zu regionalen R-Communities, einschließlich Subreddits und Meetup-Gruppen. Dies ist eine nützliche Ressource, wenn Sie daran interessiert sind, R-Nutzer in Ihrer Umgebung zu finden.
-
RLadies Meetups: Dies sind persönliche und virtuelle Treffen speziell für R-Enthusiasten, die sich als unterrepräsentiert oder marginalisiert bezeichnen. Diese Treffen sind ebenfalls ortsgebunden und können Ihnen helfen, mit anderen Fachkräften für Datenanalyse in Ihrer Umgebung in Kontakt zu treten.
R kann schwierig zu erlernen sein, aber zum Glück gibt es eine starke Gemeinschaft von R Nutzern, die daran interessiert sind, zusammenzuarbeiten und sich gegenseitig zu helfen. Diese Ressourcen sind ein guter Ausgangspunkt, wenn Sie sich mit der größeren Gemeinschaft der Fachkräfte für Datenanalyse vernetzen möchten, also nutzen Sie sie!
Programmierung mit RStudio
Grundlagen der Programmierung
Vektoren und Listen in R
Sie können diese Lektüre zum späteren Nachschlagen speichern. Sie können auch eine PDF-Version dieser Lektüre herunterladen:
In der Programmierung ist eine Datenstruktur ein Format zum Organisieren und Speichern von Daten. Es ist wichtig, Datenstrukturen zu verstehen, denn Sie werden häufig mit ihnen arbeiten, wenn Sie R für die Datenanalyse verwenden. Zu den gebräuchlichsten Datenstrukturen in der Programmiersprache R gehören:
-
Vektoren
-
Dataframes
-
Matrizen
-
Arrays
Stellen Sie sich eine Datenstruktur wie ein Haus vor, das Ihre Daten enthält.
Diese Lektüre konzentriert sich auf Vektoren. Später werden Sie mehr über Dataframes, Matrizen und Arrays erfahren.
Es gibt zwei Arten von Vektoren: atomare Vektoren und Listen. Im Folgenden lernen Sie die grundlegenden Eigenschaften von atomaren Vektoren und Listen kennen und erfahren, wie Sie sie mit R-Code erstellen können.
Atomare Vektoren
Zunächst werden wir die verschiedenen Arten von atomaren Vektoren durchgehen. Anschließend lernen Sie, wie Sie mit R Code die Vektoren erstellen, identifizieren und benennen können.
Sie haben bereits gelernt, dass ein Vektor eine Gruppe von Datenelementen desselben Typs ist, die in R in einer Sequenz gespeichert werden. Sie können keinen Vektor haben, der sowohl logische als auch numerische Werte enthält.
Es gibt sechs Haupttypen von atomaren Vektoren: logisch, ganzzahlig, doppelt, Zeichen (die Zeichenketten enthalten), komplex und raw. Die letzten beiden – komplex und raw – sind in der Datenanalyse nicht so häufig anzutreffen, so dass wir uns auf die ersten vier konzentrieren werden. Integer- und Double-Vektoren werden zusammen als numerische Vektoren bezeichnet, da sie beide Zahlen enthalten. Diese Tabelle fasst die vier primären Typen zusammen:
Typ |
Beschreibung |
Beispiel |
---|---|---|
Logisch |
Wahr/Falsch |
TRUE |
Ganzzahl |
Positive und negative ganze Werte |
3 |
Doppelt |
Dezimale Werte |
101.175 |
Charakter |
String/Zeichenwerte |
“Coding” |
Dieses Diagramm veranschaulicht die Hierarchie der Beziehungen zwischen diesen vier Haupttypen von Vektoren:
Erstellen von Vektoren
Eine Möglichkeit, einen Vektor zu erstellen, ist die Funktion c() (auch „combine“-Funktion genannt). Die Funktion c() in R kombiniert mehrere Werte zu einem Vektor. In R ist diese Funktion einfach der Buchstabe „c“, gefolgt von den Werten, die Sie in Ihrem Vektor haben möchten, innerhalb der Klammern, getrennt durch ein Komma: c(x, y, z, …).
Sie können zum Beispiel die Funktion c() verwenden, um numerische Daten in einem Vektor zu speichern.
c(2.5, 48.5, 101.5)
Um mit der Funktion c() einen Vektor aus ganzen Zahlen zu erstellen, müssen Sie den Buchstaben „L“ direkt hinter jede Zahl setzen.
c(1L, 5L, 15L)
Sie können auch einen Vektor mit Zeichen oder logischen Zeichen erstellen.
c(“Sara” , “Lisa” , “Anna”)
c(TRUE, FALSE, TRUE)
Bestimmen der Eigenschaften von Vektoren
Jeder Vektor, den Sie erstellen, hat zwei Schlüsseleigenschaften: Typ und Länge.
mit Hilfe der Funktion typeof() können Sie feststellen, mit welchem Typ von Vektor Sie arbeiten. Platzieren Sie den Code für den Vektor innerhalb der Klammern der Funktion. Wenn Sie die Funktion ausführen, teilt R Ihnen den Typ mit. Ein Beispiel:
typeof(c(“a” , “b”))
#> [1] „character“
beachten Sie, dass die Ausgabe der Funktion typeof in diesem Beispiel “character” lautet. Ähnlich verhält es sich, wenn Sie die Funktion typeof auf einen Vektor mit ganzzahligen Werten anwenden. Die Ausgabe lautet dann “integer”:
typeof(c(1L , 3L))
#> [1] „integer“
Sie können die Länge eines vorhandenen Vektors – d.h. die Anzahl der Elemente, die er enthält – mit der Funktion length() ermitteln. In diesem Beispiel verwenden wir einen Zuweisungsoperator, um den Vektor der Variable x zuzuweisen. Anschließend wenden wir die Funktion length() auf die Variable an. Wenn wir die Funktion ausführen, teilt uns R mit, dass die Länge 3 ist.
x <- c(33.5, 57.75, 120.05)
length(x)
#> [1] 3
Sie können auch überprüfen, ob ein Vektor einen bestimmten Typ hat, indem Sie eine is-Funktion verwenden: is.logical(), is.double(), is.integer(), is.character(). In diesem Beispiel gibt R den Wert TRUE zurück, weil der Vektor ganze Zahlen enthält.
x <- c(2L, 5L, 11L)
is.integer(x)
#> [1] TRUE
In diesem Beispiel gibt R den Wert FALSE zurück, weil der Vektor keine Zeichen, sondern logische Zeichen enthält.
y <- c(TRUE, TRUE, FALSE)
is.character(y)
#> [1] FALSE
Vektoren benennen
Alle Arten von Vektoren können benannt werden. Namen sind nützlich, um lesbaren Code zu schreiben und Objekte in R zu beschreiben. Sie können die Elemente eines Vektors mit der Funktion names() benennen. Lassen Sie uns als Beispiel die Variable x einem neuen Vektor mit drei Elementen zuweisen.
x <- c(1, 3, 5)
Mit der Funktion names() können Sie jedem Element des Vektors einen anderen Namen zuweisen.
names(x) <- c(„a“, „b“, „c“)
Wenn Sie nun den Code ausführen, zeigt R an, dass das erste Element des Vektors den Namen a, das zweite b und das dritte c trägt.
x
#> a b c
#> 1 3 5
Denken Sie daran, dass ein atomarer Vektor nur Elemente desselben Typs enthalten kann. Wenn Sie Elemente unterschiedlichen Typs in der gleichen Datenstruktur speichern möchten, können Sie eine Liste verwenden.
Erstellen von Listen
Listen unterscheiden sich von atomaren Vektoren, da ihre Elemente von beliebigem Typ sein können – wie Daten, Dataframes, Vektoren, Matrizen und mehr. Listen können sogar andere Listen beherbergen.
Sie können eine Liste mit der Funktion list() erstellen. Ähnlich wie die Funktion c() besteht die Funktion list() einfach aus list, gefolgt von den Werten, die Sie in Ihrer Liste in Klammern setzen möchten: list(x, y, z, …). In diesem Beispiel erstellen wir eine Liste, die vier verschiedene Arten von Elementen enthält: Character („a“), Integer (1L), Double (1.5) und Logical (TRUE).
list(„a“, 1L, 1.5, TRUE)
Wie wir bereits erwähnt haben, können Listen andere Listen enthalten. Wenn Sie wollen, können Sie sogar eine Liste innerhalb einer Liste innerhalb einer Liste speichern – und so weiter.
list(list(list(1 , 3, 5)))
Bestimmen der Struktur von Listen
Wenn Sie herausfinden möchten, welche Arten von Elementen eine Liste enthält, können Sie die Funktion str() verwenden. Dazu fügen Sie den Code für die Liste in die Klammern der Funktion ein. Wenn Sie die Funktion ausführen, zeigt R die Datenstruktur der Liste an, indem es ihre Elemente und deren Typen beschreibt.
Wenden wir nun die Funktion str() auf unser erstes Beispiel einer Liste an.
str(list(„a“, 1L, 1.5, TRUE))
Wir führen die Funktion aus und R sagt uns, dass die Liste vier Elemente enthält und dass die Elemente aus vier verschiedenen Typen bestehen: Zeichen (chr), Ganzzahl (int), Zahl (num) und logisch (logi).
#> List of 4
#> $ : chr „a“
#> $ : int 1
#> $ : num 1.5
#> $ : logi TRUE
Verwenden wir die Funktion str(), um die Struktur unseres zweiten Beispiels zu ermitteln. Zunächst weisen wir die Liste der Variable z zu, um die Eingabe in die Funktion str() zu erleichtern.
z <- list(list(list(1 , 3, 5)))
Führen wir die Funktion aus.
str(z)
#> List of 1
#> $ :List of 1
#> ..$ :List of 3
#> .. ..$ : num 1
#> .. ..$ : num 3
#> .. ..$ : num 5
Die Einrückung der $ Symbole spiegelt die verschachtelte Struktur dieser Liste wider. Hier gibt es drei Ebenen (es gibt also eine Liste innerhalb einer Liste innerhalb einer Liste).
Listen benennen
Listen können, wie Vektoren, benannt werden. Sie können die Elemente einer Liste benennen, wenn Sie sie zum ersten Mal mit der Funktion list() erstellen:
list(‚Chicago‘ = 1, ‚New York‘ = 2, ‚Los Angeles‘ = 3)
$`Chicago`
[1] 1
$`New York`
[1] 2
$`Los Angeles`
[1] 3
Zusätzliche Ressource
Wenn Sie mehr über Vektoren und Listen erfahren möchten, lesen Sie R für Datenwissenschaft, Kapitel 20: Vektoren. R for Daten Science ist eine klassische Ressource, um zu lernen, wie man R für Datenwissenschaft und Datenanalyse verwendet. Es deckt alles von der Bereinigung über die Visualisierung bis hin zur Kommunikation Ihrer Daten ab. Wenn Sie sich näher mit dem Thema Vektoren und Listen befassen möchten, ist dieses Kapitel ein hervorragender Startpunkt für Sie.
Daten und Zeiten in R
In dieser Lektüre lernen Sie, wie Sie in R mit dem Paket lubridate mit Datums- und Zeitangaben arbeiten. Als Nächstes werden Sie die Tools des Pakets lubridate verwenden, um verschiedene Datentypen in R in Datums- und Zeitformate zu konvertieren.
Laden der Pakete tidyverse und lubridate
Bevor Sie mit der Arbeit mit Datums- und Zeitangaben beginnen, sollten Sie sowohl tidyverse als auch lubridate laden. Lubridate ist Teil von tidyverse.
Öffnen Sie zunächst RStudio.
Wenn Sie tidyverse noch nicht installiert haben, können Sie dies mit der Funktion install.packages() tun:
-
install.packages(„tidyverse“)
Als nächstes laden Sie die Pakete tidyverse und lubridate mit der Funktion library() . Laden Sie zunächst das Kernpaket tidyverse, um es in Ihrer aktuellen R-Sitzung verfügbar zu machen:
-
library(tidyverse)
Dann laden Sie das Paket lubridate:
-
library(lubridate)
Jetzt sind Sie bereit, die Tools des Pakets lubridate kennenzulernen.
Arbeiten mit Daten und Zeiten
Dieser Abschnitt befasst sich mit den Datentypen für Datums- und Zeitangaben in R und mit der Konvertierung von Strings in Datums- und Zeitformate.
Typen
In R gibt es drei Arten von Daten, die sich auf einen Zeitpunkt beziehen:
-
Ein Datum („2016-08-16“)
-
Eine Uhrzeit innerhalb eines Tages (“20:11:59 UTC“)
-
Und eine Datumszeit. Dies ist ein Datum plus eine Uhrzeit („2018-03-31 18:15:48 UTC“)
Die Uhrzeit wird in UTC angegeben, was für Universal Time Coordinated steht, besser bekannt als Universal Coordinated Time. Dies ist der primäre Standard, nach dem die Welt die Uhren und die Zeit regelt.
Um das aktuelle Datum zu erhalten, können Sie zum Beispiel die Funktion today() ausführen. Das Datum wird als Jahr, Monat und Tag angezeigt.
today()
#> [1] „2021-01-20“
Um das aktuelle Datum und die Uhrzeit zu ermitteln, können Sie die Funktion now() verwenden. Beachten Sie, dass die Zeit auf die nächste Sekunde genau angezeigt wird.
now()
#> [1] „2021-01-20 16:25:05 UTC“
Bei der Arbeit mit R gibt es drei Möglichkeiten, Datums- und Zeitformate zu erstellen:
-
Aus einer Zeichenkette
-
Aus einem einzelnen Datum
-
Aus einem bestehenden Datum/Zeit-Objekt
R erstellt Datumsangaben standardmäßig im Format jjjj-mm-tt.
Schauen wir uns jede Methode an.
Konvertierung von Strings
Datums-/Zeitdaten liegen oft als Strings vor. Sie können Strings mit den Tools von lubridate in Datums- und Zeitangaben umwandeln. Diese Tools ermitteln automatisch das Datums-/Zeitformat. Ermitteln Sie zunächst die Reihenfolge, in der das Jahr, der Monat und der Tag in Ihren Daten erscheinen. Dann ordnen Sie die Buchstaben y, m und d in der gleichen Reihenfolge an. So erhalten Sie den Namen der Lubridate-Funktion, die Ihr Datum analysiert. Für das Datum 2021-01-20 zum Beispiel verwenden Sie die Reihenfolge ymd:
ymd(„2021-01-20“)
Wenn Sie die Funktion ausführen, gibt R das Datum im Format yyyy-mm-dd zurück.
#> [1] „2021-01-20“
Die Funktion funktioniert für jede beliebige Reihenfolge gleich. Zum Beispiel Monat, Tag und Jahr: R gibt immer noch das Datum im Format jjjj-mm-tt zurück.
mdy(„January 20th, 2021“)
#> [1] „2021-01-20“
Oder Tag, Monat und Jahr: R gibt das Datum immer noch im Format jjjj-mm-tt zurück.
dmy(„20-Jan-2021“)
#> [1] „2021-01-20“
Diese Funktionen nehmen auch nicht in Anführungszeichen gesetzte Zahlen und konvertieren sie in das Format yyyy-mm-dd.
ymd(20210120)
#> [1] „2021-01-20“
Erstellen von Datum-Zeit-Komponenten
Die Funktion ymd() und ihre Variationen erstellen Datumsangaben. Um eine Datumszeit aus einem Datum zu erstellen, fügen Sie dem Namen der Funktion einen Unterstrich und einen oder mehrere der Buchstaben h, m und s (Stunden, Minuten, Sekunden) hinzu:
ymd_hms(„2021-01-20 20:11:59“)
#> [1] „2021-01-20 20:11:59 UTC“
mdy_hm(„01/20/2021 08:01“)
#> [1] „2021-01-20 08:01:00 UTC“
Optional: Umschalten zwischen vorhandenen Datum-Zeit-Objekten
Schließlich möchten Sie vielleicht zwischen einem Datum-Zeit-Objekt und einem Datum umschalten.
Sie können die Funktion as_date() verwenden, um eine Datumszeit in ein Datum umzuwandeln. Fügen Sie zum Beispiel die aktuelle Datumszeit – jetzt() – in die Klammern der Funktion ein.
as_date(now())
#> [1] „2021-01-20“
Zusätzliche Ressourcen
Wenn Sie mehr über die Arbeit mit Datums- und Zeitangaben in R erfahren möchten, lesen Sie die folgenden Ressourcen:
-
lubridate.tidyverse: Dies ist der Eintrag „lubridate“ aus der offiziellen tidyverse-Dokumentation, die ein umfassendes Nachschlagewerk zu den verschiedenen tidyverse-Paketen bietet. Unter diesem Link finden Sie einen Überblick über die wichtigsten Konzepte und Funktionen.
-
Daten und Zeiten mit lubridate: Spickzettel: Dieser „Spickzettel“ gibt Ihnen eine detaillierte Karte der verschiedenen Dinge, die Sie mit dem lubridate-Paket tun können. Sie müssen nicht alle diese Informationen kennen, aber der Spickzettel ist eine nützliche Referenz für alle Fragen, die Sie zur Arbeit mit Datums- und Zeitangaben in R haben könnten.
Andere gängige Datenstrukturen
In dieser Lektüre werden Sie die Erforschung von Datenstrukturen durch eine Einführung in Dataframes und Matrizen fortsetzen. Sie werden die grundlegenden Eigenschaften jeder Struktur kennenlernen und einfache Möglichkeiten, sie mit R-Code zu erstellen. Sie werden auch kurz auf Dateien eingehen, die häufig für den Zugriff auf und die Speicherung von Daten und zugehörigen Informationen verwendet werden. Die Abschnitte über Dateien und Matrizen in dieser Lektüre sind optional.
Datenstrukturen
Erinnern Sie sich daran, dass eine Datenstruktur wie ein Haus ist, das Ihre Daten enthält und Ihnen dabei hilft, Datenelemente auf eine strukturierte Weise zusammenzubringen, die es Ihnen ermöglicht, Schlussfolgerungen zu ziehen.
Dataframes
Dataframes sind die gebräuchlichste Form der Datenspeicherung und -analyse in R. Daher ist es wichtig zu verstehen, was sie sind und wie man sie erstellt. Ein Dataframe ist eine Sammlung von Spalten, die Daten enthalten, ähnlich wie eine Tabelle oder eine SQL-Tabelle. Jede Spalte hat einen Namen, der eine Variable darstellt, und enthält eine Beobachtung pro Zeile. Dataframes fassen Daten zusammen und organisieren sie in einem Format, das einfach zu lesen und zu verwenden ist.
Der Dataframe unten zeigt zum Beispiel das Dataset diamonds, eines der vorgeladenen Datasets in R. Jede Spalte enthält eine einzelne Variable, die sich auf Diamanten bezieht: Karat, Schliff, Farbe, Reinheit, Tiefe usw. Jede Zeile steht für eine einzelne Beobachtung.
Bei der Arbeit mit Dataframes gibt es einige Schlüssel zu beachten:
-
Dataframes können viele verschiedene Arten von Daten enthalten, z. B. numerische, logische oder Zeichen.
-
Dataframes können in jeder Zelle nur ein Element enthalten.
-
Jede Spalte sollte benannt werden.
-
Jede Spalte sollte aus Elementen desselben Datentyps bestehen.
Sie werden später im Programm mehr über Dataframes erfahren, aber dies ist ein guter Ausgangspunkt.
Wenn Sie einen Dataframe in R manuell erstellen müssen, können Sie die Funktion data.frame() verwenden. Die Funktion data.frame() nimmt Vektoren als Eingabe entgegen. Geben Sie in die Klammern den Namen der Spalte ein, gefolgt von einem Gleichheitszeichen, und dann den Vektor, den Sie für diese Spalte eingeben möchten. In diesem Beispiel ist die Spalte x ein Vektor mit den Elementen 1, 2, 3, und die Spalte y ein Vektor mit den Elementen 1,5, 5,5, 7,5. Führen Sie den folgenden Code aus, um den Dataframe zu erstellen.
Wenn Sie den Code ausführen, zeigt R den Dataframe in geordneten Zeilen und Spalten an.
Verwenden Sie den Operator extract, um eine Teilmenge aus einem Dataframe zu extrahieren. Wenn Sie diesen Operator auf einen Daten-Frame anwenden, benötigt er zwei Argumente: die Zeile(n) und Spalte(n), die Sie extrahieren möchten, getrennt durch ein Komma. Nennen Sie zum Beispiel den obigen Dataframe z. Um das Element aus der zweiten Zeile und der ersten Spalte zu extrahieren, verwenden Sie den Code z[2,1], der den Wert 2 zurückgibt:
Sie werden später im Kurs mehr über Dataframes lernen, aber das reicht für den Anfang!
Optional: Dateien
Wenn Sie Daten analysieren, werden Sie normalerweise keinen Dataframe selbst erstellen. Stattdessen werden Sie Daten aus einer anderen Quelle importieren, z. B. aus einer CSV-Datei, einer relationalen Datenbank oder einem Software-Programm. Aus diesem Grund ist es unerlässlich, in R mit Dateien arbeiten zu können. In diesem Abschnitt lernen Sie einige der nützlichsten Funktionen für die Arbeit mit Dateien kennen, darunter Befehle zum Erstellen, Kopieren und Löschen von Dateien in R.
Erstellen einer Datei
Verwenden Sie die Funktion file.create() , um eine leere Datei zu erstellen. Setzen Sie den Namen und den Typ der Datei in die Klammern der Funktion. Ihre Dateitypen sind normalerweise .txt, .docx oder .csv.
Wenn die Datei beim Ausführen der Funktion erfolgreich erstellt wurde, gibt R den Wert TRUE zurück. Andernfalls gibt R den Wert FALSE zurück.
Kopieren einer Datei
Kopieren Sie eine Datei mit der Funktion file.copy(). Fügen Sie in die Klammern den Namen der zu kopierenden Datei ein. Geben Sie dann ein Komma ein und fügen Sie den Namen des Zielordners hinzu, in den Sie die Datei kopieren möchten.
Wenn Sie die Registerkarte “ Dateien“ in RStudio überprüfen, wird eine Kopie der Datei im entsprechenden Ordner angezeigt:
Sie können R-Dateien mit der Funktion unlink() löschen. Geben Sie den Namen der Datei in die Klammern der Funktion ein.
Sie werden später in diesem Kurs Techniken zum Importieren von Dateien in R kennenlernen.
Optional: Matrizen
Eine Matrix ist eine zweidimensionale Sammlung von Datenelementen. Das heißt, sie hat sowohl Zeilen als auch Spalten. Im Gegensatz dazu ist ein Vektor eine eindimensionale Folge von Datenelementen. Wie Vektoren können Matrizen jedoch nur einen einzigen Datentyp enthalten. Zum Beispiel können Sie in einer Matrix nicht sowohl logische als auch numerische Daten haben.
Um eine Matrix in R zu erstellen, können Sie die Funktion matrix() verwenden. Die Funktion matrix() hat zwei Hauptargumente, die Sie in die Klammern eingeben. Fügen Sie zunächst einen Vektor hinzu. Der Vektor enthält die Werte, die Sie in der Matrix platzieren möchten. Als nächstes fügen Sie mindestens eine Matrixdimension hinzu. Sie können die Anzahl der Zeilen oder die Anzahl der Spalten mit dem Code nrow = oder ncol = angeben.
Um beispielsweise eine 2×3-Matrix (zwei Zeilen mal drei Spalten) zu erstellen, die die Werte 3-8 enthält, geben Sie einen Vektor mit dieser Zahlenreihe ein: c(3:8). Geben Sie dann ein Komma ein. Geben Sie schließlich nrow = 2 ein, um die Anzahl der Zeilen anzugeben. Führen Sie den Code aus:
R zeigt eine Matrix mit drei Spalten und zwei Zeilen (typischerweise als „2×3“ bezeichnet) an, die die numerischen Werte 3, 4, 5, 6, 7, 8 enthalten. R setzt den ersten Wert (3) des Vektors in die oberste Zeile und die äußerste linke Spalte der Matrix und setzt die Reihenfolge von links nach rechts fort.
Sie können auch die Anzahl der Spalten (ncol = ) anstelle der Anzahl der Zeilen (nrow = ) angeben. Führen Sie den Code aus:
R leitet die Anzahl der Zeilen automatisch ab.
Ähnlich wie bei Dataframes können Sie mit dem Extraktionsoperator [] ein Element aus einer Matrix extrahieren.
Die wichtigsten Erkenntnisse
Als Fachkraft für Datenanalyse werden Sie häufig mit Dataframes arbeiten. Dataframes in R sind eine Sammlung von Spalten, die Daten enthalten, ähnlich wie eine Tabelle oder eine SQL-Tabelle. Dataframes können Daten unterschiedlichen Typs enthalten, allerdings muss jede Spalte vom gleichen Datentyp sein. Im Gegensatz dazu sind Matrizen eine Sammlung von zweidimensionalen Datenelementen, die nur einen Datentyp enthalten können. In der Regel werden Sie Daten in R importieren, bevor Sie sie analysieren, daher ist es wichtig zu wissen, wie man mit R mit Dateien arbeitet. Sie werden später in diesem Kurs Techniken zum Importieren von Dateien kennenlernen, aber Sie können auch R-Funktionen zum Erstellen, Kopieren und Löschen von Dateien verwenden.
Ressourcen für weitere Informationen
Weitere Informationen zur Arbeit mit Dateien in R finden Sie in der R-Dokumentation: files. Es ist ein nützliches Nachschlagewerk für Funktionen in R-Code.
Logische Operatoren und bedingte Anweisungen
Tipp: Sie können die in Boolesche Logik verstehen vorgestellten Konzepte auffrischen, um zu verstehen, wie logische Operatoren funktionieren.
Sie haben bereits gelernt, dass ein Operator ein Symbol ist, das die Art der in einer Formel auszuführenden Operation oder Berechnung angibt. In dieser Lektüre lernen Sie die wichtigsten Arten von logischen Operatoren kennen und erfahren, wie sie zur Erstellung von bedingten Anweisungen in R-Code verwendet werden können.
Logische Operatoren
Logische Operatoren geben einen logischen Datentyp wie TRUE oder FALSE zurück.
Es gibt drei Haupttypen von logischen Operatoren:
-
AND (in R manchmal als & oder && dargestellt)
-
OR (wird in R manchmal als | oder || dargestellt)
-
NICHT (!)
Sehen Sie sich die unten zusammengefassten logischen Operatoren an.
AND Operator „&“
-
Der AND Operator nimmt zwei logische Werte an. Er gibt TRUE nur zurück, wenn beide Einzelwerte WAHR sind. Das bedeutet, dass WAHR & WAHR den Wert TRUE ergibt. FALSCH & WAHR, WAHR & FALSCH und FALSCH & FALSCH ergeben jedoch alle den Wert FALSE.
-
Wenn Sie den entsprechenden Code in R ausführen, erhalten Sie die folgenden Ergebnisse: > TRUE & TRUE [1] TRUE > TRUE & FALSE [1] FALSE > FALSE & TRUE [1] FALSE > FALSE & FALSE [1] FALSE Sie können dies anhand der Ergebnisse unserer Vergleiche veranschaulichen. Stellen Sie sich vor, Sie erstellen eine Variable x, die gleich 10 ist. x <- 10 Um zu prüfen, ob x größer als 3 aber kleiner als 12 ist, können Sie x > 3 und x < 12 als Werte eines „UND“-Ausdrucks verwenden. x > 3 & x < 12 Wenn Sie die Funktion ausführen, gibt R das Ergebnis TRUE zurück. [1] TRUE Der erste Teil, x > 3, wird zu TRUE ausgewertet, da 10 größer als 3 ist. Der zweite Teil, x < 12, wird ebenfalls zu TRUE ausgewertet, da 10 kleiner als 12 ist. Da also beide Werte WAHR sind, ist das Ergebnis des AND-Ausdrucks TRUE. Die Zahl 10 liegt zwischen den Zahlen 3 und 12. Wenn Sie jedoch x gleich 20 machen, wird der Ausdruck x > 3 & x < 12 ein anderes Ergebnis liefern. x <- 20 x > 3 & x < 12 [1] FALSE Obwohl x > 3 gleich TRUE (20 > 3) ist, ist x < 12 gleich FALSE (20 < 12). Wenn ein Teil eines AND-Ausdrucks FALSCH ist, ist der gesamte Ausdruck FALSCH (WAHR & FALSCH = FALSCH). R gibt also das Ergebnis FALSE zurück.
OR Operator „|“
-
Der OR Operator (|) funktioniert auf ähnliche Weise wie der AND Operator (&). Der Hauptunterschied besteht darin, dass mindestens einer der Werte der ODER-Verknüpfung WAHR sein muss, damit die gesamte ODER-Verknüpfung zu TRUE ausgewertet wird. Das bedeutet, dass WAHR | WAHR, WAHR | FALSCH und FALSCH | WAHR alle zu TRUE ausgewertet werden. Wenn beide Werte FALSCH sind, ist das Ergebnis FALSE.
-
Wenn Sie den Code ausschreiben, erhalten Sie die folgenden Ergebnisse: > TRUE | TRUE [1] TRUE > TRUE | FALSE [1] TRUE > FALSE | TRUE [1] TRUE > FALSE | FALSE [1] FALSE Nehmen wir zum Beispiel an, Sie erstellen eine Variable y gleich 7. Um zu prüfen, ob y kleiner als 8 oder größer als 16 ist, können Sie den folgenden Ausdruck verwenden: y <- 7 y < 8 | y > 16 Das Ergebnis des Vergleichs ist TRUE (7 ist kleiner als 8) | FALSE (7 ist nicht größer als 16). Da nur ein Wert eines OR-Ausdrucks WAHR sein muss, damit der gesamte Ausdruck WAHR ist, gibt R das Ergebnis WAHR zurück. [1] TRUE Nehmen wir nun an, y ist 12. Der Ausdruck y < 8 | y > 16 wird nun zu FALSCH (12 < 8) | FALSCH (12 > 16) ausgewertet. Beide Vergleiche sind FALSCH, also ist das Ergebnis FALSE. y <- 12 y < 8 | y > 16 [1] FALSE
NOT Operator „!“
-
Der NOT Operator (!) negiert einfach den logischen Wert, auf den er angewendet wird. Mit anderen Worten: !TRUE ergibt FALSE, und !FALSE ergibt TRUE.
-
Wenn Sie den Code ausführen, erhalten Sie die folgenden Ergebnisse: > !TRUE [1] FALSE > !FALSE [1] TRUE Genau wie die Operatoren OR und AND können Sie auch den Operator NOT in Kombination mit logischen Operatoren verwenden. Null wird als FALSCH betrachtet und Zahlen, die nicht Null sind, werden als WAHR angesehen. Der Operator NOT wertet den entgegengesetzten logischen Wert aus. Nehmen wir an, Sie haben eine Variable x, die gleich 2 ist: x <- 2 Die NOT-Operation ergibt FALSCH, da sie den entgegengesetzten logischen Wert einer Zahl ungleich Null (WAHR) annimmt. > !x [1] FALSE
—————–
Schauen wir uns ein Beispiel dafür an, wie Sie logische Operatoren zur Analyse von Daten verwenden können. Stellen Sie sich vor, Sie arbeiten mit dem Dataset zur Luftqualität, das in RStudio vorgeladen ist. Er enthält Daten über tägliche Messungen der Luftqualität in New York von Mai bis September 1973.
Der Dataframe hat sechs Spalten: Ozon (die Ozonmessung), Solar.R (die Sonnenmessung), Wind (die Windmessung), Temp (die Temperatur in Fahrenheit) und den Monat und den Tag dieser Messungen (jede Zeile steht für eine bestimmte Monats- und Tageskombination).
Schauen wir uns an, wie die Operatoren AND, OR und NOT in dieser Situation hilfreich sein könnten.
UND-Beispiel
Stellen Sie sich vor, Sie möchten Zeilen angeben, die extrem sonnig und windig sind, d.h. die einen Sonnenstand von über 150 und einen Windstand von über 10 haben.
In R können Sie diese logische Aussage als Solar.R > 150 & Wind > 10 ausdrücken.
Nur die Zeilen, in denen beide Bedingungen erfüllt sind, erfüllen die Kriterien:
ODER Beispiel
Als nächstes stellen Sie sich vor, Sie möchten Zeilen angeben, in denen es extrem sonnig oder extrem windig ist, was Sie als einen Sonnenmesswert von über 150 oder einen Windmesswert von über 10 definieren.
In R können Sie diese logische Anweisung als Solar.R > 150 | Wind > 10 ausdrücken.
Alle Zeilen, in denen eine dieser Bedingungen erfüllt ist, erfüllen die Kriterien:
NOT Beispiel
Stellen Sie sich nun vor, Sie möchten sich nur auf die Wettermessungen für Tage konzentrieren, die nicht der erste Tag des Monats sind.
In R können Sie diese logische Aussage als Day != 1 ausdrücken.
Die Zeilen, bei denen diese Bedingung erfüllt ist, erfüllen die Kriterien:
Stellen Sie sich vor, Sie möchten sich auf Szenarien konzentrieren, die nicht extrem sonnig und nicht extrem windig sind, basierend auf Ihren vorherigen Definitionen von extrem sonnig und extrem windig. Mit anderen Worten, die folgende Aussage sollte nicht zutreffen: entweder eine Sonnenmessung größer als 150 oder eine Windmessung größer als 10.
Beachten Sie, dass diese Aussage das Gegenteil der oben verwendeten ODER-Anweisung ist. Um diese Aussage in R auszudrücken, können Sie ein Ausrufezeichen (!) vor die vorherige OR-Anweisung setzen: !(Solar.R > 150 | Wind > 10). R wendet den Operator NOT auf alles innerhalb der Klammern an.
In diesem Fall erfüllt nur eine Zeile die Kriterien:
—————————————————————————————————————————————-
Optional: Bedingte Anweisungen
Eine bedingte Anweisung ist eine Erklärung, dass, wenn eine bestimmte Bedingung erfüllt ist, ein bestimmtes Ereignis eintreten muss. Zum Beispiel: „Wenn die Temperatur über dem Gefrierpunkt liegt , werde ich draußen spazieren gehen“ Wenn die erste Bedingung erfüllt ist (die Temperatur liegt über dem Gefrierpunkt), dann wird die zweite Bedingung eintreten (ich werde spazieren gehen). Bedingte Anweisungen in R Code haben eine ähnliche Logik.
Lassen Sie uns besprechen, wie Sie bedingte Anweisungen in R mit Hilfe von drei verwandten Anweisungen erstellen können:
-
if()
-
else()
-
else if()
if-Anweisung
Die if-Anweisung setzt eine Bedingung, und wenn die Bedingung zu TRUE ausgewertet wird, wird der mit der if-Anweisung verbundene R-Code ausgeführt.
In R platzieren Sie den Code für die Bedingung innerhalb der Klammern der if-Anweisung. Der Code, der ausgeführt werden muss, wenn die Bedingung WAHR ist, folgt in geschweiften Klammern (expr). Beachten Sie, dass in diesem Fall die zweite geschweifte Klammer in einer eigenen Codezeile steht und das Ende des Codes kennzeichnet, den Sie ausführen möchten.
if (condition) {
expr
}
Lassen Sie uns zum Beispiel eine Variable x gleich 4 erstellen.
x <- 4
Als nächstes erstellen wir eine bedingte Anweisung: Wenn x größer als 0 ist, gibt R die Zeichenfolge aus “x is a positive number“.
if (x > 0) {
print(„x is a positive number“)
}
Da x = 4 ist, ist die Bedingung wahr (4 > 0). Wenn Sie den Code ausführen, gibt R daher die Zeichenfolge “x is a positive number“ aus.
[1] „x is a positive number“
Wenn Sie jedoch x in eine negative Zahl ändern, z.B. -4, dann ist die Bedingung FALSCH (-4 > 0). Wenn Sie den Code ausführen, wird R die Druckanweisung nicht ausführen. Stattdessen wird eine leere Zeile als Ergebnis angezeigt.
else-Anweisung
Die else-Anweisung wird in Kombination mit einer if-Anweisung verwendet. So ist der Code in R aufgebaut:
if (condition) {
expr1
} else {
expr2
}
Der mit der else-Anweisung verbundene Code wird immer dann ausgeführt, wenn die Bedingung der if-Anweisung nicht TRUE ist. Mit anderen Worten: Wenn die Bedingung WAHR ist, dann führt R den Code in der if-Anweisung(expr1) aus; wenn die Bedingung nicht WAHR ist, dann führt R den Code in der else-Anweisung(expr2) aus.
Lassen Sie uns ein Beispiel ausprobieren. Erstellen Sie zunächst eine Variable x, die gleich 7 ist.
x <- 7
Als nächstes stellen wir die folgenden Bedingungen auf:
-
Wenn x größer als 0 ist, wird R “x is a positive number” ausgeben.
-
Wenn x kleiner oder gleich 0 ist, gibt R “x is either a negative number or zero” aus.
In unserem Code wird die erste Bedingung (x > 0) Teil der if-Anweisung sein. Die zweite Bedingung, dass x kleiner oder gleich 0 ist, wird in der else-Anweisung impliziert. Wenn x > 0 ist, wird R “x is a positive number” ausgeben. Andernfalls gibt R “x is either a negative number or zero” aus.
x <- 7
if (x > 0) {
print („x is a positive number“)
} else {
print („x is either a negative number or zero“)
}
Da 7 größer als 0 ist, ist die Bedingung der if-Anweisung wahr. Wenn Sie den Code ausführen, gibt R also “x is a positive number” aus.
[1] „x is a positive number“
Wenn Sie jedoch x gleich -7 machen, ist die Bedingung der if-Anweisung nicht wahr (-7 ist nicht größer als 0). Daher wird R den Code in der else-Anweisung ausführen. Wenn Sie den Code ausführen, druckt R “x is either a negative number or zero” aus.
x <- -7
if (x > 0) {
print(„x is a positive number“)
} else {
print („x is either a negative number or zero“)
}
[1] „x is either a negative number or zero“
else if-Anweisung
In einigen Fällen möchten Sie Ihre bedingte Anweisung vielleicht noch weiter anpassen, indem Sie die else if-Anweisung hinzufügen. Die else if-Anweisung wird zwischen der if-Anweisung und der else-Anweisung eingefügt. Dies ist die Codestruktur:
if (condition1) {
expr1
} else if (condition2) {
expr2
} else {
expr3
}
Wenn die if-Bedingung(condition1) erfüllt ist, dann führt R den Code im ersten Ausdruck(expr1) aus. Wenn die if-Bedingung nicht erfüllt ist und die else-Bedingung(condition2) erfüllt ist, dann führt R den Code im zweiten Ausdruck(expr2) aus. Wenn keine der beiden Bedingungen erfüllt ist, führt R den Code im dritten Ausdruck(expr3) aus.
In unserem vorherigen Beispiel kann R mit Hilfe der if- und else-Anweisungen nur dann “x is either a negative number or zero” ausgeben, wenn x gleich 0 ist oder x kleiner als Null ist. Stellen Sie sich vor, Sie möchten, dass R die Zeichenkette “x is zero” ausgibt, wenn x gleich 0 ist. Dazu müssen Sie eine weitere Bedingung mit der if-Anweisung else hinzufügen.
Lassen Sie uns ein Beispiel versuchen. Legen Sie zunächst eine Variable x an, die den Wert 1 („-1“) hat, und führen Sie den Code aus, um die Variable im Speicher zu speichern.
x <- -1
Nun möchten Sie die folgenden Bedingungen einrichten:
-
Wenn x kleiner als 0 ist, drucken Sie “x is a negative number”
-
Wenn x gleich 0 ist, drucken Sie “x is zero”
-
Andernfalls drucken Sie “x is a positive number”
Im Code wird die erste Bedingung Teil der if-Anweisung sein, die zweite Bedingung Teil der else if-Anweisung und die dritte Bedingung Teil der else-Anweisung. Wenn x < 0 ist, dann druckt R “x is a negative number”.. Wenn x = 0 ist, dann druckt R “x is zero”. Andernfalls wird R “x is a positive number” ausgeben.
x <- -1
# run the code
if (x < 0) {
print(„x is a negative number“)
} else if (x == 0) {
print(„x is zero“)
} else {
print(„x is a positive number“)
}
Führen Sie den Code aus. Da -1 kleiner als 0 ist, wird die Bedingung für die if-Anweisung zu TRUE ausgewertet und R gibt “x is a negative number” aus.
[1] „x is a negative number“
Wenn Sie x gleich 0 machen, prüft R zunächst die if-Bedingung (x < 0) und stellt fest, dass sie FALSE ist. Dann wertet R die else if-Bedingung aus. Diese Bedingung, x==0, ist TRUE. In diesem Fall gibt R also “x is zero” aus.
Wenn Sie x gleich 1 machen, ergeben sowohl die if-Bedingung als auch die else if-Bedingung FALSE. R führt also die else-Anweisung aus und gibt “x is a positive number” aus.
Sobald R eine Bedingung entdeckt, die zu TRUE ausgewertet wird, führt R den entsprechenden Code aus und ignoriert den Rest.
Zusätzliche Ressource
Wenn Sie mehr über logische Operatoren und bedingte Anweisungen erfahren möchten, sehen Sie sich das Tutorial von DataCamp an Konditionale Anweisungen und Kontrolle Flow in R. DataCamp ist eine beliebte Ressource für Menschen, die sich mit Computerprogrammierung beschäftigen. Das Tutorial ist voll von nützlichen Beispielen für Coding-Apps für logische Operatoren und bedingte Anweisungen (und relationale Operatoren) und bietet einen hilfreichen Überblick über jedes Thema und die Verbindungen zwischen ihnen.
Das Geschenk, das nicht aufhört zu geben
Verfügbare R-Pakete
Um R für Ihre Datenanalyse optimal zu nutzen, müssen Sie Pakete installieren. Pakete sind Einheiten von reproduzierbarem R-Code, mit denen Sie R weitere Funktionen hinzufügen können. Das Beste daran ist, dass die R-Community Pakete erstellt und weitergibt, damit andere Nutzer darauf zugreifen können! In dieser Lektüre erfahren Sie mehr über weit verbreitete Pakete und wo Sie sie finden können.
Pakete finden Sie in Repositories, d.h. in Sammlungen nützlicher Pakete, die zur Installation bereitstehen. Sie können Repositories auf Bioconductor, R-Forge, rOpenSci oder GitHub finden, aber das am häufigsten verwendete Repository ist das Comprehensive R Archive Network oder CRAN. CRAN speichert Code und Dokumentation, so dass Sie die Pakete in Ihrem eigenen RStudio-Bereich installieren können.
Paket-Dokumentation
Pakete enthalten nicht nur den Code selbst, sondern auch eine Dokumentation, in der der Autor des Pakets, seine Funktion und alle anderen Pakete, die Sie herunterladen müssen, erläutert werden. Wenn Sie CRAN verwenden, finden Sie die Paketdokumentation in der Datei DESCRIPTION.
Lesen Sie Karl Bromans R Package Primer , um mehr zu erfahren.
Die Auswahl der richtigen Pakete
Bei der großen Anzahl von Paketen kann es schwierig sein, herauszufinden, welche Pakete für Ihre Mediathek oder Ihr Verzeichnis der installierten Pakete am nützlichsten sein werden. Glücklicherweise gibt es einige großartige Ressourcen:
-
Tidyverse: tidyverse ist eine Sammlung von R-Paketen, die speziell für die Arbeit mit Daten entwickelt wurden. Es ist eine Standard-Mediathek für die meisten Fachkräfte für Datenanalyse, aber Sie können die Pakete auch einzeln herunterladen.
-
Schnelle Liste nützlicher R-Pakete: Dies ist die Liste nützlicher Pakete von RStudio Support mit Installationsanweisungen und Funktionsbeschreibungen.
-
CRAN Task Views: Dies ist ein Index der CRAN Pakete, sortiert nach Aufgabe. Sie können nach der Art der Aufgabe suchen, die Sie durchführen müssen, und es wird eine Seite mit Paketen angezeigt, die mit dieser Aufgabe in Zusammenhang stehen und die Sie untersuchen können.
Sie werden im Laufe dieses Kurses weitere Pakete entdecken, wenn Sie R häufiger verwenden, aber dies ist ein guter Ausgangspunkt für den Aufbau Ihrer eigenen Mediathek.
Willkommen im tidyverse
Mehr über das tidyverse
Verwenden Sie Pipes zum Verschachteln von Code
R-Ressourcen für mehr Hilfe
Die R-Gemeinschaft ist voll von engagierten Nutzern, die sich gegenseitig helfen, Lösungen für Probleme und neue Möglichkeiten der Verwendung von R zu finden. Es gibt auch eine Menge großartiger Blogs, in denen Sie Tutorials und andere Ressourcen finden. Hier sind einige von ihnen:
Hinweis: Aufgrund der Änderung des Unternehmens von R Studio zu Posit haben sich die Referenzen in den folgenden Ressourcen möglicherweise geändert.
-
Posit (RStudio): Der beste Ort, um Hilfe zu R zu finden, ist in R selbst! Sie können ‚?‘ oder den Befehl help() eingeben, um in R zu suchen. Sie können auch das Hilfe-Fenster öffnen, um weitere Ressourcen zu R zu finden.
-
Posit Blog: Der Blog von Posit ist ein hervorragender Ort, um Informationen über RStudio zu finden, einschließlich Unternehmensnachrichten. Sie können die neuesten vorgestellten Beiträge oder verwenden Sie die Suchleiste und die Liste der Kategorien auf der linken Seite, um bestimmte Themen zu erkunden, die Sie interessieren könnten, oder um nach einem bestimmten Beitrag zu suchen.
-
Stack Overflow: Der Stack Overflow Blog veröffentlicht Meinungen und Ratschläge von anderen Programmierern. Dies ist ein großartiger Ort, um mit den Gesprächen in der Community in Kontakt zu bleiben.
-
R-Blogger: Der R-Bloggers-Blog enthält nützliche Tutorials und Nachrichtenartikel, die von anderen Nutzern von R in der Community veröffentlicht werden.
-
R-Bloggers‘ Tutorials zum Erlernen von R: Dieser Blog-Post von R-Bloggers stellt einige grundlegende R-Tutorials zusammen und verweist auch auf weiterführende Anleitungen.
Connor: Coding-Tipps
Daten in R
Einführung in RStudio
R Dataframes
Arbeiten mit Dataframes
Mehr über Tibbles
In dieser Lektüre lernen Sie Tibbles kennen, ein äußerst nützliches Werkzeug zur Organisation von Daten in R. Sie erhalten einen Überblick darüber, was Tibbles sind, wie sie sich von Standard-Dataframes unterscheiden und wie man sie in R erstellt.
Tibbles
Tibbles unterscheiden sich ein wenig von Standard Dataframes. Ein Dataframe ist eine Sammlung von Spalten, wie eine Tabelle oder eine SQL-Tabelle. Tibbles sind wie optimierte Dataframes, die automatisch so eingestellt sind, dass sie nur die ersten 10 Zeilen eines Datasets und nur so viele Spalten anzeigen, wie auf den Bildschirm passen. Dies ist sehr nützlich, wenn Sie mit großen Datenmengen arbeiten. Anders als Dataframes ändern Tibbles niemals die Namen Ihrer Variablen oder die Datentypen Ihrer Eingaben. Insgesamt können Sie zwar mehr Änderungen an Dataframes vornehmen, aber Tibbles sind einfacher zu verwenden. Das tibble-Paket ist Teil des Kerns von tidyverse. Wenn Sie also tidyverse bereits installiert haben, haben Sie alles, was Sie brauchen, um mit tibbles zu arbeiten.
Tibbles erstellen
Lassen Sie uns nun anhand eines Beispiels zeigen, wie Sie ein Tibble in R erstellen. Sie können das vorinstallierte Diamonds Dataset verwenden, das Sie bereits aus früheren Videos kennen. AS, das Diamonds Dataset enthält Informationen über verschiedene Diamantqualitäten wie Karat, Schliff, Farbe, Reinheit und mehr.
Sie können das Dataset mit der Funktion data() laden, indem Sie den folgenden Code verwenden:
library(tidyverse)
data(diamonds)
Dann fügen wir den Dataframe mit der Funktion View() zu unserem Datenbetrachter in RStudio hinzu.
View(diamonds)
Das Dataset besteht aus 10 Spalten und Tausenden von Zeilen. Dieses Bild zeigt einen Teil des Dataframes:
Lassen Sie uns nun ein Tibble aus demselben Dataset erstellen. Sie können mit der Funktion as_tibble() ein Tibble aus vorhandenen Daten erstellen. Geben Sie in den Klammern der Funktion die Daten an, die Sie verwenden möchten. In diesem Fall geben Sie das Wort „Diamanten“ ein
as_tibble(diamonds)
Ergebnisse
Wenn Sie die Funktion ausführen, erhalten Sie ein Tibble des Diamanten Dataset.
Während das integrierte Dataframe-Tool von RStudio Tausende von Zeilen im Diamonds Dataset zurückgibt, liefert das Tibble nur die ersten 10 Zeilen in einer übersichtlichen Tabelle. Das erleichtert das Anzeigen und Drucken.
Zusätzliche Ressourcen
Weitere Informationen zu Tibbles finden Sie in den folgenden Ressourcen:
-
Der Eintrag für Tibble in der Tidyverse-Dokumentation fasst zusammen, was ein Tibble ist und wie es in R-Code funktioniert. Wenn Sie sich einen schnellen Überblick über das Wesentliche verschaffen wollen, ist dies die richtige Adresse für Sie.
-
Das Tidy-Kapitel in „A Tidyverse Cookbook“ ist eine hervorragende Ressource, wenn Sie mehr darüber erfahren möchten, wie Sie mit Tibbles in R-Code arbeiten können. Das Kapitel beschäftigt sich mit einer Vielzahl von R-Funktionen, mit denen Sie Tibbles erstellen und umwandeln können, um Ihre Daten zu organisieren und aufzuräumen.
Daten-Import Grundlagen
Die Funktion data()
Die Standardinstallation von R wird mit einer Reihe von vorinstallierten Datasets geliefert, mit denen Sie üben können. Dies ist eine gute Möglichkeit, Ihre R-Kenntnisse zu erweitern und einige wichtige Funktionen zur Datenanalyse kennenzulernen. Außerdem verwenden viele Online-Ressourcen und Tutorials diese Stichproben-Datasets, um Coding-Konzepte in R zu vermitteln.
Sie können die Funktion data() verwenden, um diese Datasets in R zu laden. Wenn Sie die Funktion data ohne ein Argument ausführen, zeigt R eine Liste der verfügbaren Datasets an.
data()
Dazu gehört auch die Liste der vorgeladenen Datasets aus dem Paket datasets.
Wenn Sie einen bestimmten Dataset laden möchten, geben Sie einfach dessen Namen in die Klammern der Funktion data() ein. Lassen Sie uns zum Beispiel das Dataset mtcars laden, das Informationen über Autos enthält, die in vergangenen Ausgaben der Zeitschrift Motor Trend vorgestellt wurden.
data(mtcars)
Wenn Sie die Funktion ausführen, wird R das Dataset laden. Der Dataset wird auch im Environment-Fenster Ihres RStudios angezeigt. Das Umgebungsfenster zeigt die Namen der Datenobjekte, wie Dataframes und Variablen, an, die Sie in Ihrem aktuellen Arbeitsbereich haben. In dieser Abbildung erscheint mtcars in der fünften Zeile des Fensters. R sagt uns, dass es 32 Beobachtungen und 11 Variablen enthält.
Jetzt, da das Dataset geladen ist, können Sie sich im R Konsolenfenster eine Vorschau ansehen. Geben Sie einfach seinen Namen ein…
mtcars
…und drücken Sie dann ctrl (oder cmnd) und enter.
Sie können das Dataset auch anzeigen, indem Sie direkt auf den Namen des Datasets im Bereich Umgebung klicken. Wenn Sie also im Umgebungsfenster auf mtcars klicken, führt R automatisch die Funktion View() aus und zeigt das Dataset im RStudio-Datenviewer an.
Experimentieren Sie mit anderen Datasets aus der Liste, wenn Sie mehr Übung brauchen.
Das readr-Paket
Neben der Verwendung der in R eingebauten Datasets ist es auch hilfreich, Daten aus anderen Quellen zu importieren, um sie für Übungen oder Analysen zu verwenden. Das readr-Paket in R ist ein hervorragendes Werkzeug zum Lesen rechteckiger Daten. Rechteckige Daten sind Daten, die in ein Rechteck aus Zeilen und Spalten passen, wobei sich jede Spalte auf eine einzelne Variable und jede Zeile auf eine einzelne Beobachtung bezieht.
Hier sind einige Beispiele für Datentypen, die rechteckige Daten speichern:
-
.csv (kommagetrennte Werte): eine .csv-Datei ist eine einfache Textdatei, die eine Liste von Daten enthält. Sie verwenden meist Kommas, um Daten zu trennen (oder abzugrenzen), aber manchmal werden auch andere Zeichen wie Semikolons verwendet.
-
.tsv (Tab-getrennte Werte): Eine .tsv-Datei speichert eine Datentabelle, in der die Datenspalten durch Tabulatoren getrennt sind. Zum Beispiel eine Datenbanktabelle oder Daten aus einer Tabelle.
-
.fwf (Dateien mit fester Spaltenbreite): eine .fwf-Datei hat ein spezielles Format, das die Speicherung von Textdaten in einer organisierten Form ermöglicht.
-
.log: eine .log-Datei ist eine vom Computer erzeugte Datei, die Datensätze von Betriebssystemen und anderen Software-Programmen aufzeichnet.
Base R verfügt auch über Funktionen zum Lesen von Dateien, aber die entsprechenden Funktionen in readr sind in der Regel viel schneller. Außerdem erzeugen sie Tibbles, die einfach zu verwenden und zu lesen sind.
Das Paket readr ist Teil des Kernpakets tidyverse. Wenn Sie also tidyverse bereits installiert haben, haben Sie alles, was Sie brauchen, um mit readr zu arbeiten. Wenn nicht, können Sie tidyverse jetzt installieren.
readr Funktionen
Das Ziel von readr ist es, eine schnelle und benutzerfreundliche Methode zum Lesen von rechteckigen Daten bereitzustellen. readr unterstützt mehrere read_ Funktionen. Jede Funktion bezieht sich auf ein bestimmtes Dateiformat.
-
read_csv()cSV-Dateien (comma-separated values, kommagetrennte Werte)
-
read_tsv(): Tab-getrennte Werte-Dateien
-
read_delim(): allgemeine Dateien mit Trennzeichen
-
read_fwf(): Dateien mit fester Breite
-
read_table(): Tabellarische Dateien, bei denen die Spalten durch Weißraum getrennt sind
-
read_log(): Web-Protokolldateien
Diese Funktionen haben alle eine ähnliche Syntax. Wenn Sie also einmal gelernt haben, wie man eine dieser Funktionen benutzt, können Sie Ihr Wissen auch auf die anderen anwenden. Diese Lektüre konzentriert sich auf die Funktion read_csv(), da .csv-Dateien eine der gängigsten Formen der Datenspeicherung sind und Sie häufig mit ihnen arbeiten werden.
In den meisten Fällen funktionieren diese Funktionen automatisch: Sie geben den Pfad zu einer Datei an, führen die Funktion aus und erhalten ein Tibble, das die Daten in der Datei anzeigt. Hinter den Kulissen analysiert readr die gesamte Datei und gibt an, wie jede Spalte von einem Zeichenvektor in den am besten geeigneten Datentyp konvertiert werden soll.
Lesen einer .csv-Datei mit readr
Das readr-Paket wird mit einigen Stichproben aus integrierten Datasets geliefert, die Sie für Beispielcode verwenden können. Um die Beispieldateien aufzulisten, können Sie die Funktion readr_example() ohne Argumente ausführen.
readr_example()
[1] „challenge.csv“ „epa78.txt“ „example.log“
[4] „fwf-sample.txt“ „massey-rating.txt“ „mtcars.csv“
[7] „mtcars.csv.bz2“ „mtcars.csv.zip“
Die Datei “mtcars.csv” bezieht sich auf das bereits erwähnte Dataset mtcars. Lassen Sie uns als Beispiel die Funktion read_csv() verwenden, um die Datei “mtcars.csv” zu lesen. In den Klammern müssen Sie den Pfad zu der Datei angeben. In diesem Fall ist es “readr_example(“mtcars.csv”).
read_csv(readr_example(„mtcars.csv“))
Wenn Sie die Funktion ausführen, gibt R eine Spaltenspezifikation aus, die den Namen und den Typ jeder Spalte enthält.
R gibt auch ein Tibble aus.
——————————————————————————————————
Optional: das readxl-Paket
Um Daten aus Tabellenkalkulationen in R zu importieren, können Sie das readxl-Paket verwenden. Das readxl-Paket erleichtert die Übertragung von Daten aus Excel nach R. Readxl unterstützt sowohl das alte .xls-Dateiformat als auch das moderne xml-basierte .xlsx-Dateiformat.
Das readxl-Paket ist Teil von tidyverse, aber kein Kernpaket von tidyverse. Sie müssen readxl also mit der Funktion library() in R laden.
library(readxl)
Lesen einer .xlsx-Datei mit readxl
Wie das readr-Paket enthält auch readxl einige Stichproben aus integrierten Datasets, die Sie zum Üben verwenden können. Sie können den Code readxl_example() ausführen, um die Liste zu sehen.
Sie können die Funktion read_excel() verwenden, um eine Tabellenkalkulationsdatei zu lesen, genauso wie Sie die Funktion read_csv() verwenden, um eine .csv-Datei zu lesen. Der Code zum Lesen der Beispieldatei “type-me.xlsx” enthält den Pfad zur Datei in den Klammern der Funktion.
read_excel(readxl_example(„type-me.xlsx“))
Sie können die Funktion excel_sheets() verwenden, um die Namen der einzelnen Blätter aufzulisten.
excel_sheets(readxl_example(„type-me.xlsx“))
[1] „logical_coercion“ „numeric_coercion“ „date_coercion“ „text_coercion“
Sie können ein Blatt auch über den Namen oder die Nummer angeben. Geben Sie einfach “sheet =” gefolgt von dem Namen oder der Nummer des Blattes ein. Sie können zum Beispiel das Blatt mit dem Namen “numeric_coercion” aus der obigen Liste verwenden.
read_excel(readxl_example(„type-me.xlsx“), sheet = „numeric_coercion“)
Wenn Sie die Funktion ausführen, gibt R ein Tibble des Blattes zurück.
Zusätzliche Ressourcen
-
Wenn Sie lernen möchten, wie Sie readr-Funktionen verwenden können, um mit komplexeren Dateien zu arbeiten, lesen Sie das Kapitel Datenimport des Buchs R für Datenwissenschaft. Darin werden einige der häufigsten Probleme behandelt, die beim Lesen von Dateien auftreten können, und wie Sie readr verwenden können, um diese Probleme zu bewältigen.
-
Die readxl eintrag in der tidyverse Dokumentation gibt einen guten Überblick über die grundlegenden Funktionen in readxl, erklärt ausführlich die Funktionsweise des Pakets und die dahinter stehenden Coding-Konzepte und bietet Links zu anderen nützlichen Ressourcen.
-
Das R „datasets“ Paket enthält viele nützliche vorinstallierte Datasets. Eine Liste finden Sie unter The R Datasets Package. Die Liste enthält Links zu detaillierten Beschreibungen der einzelnen Datasets.
Aufräumen mit den Grundlagen
Namenskonventionen für Dateien
Ein wichtiger Teil der Bereinigung von Daten besteht darin, sicherzustellen, dass alle Ihre Dateien korrekt benannt sind. Auch wenn die individuellen Präferenzen ein wenig variieren, sind sich die meisten Analysten darin einig, dass Dateinamen genau, konsistent und leicht zu lesen sein sollten. In dieser Lektüre finden Sie einige allgemeine Richtlinien, die Sie bei der Benennung oder Umbenennung Ihrer Datendateien beachten sollten.
Was steckt in einem (Datei-)Namen?
Wenn Sie zum ersten Mal mit R (oder einer anderen Programmiersprache, einem Analysetool oder einer Plattform) arbeiten, sollten Sie oder Ihr Unternehmen Namenskonventionen für Ihre Dateien festlegen. Damit stellen Sie sicher, dass jeder, der Ihre Analyse überprüft – Sie selbst eingeschlossen – schnell und einfach finden kann, was er braucht. Im Folgenden finden Sie einige hilfreiche „Do’s“ und „Don’ts“, die Sie bei der Benennung Ihrer Dateien beachten sollten.
Do
-
Halten Sie Ihre Dateinamen auf eine angemessene Länge
-
Verwenden Sie Unterstriche und Bindestriche zur besseren Lesbarkeit
-
Beginnen oder beenden Sie Ihren Dateinamen mit einem Buchstaben oder einer Zahl
-
Verwenden Sie ein Standard-Datumsformat, falls zutreffend; Beispiel: JJJJ-MM-TT
-
Verwenden Sie Dateinamen für zusammenhängende Dateien, die gut mit der Standardreihenfolge funktionieren; Beispiel: in chronologischer Reihenfolge oder in logischer Reihenfolge mit Zahlen zuerst
Beispiele für gute Dateinamen |
---|
2020-04-10_März-Anwesenheit.R |
2021_03_20_neue_Kunden_ids.csv |
01_daten-verkäufe.html |
02_daten-verkäufe.html |
Vermeiden Sie
-
Verwenden Sie keine unnötigen zusätzlichen Zeichen in Dateinamen
-
Verwenden Sie Leerzeichen oder „illegale“ Zeichen; Beispiele: &, %, #, <, oder >
-
Beginnen oder beenden Sie Ihren Dateinamen mit einem Symbol
-
Verwenden Sie unvollständige oder inkonsistente Datumsformate; Beispiel: M-D-YY
-
Verwenden Sie Dateinamen für zusammengehörige Dateien, die mit der Standardreihenfolge nicht gut funktionieren; Beispiele: ein Zufallszahlen-System oder Datumsformate oder die Verwendung von Buchstaben an erster Stelle
Beispiele für zu vermeidende Dateinamen |
---|
4102020Marktorganisation<Workinprogress>.R |
_20210320*newcustomeridsforfebonly.csv |
firstfile_for_datasales/1-25-2020.html |
zweiteDatei_für_Verkaufsdaten/2-5-2020.html |
Zusätzliche Ressourcen
Diese Ressourcen enthalten weitere Informationen zu einigen der hier besprochenen Standards für die Benennung von Dateien und bieten zusätzliche Statistiken zu bewährten Verfahren.
-
Wie man Dateien benennt: Diese Ressource von Speaker Deck ist ein spielerischer Ansatz für die Benennung von Dateien. Sie enthält mehrere Folien mit Tipps und Beispielen für die korrekte Benennung vieler verschiedener Arten von Dateien. Sie erfahren, warum Dateinamen sowohl maschinenlesbar als auch menschenlesbar sein sollten.
-
Benennung und Struktur von Dateien: Diese Ressource aus der Mediathek der Princeton University bietet eine übersichtliche Liste mit bewährten Verfahren, Überlegungen und Beispielen für die Entwicklung von Dateinamenskonventionen.
Mehr über R Operatoren
Sie erinnern sich vielleicht daran, dass ein Operator ein Symbol ist, das die Art der Operation oder Berechnung angibt, die in einer Formel durchgeführt werden soll. In einem früheren Video haben Sie gelernt, wie Sie die Operatoren Zuweisung und Arithmetik verwenden, um Variablen zuzuweisen und Berechnungen durchzuführen. In dieser Lektüre erhalten Sie eine detaillierte Zusammenfassung der wichtigsten Arten von Operatoren in R und lernen, wie Sie bestimmte Operatoren in R-Code verwenden.
Operatoren
in R gibt es vier Haupttypen von Operatoren:
-
Arithmetische Operatoren
-
Relativität
-
Logisch
-
Zuweisung
Schauen Sie sich die spezifischen Operatoren in jeder Kategorie an und sehen Sie sich einige Beispiele an, wie Sie diese in R-Code verwenden können.
Arithmetische Operatoren
Mitarithmetischen Operatoren können Sie grundlegende mathematische Operationen wie Addition, Subtraktion, Multiplikation und Division durchführen.
Die folgende Tabelle fasst die verschiedenen arithmetischen Operatoren in R zusammen. Die in der Tabelle verwendeten Beispiele basieren auf der Erstellung von zwei Variablen: : x ist gleich 2 und y ist gleich 5. Beachten Sie, dass Sie den Zuweisungsoperator verwenden, um diese Werte zu speichern:
x <- 2
y <- 5
Operator |
Beschreibung |
Beispiel Code |
Ergebnis/ Ausgabe |
---|---|---|---|
+ |
Addition |
x + y |
[1] 7 |
– |
Subtraktion |
x – y |
[1] -3 |
* |
Multiplikation |
x * y |
[1] 10 |
/ |
Division |
x / y |
[1] 0.4 |
%% |
Modulus (gibt den Rest nach der Division zurück) |
y %% x |
[1] 1 |
%/% |
Ganzzahlige Division (gibt nach der Division einen ganzzahligen Wert zurück) |
y%/% x |
[1] 2 |
^ |
Exponent |
y ^ x |
[1]25 |
Relationale Operatoren
Relationale Operatoren, auch bekannt als Komparatoren, ermöglichen es Ihnen, Werte zu vergleichen. Relationale Operatoren geben an, wie sich ein R-Objekt zu einem anderen verhält, z. B. ob ein Objekt kleiner, gleich oder größer als ein anderes Objekt ist. Die Ausgabe für Relationale Operatoren ist entweder TRUE oder FALSE (was ein logischer Datentyp oder boolesch ist).
Die folgende Tabelle fasst die sechs relationalen Operatoren in R zusammen. Die in der Tabelle verwendeten Beispiele basieren auf der Erstellung von zwei Variablen: x gleich 2 und y gleich 5. Beachten Sie, dass Sie den Zuweisungsoperator verwenden, um diese Werte zu speichern.
x <- 2
y <- 5
Wenn Sie mit jedem Operator Berechnungen durchführen, erhalten Sie die folgenden Ergebnisse. In diesem Fall ist die Ausgabe boolesch: TRUE oder FALSE. Beachten Sie, dass die [1], die vor jeder Ausgabe erscheint, dazu dient, darzustellen, wie die Ausgabe in RStudio angezeigt wird.
Operator |
Beschreibung |
Beispiel Code |
Ergebnis/Ausgabe |
---|---|---|---|
< |
Kleiner als |
x < y |
[1] WAHR |
> |
Größer als |
x > y |
[1] FALSCH |
<= |
Kleiner als oder gleich |
x < = 2 |
[1] WAHR |
>= |
Größer als oder gleich |
y >= 10 |
[1] FALSCH |
== |
Gleich |
y == 5 |
[1] WAHR |
!= |
Nicht gleich |
x != 2 |
[1] FALSCH |
Logische Operatoren
Mitlogischen Operatoren können Sie logische Werte kombinieren. Logische Operatoren geben einen logischen Datentyp oder einen booleschen Wert (TRUE oder FALSE) zurück. Logische Operatoren haben Sie bereits in Logische Operatoren und bedingte Anweisungen kennengelernt, aber hier gibt es eine kurze Auffrischung.
In der folgenden Tabelle finden Sie eine Zusammenfassung der logischen Operatoren in R.
Operator |
Beschreibung |
---|---|
& |
Elementweises logisches UND |
&& |
Logisches UND |
| |
Elementweises logisches ODER |
|| |
Logisches ODER |
! |
Logisches NOT |
Als nächstes sehen Sie sich einige Beispiele an, wie logische Operatoren in R-Code funktionieren.
Elementweises logisches AND (&) und OR (|)
Sie können das logische AND (&) und OR (|) veranschaulichen, indem Sie numerische Werte vergleichen. Erstellen Sie eine Variable x, die gleich 10 ist.
x <- 10
Der Operator AND gibt nur dann TRUE zurück, wenn beide Einzelwerte TRUE sind.
x > 2 & x < 12
[1] WAHR
10 ist größer als 2 und 10 ist kleiner als 12. Die Operation ergibt also TRUE.
Der OR Operator (|) funktioniert auf ähnliche Weise wie der AND Operator (&). Der Hauptunterschied besteht darin, dass nur einer der Werte der OR-Operation WAHR sein muss, damit die gesamte OR-Operation als WAHR ausgewertet wird. Nur wenn beide Werte FALSCH sind, wird die gesamte ODER-Verknüpfung als FALSE ausgewertet.
Versuchen Sie nun ein Beispiel mit der gleichen Variable (x <- 10):
x > 2 | x < 8
[1] TRUE
10 ist größer als 2, aber 10 ist nicht kleiner als 8. Da aber mindestens einer der Werte (10>2) WAHR ist, ergibt die ODER-Verknüpfung den Wert TRUE.
Logisches NOT (!)
Der NOT Operator negiert einfach den logischen Wert und wertet das Gegenteil aus. In R gilt Null als FALSCH und alle Zahlen, die nicht Null sind, gelten als WAHR.
Wenden Sie zum Beispiel den Operator NOT auf Ihre Variable (x <- 10) an:
!(x < 15)
[1] FALSE
Die NOT-Operation ergibt FALSE, da sie den entgegengesetzten logischen Wert der Anweisung x < 15 annimmt, der WAHR ist (10 ist kleiner als 15).
Zuweisungsoperatoren
MitZuweisungsoperatoren können Sie Variablen Werte zuweisen.
In vielen Scripting Programmiersprachen können Sie einfach das Gleichheitszeichen (=) verwenden, um eine Variable zuzuweisen. In R verwenden Sie am besten die Pfeilzuweisung (<-). Technisch gesehen kann die einfache Pfeilzuweisung in die linke oder rechte Richtung verwendet werden. Aber die Zuweisung nach rechts wird im Allgemeinen nicht in R-Code verwendet.
Sie können auch die Doppelpfeil-Zuweisung verwenden, die als Scoping-Zuweisung bekannt ist. Die Scoping-Zuweisung ist jedoch für fortgeschrittene Nutzer von R gedacht, so dass Sie sie in dieser Lektüre nicht kennenlernen werden.
Die folgende Tabelle fasst die Operatoren für Zuweisungen und den Beispielcode in R zusammen. Beachten Sie, dass die Ausgabe für jede Variable der ihr zugewiesene Wert ist.
Operator |
Beschreibung |
Beispielcode (nach der Stichprobe unten wird durch Eingabe von x die Ausgabe in der nächsten Spalte erzeugt) |
Ergebnis/ Ausgabe |
---|---|---|---|
<- |
Zuweisung nach links |
x <- 2 |
[1] 2 |
<<- |
Zuweisung nach links |
x <<- 7 |
[1] 7 |
= |
Zuweisung nach links |
x = 9 |
[1] 9 |
-> |
Zuweisung nach rechts |
11 -> x |
[1] 11 |
->> |
Zuweisung nach rechts |
21 ->> x |
[1] 21 |
Die Operatoren, die Sie in dieser Lektüre kennen gelernt haben, sind eine hervorragende Grundlage für die Verwendung von Operatoren in R.
Zusätzliche Ressource
Sehen Sie sich den Artikel über R Operatoren auf der R Coder-Website, um einen umfassenden Leitfaden zu den verschiedenen Arten von Operatoren in R zu erhalten. Der Artikel enthält viele nützliche Coding-Beispiele und Informationen über verschiedene Operatoren, den Infix-Operator und den Pipe-Operator.
Organisieren Sie Ihre Daten
Daten transformieren
Breit bis lang mit Tidyr
Wenn Sie Ihre Daten mit R organisieren oder aufräumen, müssen Sie möglicherweise Wide Data in Long Data oder Long in Wide konvertieren. Erinnern Sie sich daran, wie die Daten in einer Tabelle im Wide-Format aussehen:
Wide Data enthält Beobachtungen über mehrere Spalten hinweg. Jede Spalte enthält Daten aus einer anderen Bedingung der Variable. In diesem Beispiel sind die Spalten verschiedene Jahre.
Sehen Sie sich nun die gleichen Daten in einem Langformat an:
Um noch einmal zu wiederholen, was Sie bereits über den Unterschied gelernt haben: Long Data enthält alle Beobachtungen in einer einzigen Spalte, und die Bedingungen der Variablen sind in separaten Zeilen untergebracht.
Die Funktionen pivot_longer und pivot_wider
Es gibt zwingende Gründe, beide Formate zu verwenden. Aber als Analytiker ist es wichtig zu wissen, wie man Daten aufräumt, wenn es nötig ist. In R haben Sie vielleicht einen Dataframe in einem breiten Format, der mehrere Variablen und Bedingungen für jede Variable enthält. Das kann sich ein bisschen unordentlich anfühlen.
An dieser Stelle kommt pivot_longer()ins Spiel. Als Teil des tidyr Pakets können Sie diese R Funktion verwenden, um die Daten in einem Dataframe zu verlängern, indem Sie die Anzahl der Zeilen erhöhen und die Anzahl der Spalten verringern. Ähnlich verhält es sich, wenn Sie Ihre Daten so konvertieren möchten, dass sie mehr Spalten und weniger Zeilen haben, dann verwenden Sie die Funktion pivot_wider().
Zusätzliche Ressourcen
Wenn Sie mehr über diese beiden Funktionen und ihre Anwendung in Ihrer Programmierung in R erfahren möchten, lesen Sie diese Ressourcen:
-
Pivotieren: Betrachten Sie dies als Ausgangspunkt für das Aufräumen von Daten durch Wide und Long Conversions. Diese Webseite stammt direkt aus den Informationen zum Paket tidyr unter tidyverse.org. Sie erläutert die Komponenten der Funktionen pivot_longer und pivot_wider anhand konkreter Details, Beispiele und Definitionen.
-
CleanItUp 5: R-Ladies Sydney: Weit zu Lang zu Weit zu…PIVOT: Diese Ressource liefert Ihnen zusätzliche Details zu den Funktionen pivot_longer und pivot_wider. Die bereitgestellten Beispiele verwenden interessante Datasets, um zu veranschaulichen, wie Sie Daten von Wide zu Long und zurück zu Wide konvertieren können.
-
Plotten mehrerer Variablen: Diese Ressource erklärt, wie man breite und lange Daten visualisiert, wobei ggplot2 hilft, sie aufzuräumen. Der Schwerpunkt liegt auf der Verwendung von pivot_longer zur Umstrukturierung von Daten und zur Erstellung ähnlicher Diagramme für mehrere Variablen auf einmal. Sie können das Gelernte aus den anderen Ressourcen hier anwenden, um ein breiteres Verständnis der Pivot-Funktionen zu erlangen.
Gleiche Daten, anderes Ergebnis
Arbeiten mit voreingenommenen Daten
Jede Fachkraft für Datenanalyse wird irgendwann im Prozess der Datenanalyse auf ein Element der Voreingenommenheit stoßen. Deshalb ist es so wichtig, dass Sie wissen, wie Sie Voreingenommenheit bei Daten erkennen und verwalten können. Sie erinnern sich vielleicht daran, dass wir uns in Kurs 3 dieses Programms ausführlich mit Voreingenommenheit beschäftigt haben. In dieser Lektüre lesen Sie ein Beispiel aus dem wirklichen Leben eines Analysten, der Voreingenommenheit in seinen Daten entdeckt hat, und erfahren, wie er R verwendet hat, um diese zu beseitigen.
Umgang mit Voreingenommenheit in Daten mit R
Dieses Szenario wurde von einem quantitativen Analysten erzählt, der Daten von Menschen aus der ganzen Welt sammelt. Er erklärt, wie er Voreingenommenheit in seinen Daten entdeckte und wie er R einsetzte, um sie zu beseitigen:
„Ich arbeite in einem Team, das umfrageähnliche Daten sammelt. Eine der Aufgaben, die mein Team durchführt, ist ein sogenannter Seite-an-Seite-Vergleich. Wir können Nutzern zum Beispiel zwei Anzeigen gleichzeitig nebeneinander zeigen. In unserer Umfrage fragen wir sie, welche der beiden Anzeigen sie bevorzugen. In einem Fall stellten wir nach vielen Iterationen eine konsistente Voreingenommenheit zugunsten der ersten Anzeige fest. Außerdem nahm die Präferenz für einen Artikel messbar ab, wenn wir seine Position auf den zweiten Platz verschoben.
Also beschlossen wir, die Position der Anzeigen mit Hilfe von R zu randomisieren. Wir wollten sicherstellen, dass die Artikel an der ersten und zweiten Position mit ähnlicher Häufigkeit erscheinen. Wir verwendeten sample(), um ein Zufallselement in unsere Programmierung in R einzufügen. In R können Sie mit der Funktion sample() eine Stichprobe von Elementen aus einem Datensatz ziehen. Durch das Hinzufügen dieses Codes wurden die Zeilen in unserem Datensatz nach dem Zufallsprinzip gemischt. Als wir den Nutzern die Anzeigen präsentierten, waren die Positionen der Anzeigen nun zufällig und wurden auf Voreingenommenheit kontrolliert. Das machte die Umfrage effektiver und die Daten zuverlässiger.“
Die wichtigsten Erkenntnisse
Die Funktion Stichprobe() ist nur eine von vielen Funktionen und Methoden in R, die Sie verwenden können, um Voreingenommenheit in Ihren Daten zu bekämpfen. Je nach Art der Analyse, die Sie durchführen, müssen Sie möglicherweise einige fortgeschrittene Prozesse in Ihre Programmierung einbeziehen. Obwohl dieses Programm diese Art von Prozessen nicht im Detail behandelt, werden Sie wahrscheinlich mehr darüber erfahren, wenn Sie mehr Erfahrung im Bereich Data Analytics sammeln.
Wenn Sie mehr über Voreingenommenheit und Datenethik erfahren möchten, sehen Sie sich diese Ressourcen an:
-
Voreingenommenheit Funktion: Diese Webseite ist ein guter Ausgangspunkt, um zu erfahren, wie die Funktion Voreingenommenheit in R Ihnen helfen kann, Voreingenommenheit in Ihrer Analyse zu erkennen und zu verwalten.
-
Ethik in der Datenwissenschaft: Dieser Online-Kurs bietet Folien, Videos und Übungen, mit denen Sie mehr über Ethik in der Welt der Data Analytics erfahren können. Er enthält Informationen über Datenschutz, falsche Darstellungen in Daten und die Anwendung von Ethik auf Ihre Visualisierungen.
Die Funktion der Voreingenommenheit
Visualisierungen in R
Hallo zusammen. Schön, dich wiederzusehen. Es hat
Grundlagen der Visualisierung in R und Tidyverse (R)
Getting started with ggplot()
Häufige Probleme beim Visualisieren in R
Codierungsfehler sind ein unvermeidlicher Teil des Code-Schreibens – insbesondere, wenn Sie zum ersten Mal eine neue Programmiersprache erlernen. In dieser Lektüre erfahren Sie, wie Sie häufige Codierungsfehler beim Erstellen von Visualisierungen mit ggplot2 erkennen . Sie finden auch Links zu einigen Ressourcen, die Sie bei der Behebung etwaiger Codierungsprobleme nutzen können, auf die Sie in Zukunft stoßen könnten.
Häufige Codierungsfehler in ggplot2
Bei der Arbeit mit R-Code in ggplot2 sind viele der häufigsten Codierungsfehler Probleme mit der Syntax, wie etwa falsch platzierte Zeichen. Deshalb ist es beim Schreiben von Code so wichtig, auf Details zu achten. Wenn in Ihrem Code ein Fehler auftritt, den R erkennen kann, wird eine Fehlermeldung generiert. Fehlermeldungen können Ihnen dabei helfen, die richtige Richtung zu weisen, aber sie helfen Ihnen nicht immer dabei, das genaue Problem herauszufinden.
Sehen wir uns einige der häufigsten Codierungsfehler an, die in ggplot2 auftreten können.
Groß- und Kleinschreibung beachten
Beim R-Code muss die Groß-/Kleinschreibung beachtet werden. Wenn Sie in einer bestimmten Funktion versehentlich den ersten Buchstaben groß schreiben, kann dies Auswirkungen auf Ihren Code haben. Hier ist ein Beispiel:
Blick (Pinguine)
Die Fehlermeldung informiert Sie darüber, dass R eine Funktion namens „Glimpse“ nicht finden kann:
Fehler in Glimpse(penguins): Funktion „Glimpse“ konnte nicht gefunden werden
Aber Sie wissen, dass die Funktion glimpse (Kleinbuchstabe „g“) existiert. Beachten Sie, dass die Fehlermeldung nicht genau erklärt, was falsch ist, sondern Ihnen eine allgemeine Richtung weist.
Auf dieser Grundlage können Sie herausfinden, dass dies der richtige Code ist:
Blick (Pinguine)
Klammern und Anführungszeichen ausbalancieren
Ein weiterer häufiger R-Codierungsfehler sind Klammern und Anführungszeichen. In R müssen Sie sicherstellen, dass jede öffnende Klammer in Ihrer Funktion eine schließende Klammer und jedes öffnende Anführungszeichen ein schließendes Anführungszeichen hat. Wenn Sie beispielsweise den folgenden Code ausführen, passiert nichts. R erstellt den Plot nicht. Das liegt daran, dass in der zweiten Codezeile zwei schließende Klammern fehlen:
ggplot(data = Pinguine) +
geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g
RStudio macht Sie auf das Problem aufmerksam. Links neben der Codezeile in Ihrem RStudio-Quelleditor sehen Sie möglicherweise einen roten Kreis mit einem weißen „X“ in der Mitte. Wenn Sie mit dem Cursor über den Kreis fahren, erscheint diese Meldung:
RStudio informiert Sie darüber, dass Sie über eine unübertroffene öffnende Klammer verfügen. Um den Code zu korrigieren, wissen Sie also, dass Sie eine schließende Klammer hinzufügen müssen, die zu jeder öffnenden Klammer passt.
Hier ist der richtige Code:
ggplot(data = Pinguine) +
geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))
Verwenden Sie das Pluszeichen, um Ebenen hinzuzufügen
In ggplot2 müssen Sie Ihrem Code ein Pluszeichen („+“) hinzufügen, wenn Sie Ihrem Plot eine neue Ebene hinzufügen. Das Pluszeichen an der falschen Stelle zu platzieren, ist ein häufiger Fehler. Das Pluszeichen sollte immer am Ende einer Codezeile und nicht am Zeilenanfang platziert werden.
Hier ist ein Beispiel für Code, der eine falsche Platzierung des Pluszeichens enthält:
ggplot(data = Pinguine)
+ geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))
In diesem Fall identifiziert die Fehlermeldung von R das Problem und fordert Sie auf, es zu beheben:
Fehler: „+.gg()“ kann nicht mit einem einzelnen Argument verwendet werden. Haben Sie versehentlich + in eine neue Zeile gesetzt?
Hier ist der richtige Code:
ggplot(data = Pinguine) +
geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))
Sie könnten auch versehentlich einen senkrechten Strich anstelle eines Pluszeichens verwenden, um Ihrem Plot eine neue Ebene hinzuzufügen, etwa so:
ggplot(data = Pinguine)%>%
geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))
Sie erhalten dann folgende Fehlermeldung:
Fehler: „Daten“ muss ein Datenrahmen oder ein anderes durch „fortify()“ erzwingbares Objekt sein, kein S3-Objekt mit der Klasse gg/ggplot
Hier ist der richtige Code:
ggplot(data = Pinguine) +
geom_point(mapping = aes(x = flipper_length_mm, y = body_mass_g))
Wenn Sie diese Probleme im Hinterkopf behalten und beim Schreiben von Code auf Details achten, können Sie Fehler reduzieren und Zeit sparen, sodass Sie sich auf Ihre Analyse konzentrieren können.
Hilferessourcen
Beim Schreiben von Code macht jeder Fehler – das ist nur ein Teil des Lernprozesses. Glücklicherweise stehen in RStudio und online viele hilfreiche Ressourcen zur Verfügung.
R-Dokumentation
R verfügt über eine integrierte Dokumentation für alle Funktionen und Pakete. Um mehr über eine R-Funktion zu erfahren, führen Sie einfach den Code ?function_name aus . Wenn Sie beispielsweise mehr über die Funktion geom_bar erfahren möchten, geben Sie Folgendes ein:
?geom_bar
Wenn Sie den Code ausführen, wird im Hilfe-Viewer im unteren rechten Bereich Ihres RStudio-Arbeitsbereichs ein Eintrag zu „geom_bar“ angezeigt. Der Eintrag beginnt mit einem Abschnitt „Beschreibung“, in dem Balkendiagramme erläutert werden:
DerRDocumentation-Websiteenthält einen Großteil des gleichen Inhalts in einem etwas anderen Format, mit zusätzlichen Beispielen und Links.
ggplot2-Dokumentation
Derggplot2-Seite, das Teil der offiziellen Tidyverse-Dokumentation ist, ist eine großartige Ressource für alles, was mit ggplot2 zu tun hat. Es enthält Einträge zu Schlüsselthemen, nützliche Codebeispiele und Links zu anderen hilfreichen Ressourcen.
Online-Suche
Eine weitere Möglichkeit besteht darin, online nach der Fehlermeldung zu suchen, auf die Sie stoßen (und dabei „R“ und den Funktions- oder Paketnamen in Ihre Suchbegriffe aufzunehmen). Es besteht eine gute Chance, dass jemand anderes bereits auf denselben Fehler gestoßen ist und online darüber gepostet hat.
Die R-Community
Wenn die anderen Ressourcen nicht helfen, können Sie versuchen, online Kontakt mit der R-Community aufzunehmen. Es gibt viele nützliche Online-Foren und Websites, auf denen Menschen um Hilfe bitten und diese erhalten, darunter:
Joseph: Karrierepfad zu People Analytics
Verbesserte Visualisierungen in R
Ästhetische Attribute
In dieser Lektüre lernen Sie die drei grundlegenden ästhetischen Attribute kennen, die bei der Erstellung von Visualisierungen mit ggplot2 (R) zu berücksichtigen sind: Farbe, Größe und Form. Diese Attribute sind wichtige Tools für die Erstellung von Datenvisualisierungen mit ggplot2 und sind direkt in den Code integriert.
Ästhetik in ggplot2
ggplot2 ist ein R-Paket, mit dem Sie verschiedene Arten von Datenvisualisierungen direkt in Ihrem R-Arbeitsbereich erstellen können. In ggplot2 ist eine Ästhetik als eine visuelle Eigenschaft eines Objekts in Ihrer Darstellung definiert.
Es gibt drei ästhetische Attribute in ggplot2:
-
Farbe: Damit können Sie die Farbe aller Punkte in Ihrem Diagramm oder die Farbe jeder Datengruppe ändern
-
Größe: Hiermit können Sie die Größe der Punkte in Ihrem Diagramm nach Datengruppen ändern
-
Form: Hiermit können Sie die Form der Punkte in Ihrem Diagramm nach Datengruppe ändern
Hier sehen Sie ein Beispiel dafür, wie ästhetische Attribute in R angezeigt werden:
ggplot(data, aes(x=distance, y= dep_delay, color=carrier, size=air_time, shape = carrier)) geom_point()
Indem Sie diese ästhetischen Attribute auf Ihre Arbeit mit ggplot2 anwenden, können Sie in R Datenvisualisierungen erstellen, die Trends in Ihren Daten klar vermitteln.
Zusätzliche Ressourcen
Weitere Informationen über ästhetische Attribute finden Sie in diesen Ressourcen:
-
Datenvisualisierung mit ggplot2 – Spickzettel: Der Spickzettel von RStudio ist eine hervorragende Referenz für die Arbeit mit ggplot2. Er enthält eine Menge hilfreicher Informationen, darunter Erklärungen zur Verwendung von Geoms und Beispiele für die verschiedenen Visualisierungen, die Sie erstellen können.
-
RDocumentation aes Funktion: Diese Anleitung beschreibt die Syntax der Funktion aes und erklärt, was die einzelnen Argumente bewirken.