1 Présentation et introduction

Ce premier chapitre vous introduit à R. Nous découvrirons ce qui fait de ce logiciel un outil incontournable et vous guiderons à travers les étapes essentielles pour une première prise en main sereine, posant ainsi les bases de votre parcours.

1.1 Que peut-on faire avec R

Le langage R est un environnement de programmation dédié à l’analyse statistique et au traitement de données. Développé depuis le début des années 1990 par une communauté internationale de chercheurs et de développeurs bénévoles, R s’est imposé comme un outil de référence dans le domaine des sciences des données.

Avantages du langage R

L’utilisation de R présente de nombreux atouts, tant sur le plan technique que pratique :

Interopérabilité : R est un logiciel multiplateforme, compatible avec les systèmes d’exploitation Linux, macOS et Windows.
Accessibilité : Il est libre d’accès, gratuit et distribué sous licence open source, ce qui favorise son adoption dans les milieux académiques et professionnels.
Puissance analytique : Conçu spécifiquement pour la manipulation de données, R offre une grande richesse fonctionnelle pour les calculs statistiques et mathématiques, ainsi que des capacités graphiques avancées.
Extensibilité : Son architecture modulaire permet d’enrichir ses fonctionnalités via des extensions (packages), développées par une communauté très active.
Adoption croissante : R est largement utilisé dans les domaines de la science des données, de la statistique appliquée, de la bioinformatique, de l’épidémiologie, entre autres. Il constitue aujourd’hui un outil incontournable pour les professionnels manipulant de grandes quantités de données.

Fonctionnalités principales

R permet notamment de réaliser les opérations suivantes :

La visualisation et la transformation de données.
L’exécution d’analyses statistiques, de calculs numériques, de modèles de machine learning et de projets en data science.
L’appel à des fonctions existantes ou la création de nouvelles fonctions personnalisées.
La rédaction de rapports dynamiques (via R Markdown ou Quarto) et le développement d’applications web interactives (via Shiny).

Limites et considérations

Malgré ses nombreux avantages, R présente également certaines limites qu’il convient de prendre en compte :

La majorité de la documentation officielle et des ressources pédagogiques est rédigée en anglais, ce qui peut constituer un obstacle pour certains utilisateurs francophones.
En tant que langage de programmation complet, R requiert un temps d’apprentissage initial plus important que les logiciels à interface graphique (point-and-click).
La documentation technique peut parfois manquer de clarté ou de pédagogie, rendant difficile la compréhension de certaines fonctions ou extensions, en particulier pour les débutants.

1.2 Instalation

Pour commencer, deux logiciels doivent être installés :

Le logiciel R constitue le moteur d’exécution du code. Il est chargé d’interpréter la syntaxe du langage R et de la traduire en instructions compréhensibles par la machine (langage binaire).
Le logiciel RStudio qui fournit une interface conviviale ainsi qu’un ensemble d’outils qui facilitent l’écriture, l’exécution et le débogage du code R. RStudio n’est pas indispensable pour utiliser R, car il est possible d’exécuter du code directement dans la console R. Toutefois, il est fortement recommandé.

On peut comparer cette relation à celle entre le moteur d’une voiture et son tableau de bord : R joue le rôle du moteur, tandis que RStudio fait office de tableau de bord. Sans ce dernier, l’utilisation de R reste possible, mais nettement moins intuitive.

Pour installer l’environnement de travail, il est recommandé de suivre les étapes suivantes dans l’ordre :

Installer R: il suffit de se rendre sur le site officiel de R et de (i) choisir la version de R (de base) qui correspond à votre système d’exploitation (Linux, macOS, ou Windows), (ii) la télécharger, et puis (iii) l’installer sur votre machine.
Installer RStudio: même chose, mais cette fois-ci il faut se rendre sur la page officielle de RStudio Desktop

Après avoir installé R et RStudio sur votre ordinateur, vous disposerez de deux nouvelles applications. Dans la pratique, nous travaillerons toujours avec RStudio, et non directement avec R. En d’autres termes, vous devez toujours ouvrir RStudio : c’est lui qui se chargera automatiquement d’appeler R pour exécuter vos scripts et afficher les résultats.

Pour plus de détails sur l’installation de R et RStudio, vous pouvez consulter cette vidéo explicative.

1.3 L’interface de RStudio

Une fois RStudio lancé, vous verrez une interface composée d’une seule fenêtre, divisée en plusieurs zones que vous pouvez redimensionner, masquer ou maximiser selon vos préférences (cliquez sur l’image ci-dessus pour plus de détails) :

Les quatre zones principales de l’interface RStudio sont :

Le quadrant haut-gauche est le volet dédié aux fichiers sources (Source pane, en anglais). Il sert à écrire et sauvegarder des lignes de code (script). C’est là que l’on passe le plus clair de du temps dans RStudio.
Le quadrant haut-droite fournit, entre autres, des informations sur vos objets et données en mémoire (Environment) et votre historique de commandes (History).
Le quadrant bas-droite vous permet de naviguer dans votre répertoire de travail (onglet Files), afficher de l’aide (Help), afficher vos graphiques (Plots) et les extensions disponibles (Packages). Le dernier onglet Viewer ne nous sera pas utile (pour le moment !).
Enfin, la Console est affichée en bas à gauche. C’est là que l’on va pouvoir entrer et exécuter des instructions en R et voir le(s) résultat(s) s’afficher.

Inutile de tout retenir pour le moment. Nous aborderons chaque élément en temps voulu. Dans les deux sections suivantes, nous allons nous concentrer respectivement sur les onglets Console et Source.

1.4 La console

Voici la démarche à suivre pour exécuter des commandes R :

Votre curseur doit se trouver dans la Console, sur la ligne commençant par le caractère >. Ceci est appelé l’invite de commande (prompt en anglais). Elle indique que R est disponible et en attente de votre prochaine instruction.
Saisissez du code R, puis appuyez sur Entrée → R exécute le code.

À la suite de cela, deux situations peuvent se présenter :

Si votre code est correct, R vous renverra un résultat qui peut prendre différentes formes : chiffre, message, tableau, graphique, etc. Il arrive aussi que R exécute un code sans afficher de résultat à l’écran.
Si quelque chose ne va pas avec votre code, R vous le signalera :
- soit par un message d’erreur (Error) lorsque l’exécution doit être interrompue ;
- soit par un avertissement (Warning) pour indiquer que le code a été exécuté, mais qu’un comportement inattendu s’est produit.

Commençons par une première commande : tapez 2 + 3 dans la console.

2 + 3

Et validez avec la touche Entrée. Vous deviez alors obtenir le chiffre 5 précédé du symbole [1], comme ceci

[1] 5

Notez que dans ce document HTML, chaque bloc de code R (en gris) comporte un bouton “Copy” qui apparaît lorsque vous survolez le bloc avec le curseur. Il permet de copier facilement le code pour le réutiliser ailleurs.

Voici deux exemples illustrant respectivement un message d’erreur (Error) et un avertissement (Warning), avec chaque ligne de code suivie de sa sortie :

# exemple d'erreur 
5a + 5

Error in parse(text = input): <text>:2:2: unexpected symbol
1: # exemple d'erreur 
2: 5a
    ^

# exemple de Warning
log(-1)

Warning in log(-1): NaNs produced

[1] NaN

Comme vous pouvez le constater ci-dessus, R retourne l’objet NaN (pour Not a Number), indiquant que l’opération demandée n’est pas définie. Notez que toute opération impliquant NaN produira également NaN comme résultat. Exemple : 2 + log(-1).

Dans la syntaxe ci-dessus, remarquez l’usage du symbole “#”. Ce symbole sert à introduire un commentaire, càd une portion de texte qui sera ignorée par l’interpréteur lors de l’exécution du code. Plus précisément, tout ce qui se trouve sur la même ligne à droite du symbole “#” ne sera pas exécuté. Cela permet d’ajouter des explications ou des annotations dans le script sans affecter le fonctionnement du programme.

Note

Il est très important de documenter son code R au fur et à mesure, faute de quoi vous risquez de ne plus y comprendre grand-chose si vous le reprenez, ne serait-ce que quelques jours plus tard. Les commentaires aident également les autres à lire et à comprendre votre travail.

1.5 Opérateurs et fonctions mathématiques

Le tableau suivant regroupe les opérateurs arithmétiques de base en R, les fonctions mathématiques les plus courantes, ainsi qu’un certain nombre d’objets et de constantes prédéfinis.

Code R	Description	Résultat attendu
`2 + 3`	Addition	`5`
`7 - 4`	Soustraction	`3`
`6 * 2`	Multiplication	`12`
`10 / 2`	Division	`5`
`3^2`	Puissance	`9`

Code R	Description	Résultat attendu
`sqrt(25)`	Racine carrée de 25	`5`
`abs(-8)`	Valeur absolue de -8	`8`
`round(3.678, digits = 2)`	Arrondi à 2 chiffres après la virgule, par défaut `digits = 0`	`3.68`
`floor(3.9)`	Arrondi vers le bas	`3`
`ceiling(3.1)`	Arrondi vers le haut	`4`
`log(10)`	Logarithme naturel (base e)	`2.302585`
`log10(1000)`	Logarithme en base 10	`3`
`exp(2)`	Exponentielle (e^2)	`7.389056`
`cos(pi / 3)`	Cosinus de \pi/3, il ya aussi `sin()`, `tan()`, …	`0.5`
`factorial(4)`	factorielle de 4, càd 4!	`24`
`choose(4, 2)`	combinaisons de 2 éléments parmi 4, càd \frac{4!}{2!(4-2)!}	`6`

Code R	Description	Résultat attendu
`pi`	Constante représentant \pi	`3.141593`
`Inf`	Infini positif	`Inf`
`-Inf`	Infini négatif	`-Inf`
`NaN`	Résultat indéfini (Not a Number)	`NaN`
`NULL`	Objet vide ou inexistant	`NULL`
`LETTERS`	Alphabet en majuscules	`"A", "B", ..., "Z"`
`letters`	Alphabet en minuscules	`"a", "b", ..., "z"`

Vous pouvez combiner plusieurs opérations mathématiques dans la même commande. Pour cela, l’usage des parenthèses est très important. En effet, R respecte les priorités conventionnelles des opérateurs :

1 + 2 * 3 - 5                   #--> 1 + 6 - 5 = 2
(1 + 2) * 3 - 5                 #--> 3 * 3 - 5 = 4
log((5 + 2)^2 / (abs(-3) - 1))  # (7)^2 = 49, puis 49 / 2 = 24.5, puis log(24.5) = 3.198673

[1] 2
[1] 4
[1] 3.198673

Pour finir, notez la présence de nombres entre crochets ([ ]) au début de chaque ligne dans une sortie R. Ce nombre indique simplement la position du premier élément de la ligne dans l’objet affiché. Cependant, cette présentation dépend de la taille de la fenêtre de sortie : si l’objet contient de nombreux éléments, R les affiche sur plusieurs lignes, et chaque ligne commence par un crochet indiquant la position du premier élément de cette ligne. Voici un exemple

LETTERS

 [1] "A" "B" "C" "D" "E" "F" "G" "H" "I" "J" "K" "L" "M" "N" "O" "P" "Q" "R" "S"
[20] "T" "U" "V" "W" "X" "Y" "Z"

Dans la sortie ci-dessus, le symbole [1] indique que “A” occupe la première position dans l’objet LETTERS, tandis que [20] indique que “T” occupe la vingtième position. Ainsi, si vous tapez : LETTERS[1], vous obtiendrez : “A”. De même : LETTERS[20], donne : “T”. On appelle cela l’indexation par position, un concept important dans R sur lequel nous reviendrons plus tard.

1.6 Quelques astuces

Vous pouvez utiliser les flèches Haut (\uparrow) et Bas (\downarrow) du clavier pour naviguer dans l’historique des commandes, afin de les réexécuter ou de les modifier facilement.
L’onglet History du quadrant haut-droite vous permet de consulter l’historique des commandes que vous avez transmises à R.
- Un double-clic sur une commande la recopiera automatiquement dans la console.
- Vous pouvez également sélectionner une ou plusieurs commandes (en maintenant la touche Ctrl enfoncée) puis cliquer sur To Console.
Lorsqu’on fournit à R une commande incomplète, par exemple
```
# Dans la Console, tapez "4 *" (sans les guillemets), puis appuyez sur Enter 
4 *
```
R invite alors à compléter la commande en affichant le signe +. Dans ce cas, vous pouvez soit (i) compléter la commande en ajoutant le code manquant (par exemple 2 pour obtenir 4 * 2), soit (ii) annuler la commande en appuyant sur la touche Échap (abrégée en Esc, sous Windows).
Normalement, chaque commande R occupe une ligne. Sachez qu’il est possible d’enchaîner plusieurs commandes sur une même ligne en les séparant par des points-virgules, comme ceci :
```
sqrt(4); log(4); exp(4)
```
```
[1] 2
[1] 1.386294
[1] 54.59815
```
Cependant, cette pratique est déconseillée car elle nuit à la lisibilité du code.

Il est possible de regrouper plusieurs expressions dans un seul bloc (block of expressions ou block statement, en anglais) en les plaçant entre accolades {}. Lorsque vous procédez ainsi, seul le résultat de la dernière expression est retourné comme “valeur” du bloc, mais toutes les instructions du bloc sont bien exécutées.

x <- 0           # On crée un objet x et on lui attribue la valeur 0 (voir Section 2.1)
{
  x <- x + 1     # On incrémente x : il vaut maintenant 1
  log(1)        # On calcule le logarithme naturel de 1 (résultat : 0)
  x + 2         # On ajoute 2 à x (résultat : 3)
  x + 100       # On ajoute 100 à x (résultat : 101)
}
x

[1] 101
[1] 1

1.7 Les scripts

Écrire du code directement dans la console peut être pratique pour exécuter des instructions instantanément, mais cela ne permet ni de mémoriser ni d’enregistrer le travail effectué. Une méthode bien plus efficace consiste à utiliser un fichier script. Il s’agit simplement d’un fichier texte classique contenant du code R. Ce fichier peut être enregistré, modifié et réexécuté à tout moment, ce qui facilite grandement le développement, la reproduction des analyses et le partage du code.

Pour créer un nouveau fichier script, il suffit de cliquer dans la barre de menus sur : File > New File > R Script. Vous pouvez également suivre les étapes indiquées dans la capture d’écran ci-dessous.

Une nouvelle fenêtre devrait alors apparaître dans RStudio, avec un document nommé “untitled1” dedans. Placez votre curseur dans le document, puis tapez le code suivant

1 + 1
2 * 2
1 + 2 * 3 - 5
(1 + 2) * 3 - 5

Pour exécuter une ligne de code dans un script R, placez le curseur sur la ligne, puis cliquez sur Run ou appuyez sur Ctrl + Enter.
Pour exécuter plusieurs lignes de code dans un script R, sélectionnez-les, puis cliquez sur Run ou appuyez sur Ctrl + Enter.

RStudio exécutera le code sélectionné et affichera le(s) résultat(s) dans la Console.

Pour sauvegarder votre script, cliquez sur File > Save, choisissez un nom (par exemple My1script) et un emplacement, ce qui créera un fichier My1script.R dans le dossier sélectionné — n’oubliez pas de sauvegarder régulièrement votre travail.
Pour ouvrir un script existant, cliquez sur File > Open File, puis sélectionnez le fichier souhaité pour continuer à travailler dessus normalement.

Pour plus de détails sur l’interface de RStudio et autres éléments de base associés à R, regardez cette vidéo.