Cet exercice sert à vous introduire à la visualisation de données avec le logiciel Orange Data Mining développé par l’Université de Ljubljana. Ce logiciel de “programmation visuelle” vous permet de programmer un processus d’analyse sans écrire de code. Orange Data Mining permet à ce titre de se familiariser avec des concepts de traitement informatique de données. N’hésitez pas à visiter le site du logiciel pour en apprendre davantage sur ses possibilités.
Une fois cet exercice terminé, passez à l’exercice “Visualiser des données avec R”.
Installer Orange 3
Installez Orange 3 à partir du site de l’application. Si cela s’avère problématique, suivez les instructions d’installation alternatives disponibles ici.
Lancez Orange 3 et créez un nouveau fichier.
Cliquez sur File > Save pour sauvegarder directement votre fichier le_nom_de_votre_choix.ows
L’interface d’Orange
L’interface d’Orange est composée d’un ensemble de nœuds fonctionnels (au sens de nœud d’un réseau) regroupés par module et d’un canevas.
Charger et préparer les données
Il existe deux possibilités pour obtenir les données :
- Les charger sur votre disque dur local et les ouvrir depuis là. Pour suivre cette piste, rendez vous sur le site du cours et téléchargez le fichier unine_exercice1.zip. Décompressez-le dans un emplacement de votre disque dur, en prenant bien note où vous le stockez.
- Ne faites rien à ce stade.
Charger les données dans Orange 3
Ouvrez l’onglet Data et cliquez sur l’icône File. Un “nœud” apparaître sur le canevas.
Cliquez sur le nœud File sur le canevas. Si vous avez téléchargé les fichier, choisissez le fichier donnees_communes.xls
Sinon, entrez directement l’URL des données: http://ourednik.info/unine/donnees_communes.xls
Une liste de colonnes devrait apparaître.
Calculez les données proportionnelles
Ajoutez un nœud “Feature Constructor” (vous trouverez le bouton un peu plus bas dans l’onglet Data) …
… et connectez file à feature constructor avec la souris.
Double-cliquez sur Feature Constructor pour définir une nouvelle variable numérique.
La proportion des germanophones dans la population totale = P00B21 / P00BTOT. Remarquez, ce faisant, que le menu déroulant “Select Feature” peut vous être utile…
Ajoutez la proportion de francophones, d’italophones, de romanchophones et d’anglophones dans la population totale en vous basant sur les métadonnées “donnes_communes.pdf” à l’intérieur du fichier unine_exercice1.zip.
Sélectionnez les variables
Pour faciliter la suite, ne conservez que les variables (features) qui vous intéressent parmi les variables disponibles. Conservez aussi la variable GMDENAME comme méta-attribut (les métatributs ne sont pas pris en compte dans l’analyse mais permettent d’identifier les individus statistiques représentés par les lignes de données).
Produire des graphiques
Réduisez le nombre de variables sélectionnées ainsi:
Connectez quelques nœuds de visualisations pour reproduire quelques-uns des graphiques vus dans le cours. Double-cliquez toujours sur un nœud pour ouvrir l’interface de visualisation correspondante.
Option: installez des modules supplémentaires
Essayez d’installer des modules supplémentaires à partir du menu Options > Add-ons, notamment Educational, Text, Textable et Networks, qui donnent accès notamment à l’analyse de réseaux et à des analyses textuelles.
I have just published a book dealing with the Python based environment Orange and Data Science.
The title is “Data Science and Engineering – A learning path – Volume 1: Methodological Aspects, Data Acquisition, Management and Cleaning, Analysis and Visualization in the Python-based Orange environment
https://www.amazon.com/dp/B0B14PTRR8