Looking up words in dictionaries is the alpha and omega of text mining. I am, for instance interested to know whether a given word from a large dictionary (>100k words) occurs in a sentence or not, for a list of over 1M sentences. The best take at this task is using the Julia language, but […]
Tag Archives: R
Premiers pas avec R et RStudio
Cet exercice a pour préalable d’avoir installé R et RStudio. Se familiariser avec l’interface Ouvrez RStudio. Vous devriez voir l’interface comme à l’image ci-dessous, pour l’heure sans la partie A. La partie C est en principe vide: Les fonctions de ces différentes parties sont les suivantes: Exécutez des lignes de codes dans la console (B) […]
Installer R et RStudio comme logiciels indépendants
R est un langage de programmation. Pour que les programmes écrits en R fonctionnent, il est nécessaire d’installer au préalable un environnement d’exécution pour ce langage. RStudio est un environnement de développement (en anglais: IDE: Integrated development environment) pour R. Installer l’environnement d’exécution du langage de programmation R Vous pouvez installer R et RStudio comme […]
Installer Orange Data Mining avec Miniconda
Installer Miniconda Conda est disponible en deux versions : Miniconda et Anaconda. Miniconda n’inclut que les modules essentiels au premier téléchargement. Anaconda est plus complet et vous évite peut-être des téléchargements ultérieurs, mais pèse 4Go sur votre disque dur… Pour macOS Suivre les instructions sur https://conda.io/docs/user-guide/install/macos.html. Vous pouvez ignorer la partie consacrée à l’installation silencieuse […]
Create a subgraph from the neighborhood of specific vertices in igraph
Many user of igraph for R expect the functions ego() and make_ego_graph() , that take a list of vertices as input, to generate a new graph composed of the neighbors of these vertices. Unfortunately, these functions do no such thing. They generate a list of igraph.vs objects, which cannot be further treated as an igraph […]
Visualiser des données avec R (2): réductions dimensionnelles et clustering
Cet exercice fait suite à l’exercice Visualiser des données avec R (1). Il présuppose que vous avez chargé les données et créé les variables de cet exercice précédent, faute de quoi les scripts R ci-dessous ne fonctionneront pas. Les commentaires du code sont minimaux. Cet exercice présuppose soit, 1. que vous venez de suivre une […]
Unknown column? Force encoding of an entire table from “unknown” to “UTF-8” in R on Windows
A common knitr issue on Windows Running R scripts on a Windows machine is equivalent to a dive into enconding hell. In effect, your non-English data most likely contains characters like Ä, ü, è or š, or even 语言. In all cases, the only serious way of dealing with these, in fact with any data […]
Cleaning up PDFs of pre-1990s scanned texts for text mining in R with Quanteda
Text sources are often PDF’s. If optical character recognition (OCR) has been applied, the pdftools R package allows you to extract text from all PDFs to text files stored in a folder. The readtext package converts the set of text files into something useful for Quanteda. Nevertheless, some cleaning is necessary before transforming your text […]
Stacked histogram with bivariate colored bars in R
A histogram gives you counts of elements within spefic ranges of a variable, represented as bars. Sometimes, you want to see more than bars. The following code allows you to represent a second variable with a color shade:
Cartographie avec R
Les instructions de ce document sont encore valables, mais l’univers des modules R a beaucoup évolué depuis 2016. Aujourd’hui, les principaux développements en matière de données vectorielles se sont détachés des 3 anciens modules documentés ci-dessous (sp, rgdal, rgeos) pour se reposer principalement sur le modules sf. Pour une version mise à jour de cet […]