
Introduction aux mégadonnées en sciences sociales
Université de Montréal
1_, 2_, 3_?source()?

Le problème : On veut étudier des choses invisibles (concepts).
La solution : Construire des échelles de mesure
La vérification : Est-ce que mon échelle est fiable et valide?
L’application : Maintenant que j’ai mesuré mon concept, comment il interagit avec le monde ? (Visualisation -> Régression).



“Quels événements ont directement mené au déclenchement de la Seconde Guerre Mondiale en Europe?”
“Expliquez pourquoi l’opération Barbarossa a été un tournant décisif dans la guerre.”
“Analysez comment la mobilisation industrielle des États-Unis a influencé l’issue de la guerre.”
“Évaluez comment les accord de Yalta ont redessiné la carte politique de l’Europe.”
“Quelle était la marque de cigares préférée de Winston Churchill?”
Cette question mesure-t-elle vraiment la compétence en histoire?
Ou mesure-t-elle autre chose?
5 questions pour mesurer les habitudes de vie saines
r$> names(df)
[1] "ses_gender" "ses_income" "ses_housing" "ses_language"
[5] "ses_religion" "ses_education" "ses_ethnicity" "ses_immigrant"
[9] "ses_skin_tone" "lifestyle_pets" "lifestyle_album" "lifestyle_movie"
[13] "lifestyle_prius" "ses_postal_code" "lifestyle_coffee" "lifestyle_gpt_freq"
[17] "lifestyle_transport" "lifestyle_yoga_freq" "lifestyle_guns_number" "lifestyle_classic_meal"
[21] "lifestyle_fishing_freq" "lifestyle_hunting_freq" "ses_sexual_orientation" "lifestyle_eat_meat_freq"
[25] "lifestyle_clothing_style" "lifestyle_motorized_freq" "lifestyle_videogame_freq" "lifestyle_alcohol_favorite"
[29] "ses_religiosity_importance" "lifestyle_nonmotorized_freq" "lifestyle_watch_soccer_freq" "lifestyle_movie_barbenheimer"
[33] "lifestyle_watch_baseball_freq" "lifestyle_volunteeringsocial_freq"df_clean <- data.frame(id = 1:nrow(df))
# Variable de fréquence de pêche
table(df$lifestyle_fishing_freq)
df_clean$lifestyle_fishing_freq_scale<- NA
df_clean$lifestyle_fishing_freq_scale[df$lifestyle_fishing_freq == "Never"] <- 0
df_clean$lifestyle_fishing_freq_scale[df$lifestyle_fishing_freq == "Almost never"] <- 0.25
df_clean$lifestyle_fishing_freq_scale[df$lifestyle_fishing_freq == "Sometimes"] <- 0.5
df_clean$lifestyle_fishing_freq_scale[df$lifestyle_fishing_freq == "Often"] <- 0.75
df_clean$lifestyle_fishing_freq_scale[df$lifestyle_fishing_freq == " Very often"] <- 1
table(df_clean$lifestyle_fishing_freq_scale, useNA = "ifany")
saveRDS(df_clean, "data_clean.rds")Visualiser des données
Éviter les distractions inutiles
Éviter les graphiques « spaghetti »
Évitez les lignes trop complexes qui se chevauchent et s’entremêlent
Commencer en noir et blanc et utiliser les couleurs de manière efficace
geom_() pour différents types de graphiques
geom_point() pour un nuage de pointsgeom_line() pour un graphique linéairegeom_bar() pour un graphique à barresgeom_histogram() pour un histogramme
scale_color_gradient() permet de spécifier les couleurs pour la variable Educationlow et high sont les couleurs pour les valeurs les plus basses et les plus hautesname est le nom de la légende
ggplot(df, aes(x = Agriculture, y = Fertility, color = Education)) +
geom_point(alpha = 0.8) + # Le alpha est la transparence
scale_color_gradient(low = "blue", high = "red", name = "Éducation") +
labs(
title = "Relation entre l'agriculture et la fertilité en Suisse",
x = "Pourcentage d'agriculture",
y = "Fertilité"
) 
ggplot(df, aes(x = Agriculture, y = Fertility, color = Education)) +
geom_point(alpha = 0.8) + # Le alpha est la transparence
scale_color_gradient(low = "blue", high = "red", name = "Éducation") +
labs(
title = "Relation entre l'agriculture et la fertilité en Suisse",
x = "Pourcentage d'agriculture",
y = "Fertilité"
) +
theme_minimal()theme_minimal() est un thème minimaliste
ggplot(df, aes(x = Agriculture, y = Fertility, color = Education)) +
geom_point(alpha = 0.8) + # Le alpha est la transparence
scale_color_gradient(low = "blue", high = "red", name = "Éducation") +
labs(
title = "Relation entre l'agriculture et la fertilité en Suisse",
x = "Pourcentage d'agriculture",
y = "Fertilité"
) +
theme_minimal()
ggsave("chemin/vers/nom_du_graphique.png", width = 16, height = 9)
\[ \begin{aligned} y &= \beta_0 + \beta_1x + \epsilon \\ \end{aligned} \]
Comment ça marche?
L’analyse factorielle vérifie
Nos résultats