POSTES

Projets longs sciences de données sur l’égalité F/H

Projets courts sciences de données sur l’égalité F/H

L’objectif est de mettre en œuvre des pipelines de science des données pour l’analyse des graphes en utilisant et en comparant différents algorithmes d’apprentissage automatique en ce qui concerne les scores de performance et la consommation de ressources (temps d’exécution, CPU/GPU/… et mémoire principale). Les pipelines d’analyse de graphes seront axés sur les sujets décrits ci-dessous (les stagiaires peuvent choisir en fonction de leurs intérêts et de leur philosophie personnelle).

  • Comprendre et modéliser la littérature francophone native en ligne produite dans des sites, des blogs, des réseaux sociaux et contribuer à répondre à des questions telles que : Comment les écrivains utilisent-ils les nouveaux médias et dispositifs numériques ? Comment identifier leurs productions dans un domaine qui perturbe les protocoles habituels de publication et donc de légitimation ? Quelles sont les nouvelles sociabilités littéraires qui se construisent dans et par l’Internet (sites, blogs, réseaux sociaux) ? 
  • Les femmes et la progression de carrière [1]: La question à laquelle il faut répondre est la suivante : quelles voies les femmes qui ont réussi ont-elles empruntées pour atteindre leurs objectifs de carrière, et comment cela peut-il être reproduit ou amélioré ? L’accent sera mis sur les femmes dans l’intelligence artificielle et la science des données.
  • Analyser l’histoire des identités queer [2]: connecter des ensembles de données disparates sans identifiant commun et découvrir des relations qui peuvent révéler des informations importantes sur les identités queer.

Tâches

  1. Se familiariser avec les concepts de base et les meilleures pratiques : Étudier les flux de travail utilisant des algorithmes de graphes analytiques utilisés pour répondre à des problèmes de détection de communautés comme le page rank, Louvain [2,3]. 
  2. Conception et implémentation d’un pipeline général d’analyse de données des sujets énumérés ci-dessus : préparation, analyse, évaluation avec au moins trois méthodes ML.
  3. Expérimenter l’exécution des pipelines sur différentes configurations d’architectures cibles et générer des logs d’exécution pour analyser la consommation des ressources.
  4. Développer un tableau de bord pour les pipelines.

Résultats attendus

  1. Github des pipelines implémentés
  2. Tableau de bord pour la ou les études réalisées.

[1]https://data.world/scuttlemonkey/women-and-career-advancement

[2] https://queerdata.forummuenchen.org/en/