logo

Crowdly

222-2-23 - Data scraping et wrangling

Шукаєте відповіді та рішення тестів для 222-2-23 - Data scraping et wrangling? Перегляньте нашу велику колекцію перевірених відповідей для 222-2-23 - Data scraping et wrangling в moodle.univ-lr.fr.

Отримайте миттєвий доступ до точних відповідей та детальних пояснень для питань вашого курсу. Наша платформа, створена спільнотою, допомагає студентам досягати успіху!

La première phase de nettoyage (suppression des valeurs nulles et des valeurs dont le type est incorrect) était à la fois incomplète sur certains points et supprimait trop d'informations sur d'autres. Nous allons donc recommencer le nettoyage mais pour de vrai. A partir de maintenant tout est un peu moins guidé mais des mots-clés permettent de trouver comment réaliser la plupart des étapes.

Reprendre le fichier initial, et réappliquer le workflow pour supprimer les colonnes inutiles et les lignes avec des champs vides mais sans modifier les types pour éviter de détruire des données. Il doit rester 55774 lignes.

Vous avez probablement remarqué qu'il y a de nombreuses lignes similaires. On va donc supprimer toutes les lignes dupliquées pour alléger un peu les analyses ultérieures. Combien reste-t-il de lignes ?

Malgré ces modifications il reste de nombreuses redondances, par exemple "Aarhus University" contient plusieurs lignes. Combien pour cette université ?

On va dans la suite résoudre certains des problèmes au fur et à mesure.

Переглянути це питання

Calculer la proportion de lignes supprimées au total depuis le début de la recette (indiquez juste le pourcentage sans décimale et sans le signe %).

Переглянути це питання

Modifier les types des colonnes endowment (mettre double pour convertir automatiquement les valeurs en notation scientifique du type 6.2E7) et numStudents (mettre int32) puis supprimer toutes les lignes incorrectes.

On notera que le système de correction de type va tenter de vous faire plaisir. Ainsi si un cellule contient :

  • "1.3E7" et que vous indiquez que c'est un int32, le système va corriger en "1"
  • La même valeur en double il va corriger en "13000000" (ce qui est correct).
  • La valeur "18,234" (la virgule est utilisée comme séparateur des milliers en anglais) il va corriger en "18"
  • La valeur "il y a 5000 étudiants" commence par une lettre donc il jettera le contenu

En clair il regarde si la cellule commence par un chiffre et tant qu'il en trouve il les conserve.

Combien reste-t-il de lignes ?

Переглянути це питання

Inspectez les données pour identifier les problèmes puis cochez les cases qui correspondent à ce que vous avez trouvé.

Переглянути це питання

Supprimez toutes les lignes qui contiennent des attributs vides ou null. Combien de lignes ont été supprimées ?

Переглянути це питання

Combien de colonnes sont utiles pour notre étude (relisez l'objectif de l'étude en cas de doute) ? On ne garde rien de plus que ce qui est vraiment nécessaire.

Переглянути це питання

La première étape consiste à sélectionner les colonnes pertinentes et à leur affecter un type correct. Choisissez le type plus adéquat pour chaque colonne. On se limitera aux types Bool (vrai/faux), Int32 (nombre entiers), FixedDecimal (nombres à virgule), V_String (texte) et Date : 

  • university :

  • endowment :
  • numFaculty :
  • numDoctoral :
  • country :
  • numStaff :
  • established :
  • numPostgrad :
  • numUndergrad :
  • numStudents :

Переглянути це питання

Indiquez pour chaque attribut de quel type et sous-type il est :

  • university :
    ,
    ,

  • endowment :
    ,
    ,
  • numFaculty :
    ,
    ,
  • numDoctoral :
    ,
    ,
  • country :
    ,
    ,
  • numStaff :
    ,
    ,
  • established :
    ,
    ,
  • numPostgrad :
    ,
    ,
  • numUndergrad :
    ,
    ,
  • numStudents :
    ,
    ,

Переглянути це питання

Répondez aux questions suivantes pour décrire vos données :

  • Nom du fichier contenant les données :
  • Nombre de colonnes (attributs) :

  • Nombre de lignes :

En principe on aurait noté toutes ces informations dans un fichier à part qui aurait été rendu avec les données, les recettes et tout le reste.

Переглянути це питання

Qu'est-ce que le data wrangling ?

Переглянути це питання

Хочете миттєвий доступ до всіх перевірених відповідей на moodle.univ-lr.fr?

Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!