Le moteur de recherche Google pour les scientifiques a été mis à jour pour une meilleure récupération des données

Le moteur de recherche de Google pour les jeux de données, le Dataset Search, astucieusement nommé, est désormais sorti de la version bêta, avec de nouveaux outils pour mieux filtrer les recherches et accéder à près de 25 millions de jeux de données.

La recherche de jeux de données a été lancée en septembre 2018, Google espérant unifier lentement le monde fragmenté des données en libre accès en ligne. Bien que de nombreuses institutions comme les universités, les gouvernements et les laboratoires publient des données en ligne, il est souvent difficile de les trouver en utilisant la recherche traditionnelle. Mais en ajoutant des balises de métadonnées open source à leurs pages Web, ces groupes peuvent avoir leurs données indexées par Dataset Search, qui couvre désormais une vaste gamme d'informations – des blessures de ski aux éruptions volcaniques en passant par les populations de pingouins.

Google ne partagerait aucun chiffre d'utilisation spécifique pour le moteur de recherche, mais il a déclaré que "des centaines de milliers d'utilisateurs" avaient essayé Dataset Search depuis son lancement, et la réaction de la communauté scientifique était globalement positive.

Natasha Noy, chercheuse à Google AI qui a aidé à créer l'outil, raconte Le bord que «la plupart des référentiels (de données) ont été très réactifs» et que le lancement du moteur signifie que les institutions scientifiques plus anciennes prennent désormais «la publication des métadonnées plus au sérieux».

«Par exemple (la prestigieuse revue scientifique) La nature modifie ses politiques pour exiger le partage des données avec des métadonnées appropriées », a déclaré Noy, soulignant un changement qui rendra les données sur lesquelles repose la recherche scientifique de haut niveau plus accessibles à l'avenir.

"Finalement! Ma thèse «Frapper les pentes un peu trop fort: fémurs brisés et rêves brisés lors de la Coupe du monde de ski 2012», aura les bases rigoureuses et fondées sur les données qu'elle mérite. »
Image: Le Verge

Les nouvelles fonctionnalités ajoutées à la recherche de jeux de données incluent la possibilité de filtrer les données par type (tableaux, images, texte, etc.), leur utilisation gratuite et les zones géographiques couvertes. Le moteur est également maintenant disponible pour une utilisation sur mobile et a développé des descriptions d'ensemble de données.

Selon Google, le corpus couvert par le moteur de recherche – près de 25 millions d'ensembles de données – n'est qu'une «fraction d'ensembles de données sur le Web», mais «significatif» tout de même. Les plus grands sujets indexés sont les géosciences, la biologie et l'agriculture, et les requêtes les plus courantes incluent «l'éducation», la «météo», le «cancer», le «crime», le «football» et les «chiens». Les États-Unis sont également le chef de file en des ensembles de données du gouvernement ouvert, publiant plus de 2 millions en ligne.

Noy ne commenterait pas les plans futurs pour la recherche de jeux de données, mais elle dit que l'équipe réfléchissait à un certain nombre de fonctions qu'elle espère utiles, notamment «comprendre comment les jeux de données sont cités et réutilisés» et «aider les utilisateurs à explorer les jeux de données dans la recherche de jeux de données lorsqu'ils ne savent pas nécessairement ce qu'ils recherchent. »

«Et, bien sûr, continuer à étendre le corpus», explique Noy. Il y a toujours plus de données.

Traduit de la source : https://www.theverge.com/2020/1/23/21078310/google-dataset-search-beta-over-filters-improved-open-source

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.