Glisten utilise la vision par ordinateur pour décomposer les photos de produits en leurs parties les plus importantes

Il est étonnant que de nos jours, la meilleure façon de rechercher de nouveaux vêtements soit de cliquer sur quelques cases à cocher, puis de faire défiler des images sans fin. Pourquoi ne pouvez-vous pas rechercher «robe à col rond à motifs verts» et en voir une? Glisten est une nouvelle startup qui permet justement cela en utilisant la vision par ordinateur pour comprendre et répertorier les aspects les plus importants des produits sur n’importe quelle photo.

Maintenant, vous pensez peut-être que cela existe déjà. D’une certaine manière, c’est le cas – mais pas d’une manière utile. La cofondatrice Sarah Wooders a rencontré cela en travaillant sur son propre projet de recherche de mode en allant au MIT.

«Je procrastinais en faisant des achats en ligne, et j’ai cherché une chemise courte à col en V, et seulement comme deux choses sont arrivées. Mais quand j’ai fait défiler la liste, il y en avait une vingtaine », a-t-elle expliqué. «J’ai réalisé que les choses étaient étiquetées de manière très incohérente – et si les données sont aussi grossières lorsque les consommateurs les voient, c’est probablement encore pire dans le backend.»

Il s’avère que les systèmes de vision par ordinateur ont été formés pour identifier, de manière très efficace, les caractéristiques de toutes sortes d’images, de l’identification des races de chiens à la reconnaissance des expressions faciales. En ce qui concerne la mode et d’autres produits relativement complexes, ils font la même chose: regardez l’image et générez une liste de fonctionnalités avec les niveaux de confiance correspondants.

Donc, pour une image donnée, cela produirait une sorte de liste de balises, comme ceci:

Comme vous pouvez l’imaginer, c’est en fait assez utile. Mais cela laisse aussi beaucoup à désirer. Le système ne comprend pas vraiment ce que «marron» et «manche» signifient vraiment, sauf qu’ils sont présents sur cette image. Si vous demandiez au système de quelle couleur est la chemise, elle serait perplexe à moins que vous ayez trié manuellement la liste et dit, ces deux choses sont des couleurs, ce sont des styles, ce sont des variations de styles, etc.

Ce n’est pas difficile à faire pour une image, mais un détaillant de vêtements pourrait avoir des milliers de produits, chacun avec une douzaine de photos, et de nouveaux à venir chaque semaine. Voulez-vous être le stagiaire affecté à la copie et au collage de balises dans des champs triés? Non, et personne d’autre non plus. C’est le problème que Glisten résout, en rendant le moteur de vision par ordinateur beaucoup plus sensible au contexte et ses sorties beaucoup plus utiles.

Voici la même image que celle qui pourrait être traitée par le système de Glisten:

Mieux, non?

« Notre réponse API sera en fait, le décolleté est cette, la couleur est cette, le motif est cette», A déclaré Wooders.

Ce type de données structurées peut être connecté beaucoup plus facilement à une base de données et interrogé en toute confiance. Les utilisateurs (pas nécessairement les consommateurs, comme Wooders l’expliquera plus loin) peuvent mélanger et assortir, sachant que lorsqu’ils disent «manches longues», le système a en fait examiné la manches du vêtement et déterminé qu’ils sont longue.

Le système a été formé sur une bibliothèque croissante d’environ 11 millions d’images de produits et de descriptions correspondantes, que le système analyse à l’aide d’un traitement en langage naturel pour comprendre ce qui fait référence à quoi. Cela donne des indices contextuels importants qui empêchent le modèle de penser que «formel» est une couleur ou «mignon» est une occasion. Mais vous auriez raison de penser que ce n’est pas aussi simple que de brancher les données et de laisser le réseau le comprendre.

Voici une sorte de version idéalisée de son apparence:

« Il y a beaucoup d’ambiguïté en termes de mode et c’est certainement un problème », a admis Wooders, mais loin d’être insurmontable. «Lorsque nous fournissons la sortie à nos clients, nous attribuons en quelque sorte à chaque attribut un score. Donc, si c’est ambigu, que ce soit un col rond ou un col rond, si l’algorithme fonctionne correctement, il mettra beaucoup de poids sur les deux. Si ce n’est pas sûr, cela donnera un score de confiance inférieur. Nos modèles sont formés sur l’ensemble de la façon dont les gens étiquetent les choses, vous obtenez donc une moyenne de l’opinion des gens. « 

Le modèle était initialement destiné à la mode et aux vêtements en général, mais avec les bonnes données de formation, il peut également s’appliquer à de nombreuses autres catégories – les mêmes algorithmes pourraient trouver les caractéristiques déterminantes des voitures, des produits de beauté, etc. Voici à quoi cela pourrait ressembler pour une bouteille de shampoing – au lieu de manches, coupez et occasionnez vous avez du volume, le type de cheveux et la teneur en paraben.

Bien que les acheteurs verront probablement les avantages de la technologie de Glisten à temps, la société a constaté que ses clients sont en réalité à deux pas du point de vente.

«Ce que nous avons réalisé au fil du temps, c’est que le bon client est le client qui ressent le point douloureux d’avoir des données de produit peu fiables et en désordre», a expliqué Wooders. « Ce sont principalement des entreprises technologiques qui travaillent avec des détaillants. Notre premier client était en fait une entreprise d’optimisation des prix, un autre était une entreprise de marketing numérique. Ce sont en dehors de ce que nous pensions que les applications seraient. « 

Cela a du sens si vous y réfléchissez. Plus vous en savez sur le produit, plus vous disposez de données en corrélation avec les comportements, les tendances des consommateurs, etc. Connaître les robes d’été revient, mais connaître les motifs floraux bleus et verts à manches 3/4 revient mieux.

Les cofondateurs de Glisten, Sarah Wooders (à gauche) et Alice Deng

La concurrence est principalement constituée d’équipes d’étiquetage internes (l’examen manuel que nous avons établi qu’aucun d’entre nous ne souhaite faire) et d’algorithmes de vision par ordinateur à usage général, qui ne produisent pas le type de données structurées que Glisten produit.

Même devant Y Combinator le jour de la démo la semaine prochaine, la société voit déjà cinq chiffres de revenus récurrents mensuels, avec son processus de vente limité à la sensibilisation individuelle des personnes qu’elle jugerait utiles. « Il y a eu une quantité folle de ventes ces dernières semaines », a déclaré Wooders.

Bientôt, Glisten alimentera de nombreux moteurs de recherche de produits en ligne, mais idéalement, vous ne le remarquerez même pas – avec de la chance, vous trouverez simplement ce que vous cherchez beaucoup plus facilement.

(Cet article avait à l’origine Alice Deng cité tout au long alors que c’était Wooders tout le temps – une erreur dans mes notes. Il a également été mis à jour pour mieux refléter que le système est applicable aux produits au-delà de la mode.)

WTF est la vision par ordinateur?

Traduit de l’anglais de https://techcrunch.com/2020/03/13/glisten-uses-computer-vision-to-break-down-fashion-photos-to-their-styles-and-parts/

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.