Introduction

Gojob a été fondé avec l'objectif que l'intelligence artificielle (IA) puisse non seulement accélérer les processus de recrutement (en particulier la partie qui met en relation les candidats et les offres d'emploi : le matching), mais aussi minimiser l'injustice des processus actuels de recrutement et de mise en relation. Pour y parvenir, les décisions prises par nos algorithmes doivent être méthodologiquement et scientifiquement rigoureuses et fondées sur des preuves. Notre effort de recherche n'était pas uniquement axé sur les algorithmes destinés à améliorer la performance de matching, mais également sur le développement d'algorithmes complémentaires qui agissent comme des garde-fous pour minimiser l'injustice et la discrimination.

Lorsqu'un processus de ressources humaines, quel que soit son niveau d'automatisation, fait un mauvais travail de matching ou de recrutement, les conséquences peuvent être dramatiques pour les candidats devenus employés (ou non). Ils peuvent éprouver de la détresse, des problèmes de santé mentale et de mauvaises performances professionnelles[^1]. Une autre conséquence de l'inadéquation entre un candidat et un poste à ne pas négliger est l'augmentation des coûts financiers pour l'employeur[^2].

En tant qu'agence d'intérim utilisant l'IA pour optimiser son processus de recrutement et le rendre aussi équitable que possible, Gojob a développé une solution d'apprentissage automatique de matching consistant en un algorithme capable d'identifier les travailleurs temporaires les plus pertinents pour une demande donnée du client (c'est-à-dire une offre d'emploi). Notre algorithme est un outil pour les recruteurs internes afin de les aider à pourvoir des besoins spécifiques en RH le plus rapidement et le plus précisément possible. Quatre principes sont au cœur de notre effort de recherche et de développement :

  1. effectuer les recommandations les plus pertinentes et les plus responsables pour correspondre à une description de poste spécifique ;
  2. le faire dans le temps le plus court ;
  3. s'assurer que l'algorithme traite l'ensemble de données le plus à jour ;
  4. faire en sorte que les trois étapes précédentes soient menées de manière équitable et inclusive.

C'est pourquoi notre principal objectif est de donner à chaque travailleur/candidat de notre base de données les mêmes chances d'être recruté, quel que soit son âge, son sexe et son origine, pour autant qu'il corresponde le mieux à l'offre d'emploi en termes de compétences, d'expérience professionnelle et de formation. Dans notre approche, les caractéristiques clés devraient être les expériences professionnelles et la motivation du travailleur, cette dernière étant évaluée grâce à une combinaison de traitement automatique du langage naturel et de caractéristiques cognitives intégrées dans notre algorithme. Il est donc crucial de vérifier si nos modèles mathématiques prennent des décisions et font des prédictions basées sur la pertinence et la qualité d'une demande et non sur d'autres critères qui peuvent être corrélés ou confondus. Un algorithme ne doit pas seulement être considéré à la lumière de ses performances et de ses résultats selon un ensemble donné de mesures, mais aussi en fonction du contexte dans lequel ses résultats (c'est-à-dire la décision qu'il prend) sont utilisés.

Vers une technologie responsable de gestion des ressources humaines

Exiger la transparence algorithmique est nécessaire mais difficile à mettre en œuvre. L'une des raisons en est la tension évidente entre, d'une part, les entreprises qui souhaitent protéger la propriété intellectuelle qui a nécessité des millions de dollars investis dans la recherche et le développement et, d'autre part, le besoin moral et légal de transparence et de responsabilité[^3],[^4].

Un nombre important d'entreprises a pris des mesures proactives non seulement pour introduire des principes et des lignes directrices[^5],[^6],[^7] lorsqu'il s'agit d'utiliser l'IA, mais aussi pour les rendre opérationnels (par exemple, la société Microsoft). Bien qu'il n'y ait pas de réel consensus concernant la manière dont ces principes sont présentés ou mis en œuvre, ils devraient impliquer des principes épistémiques et des principes éthiques plus généraux[^3]. Pourtant, bien que les entreprises s'engagent (sincèrement ou à des fins d'atténuation des risques de relations publiques) à respecter les principes de l'IA responsable, il n'existe pas encore de norme guidant le chemin des principes à la mise en œuvre et à la réglementation.

Fait intéressant, et heureusement, l'IA responsable est devenue un business au sein des entreprises. Des sociétés de services professionnels proposent d'aider les entreprises à mettre en œuvre les principes de l'IA responsable[^8], et des solutions technologiques spécifiques sont désormais disponibles pour aider les entreprises, comme Credo AI qui propose "une plateforme de gouvernance de bout en bout pour gérer la conformité et mesurer les risques pour vos déploiements d'IA à l'échelle".

Il convient de noter que, parce qu'elles font l'objet d'une surveillance constante de la part de l'opinion publique, des médias et des autorités réglementaires, les grandes entreprises technologiques ont fait des efforts importants (et visibles) pour adopter et, la plupart du temps, mettre en œuvre des principes d'IA responsable. Ces initiatives, bien qu'elles prennent de l'ampleur, ne sont pas encore généralisées dans l'écosystème des startups mais deviennent lentement et sûrement la norme. Plusieurs petites entreprises font de leur mieux pour essayer de passer sous le radar lorsqu'il s'agit d'IA responsable ou d'évaluation de la réalité de leurs solutions d'IA. Il existe par exemple un problème de "fausse IA" où des entreprises prétendent développer des solutions d'IA alors qu'elles ne le font pas[^9]. Il ne s'agit pas seulement d'une position insoutenable d'un point de vue commercial, mais aussi d'un problème éthique et réglementaire majeur.

En avril 2021, la Commission européenne (CE) a publié la proposition 2021/0106(COD) intitulée "Établissement de règles harmonisées en matière d'intelligence artificielle (loi sur l'intelligence artificielle) et modification de certains actes législatifs de l'Union"[^10]. Ce que l'on appelle la "loi sur l'intelligence artificielle de la CE" a été publiée pour :

  1. garantir que les systèmes d'IA mis sur le marché de l'Union et utilisés sont sûrs et respectent la législation existante sur les droits fondamentaux et les valeurs de l'Union ;
  2. garantir la sécurité juridique pour faciliter l'investissement et l'innovation dans l'IA ;
  3. renforcer la gouvernance et l'application effective de la législation existante sur les droits fondamentaux et les exigences de sécurité applicables aux systèmes d'IA ;
  4. faciliter le développement d'un marché unique pour les applications d'IA légales, sûres et dignes de confiance et prévenir la fragmentation du marché.

Parmi les nombreux points soulevés, la transparence de "certains" systèmes d'IA est mise en avant, ainsi que des lignes directrices pour la gouvernance et la mise en œuvre, sans pour autant empêcher l'innovation. L'effort de la CE est à soutenir, et semble prendre de l'ampleur à l'étranger. Par exemple, en novembre 2010, la directrice américaine de l'initiative nationale sur l'IA au bureau de la politique scientifique et technologique de la Maison Blanche, alors qu'elle s'exprimait lors d'un événement organisé par le magazine Fortune, a laissé entendre que les États-Unis devaient modeler l'approche européenne en matière de réglementation de l'IA[^11]. Aux États-Unis, en 2021, des projets de loi sur l'intelligence artificielle ont été introduits dans dix-sept États et promulgués dans quatre d'entre eux[^12].

Un processus équitable fondé sur des données

La simple définition de l'équité ne fait pas l'objet d'un consensus dans tous les domaines académiques qui l'ont étudiée et ont tenté d'aborder le sujet au cours des siècles passés. La forte dépendance de (la perception de) l'équité par rapport au contexte rend d'autant plus compliqué pour toutes les parties prenantes de la gestion des ressources humaines de créer ou d'acheter des solutions équitables basées sur l'IA.

Le Cambridge Dictionary donne la définition suivante de l'équité en tant que substantif : "La qualité de traiter les gens de manière égale ou d'une manière qui est juste ou raisonnable". Cependant, le résultat de cette recherche très simple ne tient pas compte du caractère multidimensionnel de l'équité qui ne peut être simplement expliqué dans les termes fournis par cette définition.

Mehrabi et al.[^13] définissent l'équité comme "l'absence de tout préjugé ou favoritisme à l'égard d'un individu ou d'un groupe en fonction de ses caractéristiques inhérentes ou acquises". Bien sûr, il existe de nombreuses autres définitions de l'équité, mais d'un point de vue opérationnel, dans notre vie quotidienne, l'équité est souvent une perception et une appréciation personnelle que l'on a de la justesse d'une situation ou d'une décision, à un moment donné et dans un contexte social donné [^14]. Comme la beauté - ou de nombreux autres jugements que nous portons au quotidien - l'équité est dans l'œil (en fait le cerveau) de celui qui regarde. Il existe donc un haut niveau de variabilité intrapersonnelle et interpersonnelle lorsqu'il s'agit de déterminer si une décision est équitable, par exemple[^15],[^17] La raison en est que, comme beaucoup d'autres choses dans nos vies, l'appréciation de l'équité est modulée par une multitude de facteurs contextuels, tels que les différences culturelles, le niveau d'éducation ou même le sexe ou l'âge pour n'en citer que quelques-uns.

L'équité était une question philosophique et sociologique avant de devenir une question technologique. Son étude et sa mise en œuvre dans le cadre de l'IA est formalisée par la définition d'un ensemble de règles et d'équations permettant sa quantification et sa vérification. Ne pas inclure des informations telles que le sexe, l'âge ou le pays de naissance pourrait, dans certains cas, contribuer à améliorer l'équité des résultats, en théorie. Cependant, dans certains cas, tels que les règles de classification ou d'association, l'exclusion de ces éléments d'information sur le candidat s'est avérée inefficace pour produire des résultats équitables[^18]. En fait, seules quelques métriques[^19] sont particulièrement utilisées : la parité prédictive[^20], la parité démographique et les chances égalisées[^21]. Pouvoir contrôler les trois caractéristiques susmentionnées s'avère non seulement très difficile, mais peut être contre-productif, comme l'illustre Kleinberg et al.[^22] qui a fourni des preuves statistiques de leur exclusion mutuelle dans la plupart des cas.

Analyse des biais

Chez Gojob, notre mission est de donner accès à l'emploi à ceux qui veulent travailler, et de leur offrir la possibilité de s'épanouir en acquérant de nouvelles compétences, indépendamment de leur âge, de leur sexe, de leur origine, de leur éducation ou encore de leur niveau d'expérience professionnelle. La non-discrimination et les possibilités limitées d'apprentissage sont des problèmes majeurs auxquels les cols bleus sont confrontés au quotidien.

Dans ce contexte, nous voulons nous assurer qu'aucun groupe particulier n'est discriminé par nos modèles mathématiques et nos algorithmes. Notre base de données propriétaire est constituée de candidatures faites par des travailleurs temporaires en France qui postulent volontairement et de leur plein gré à des emplois. L'élément atomique est composé de l'ensemble des attributs relatifs à un travailleur temporaire, de l'ensemble des informations relatives à la description du poste auquel le candidat pourrait (ou voudrait) postuler et d'un label qui décrit le résultat de la candidature (1 si le travailleur a été recruté, 0 sinon). Nous nous sommes également intéressés à des attributs sensibles tels que le sexe, la nationalité, le pays de naissance, la nécessité d'un permis de séjour (nécessaire pour les ressortissants étrangers travaillant sur le sol français) et l'éducation (certains travailleurs ont déclaré une éducation, mais d'autres non).

Par exemple, notre hypothèse est que les demandeurs qui ont besoin d'un permis de séjour sont plus susceptibles d'être affectés négativement par le modèle en raison d'un éventuel biais dans notre base de données. Il en va de même pour les autres attributs sensibles. Par conséquent, nous utilisons des variables fictives pour catégoriser ce que nous supposons être un groupe de candidats qui serait "favorisé" par l'algorithme, par opposition au groupe qui serait "discriminé" :

  • genre : homme ou femme ;
  • nationalité : Nationalité française ou non ;
  • lieu de naissance : né en France ou non ;
  • éducation : a déclaré un niveau d'éducation ou non ;
  • titre de séjour requis : peut travailler sans titre de séjour ou doit en avoir un ;
  • 18-25 ans : appartient à la tranche d'âge 18--25 ans ou non ;
  • 25-35 ans : appartient à la tranche d'âge 25--35 ans ou non ;
  • 35-45 ans : appartient à la tranche d'âge 35--45 ans ou non ;
  • 45-55 ans : appartient à la tranche d'âge 45--55 ans ou non.

Nous avons effectué une analyse de ces attributs sensibles pour évaluer l'équité des résultats fournis par notre modèle en utilisant le cadre de l'égalité des chances tel que défini par la boîte à outils FairLearn. Avant d'implémenter un algorithme équitable, nous avons analysé les données pour observer les éventuels biais ou la sous-représentation de certaines catégories.

Notre objectif est de pouvoir identifier des dépendances injustifiées entre le groupe de résultats et certains attributs sensibles dans notre ensemble de données. Les candidates (femme), par exemple, ont historiquement moins tendance à voir leur candidature approuvée que les candidats (homme). Il en va de même pour les autres attributs mentionnés précédemment. Le lecteur est invité à garder à l'esprit que cette première étape n'a pas pour but d'analyser le modèle ni ses conséquences, mais bien de mettre en évidence des injustices dans l'ensemble de données. Pour la partie analyse des données, nous calculons deux scores qui nous permettent d'apprécier la disparité et la parité des recrutements. Nous définissons un attribut sensible AA qui indique l'appartenance à un groupe considéré comme discriminé et Aˉ\bar{A} l'appartenance au groupe privilégié. En considérant la variable Y pour décrire le résultat de la candidature du travailleur, nous avons d'abord calculé, pour chaque attribut, le Disparate Impact sur les données :

Disparate Impact=P(Y=1A)P(Y=1Aˉ)Disparate~Impact = \frac{\mathbf{P}(Y = 1 \mid A)}{\mathbf{P}(Y = 1 \mid \bar{A})}

Cette formule exprime une comparaison entre deux probabilités : i) la probabilité qu'un membre du groupe discriminé ait le résultat favorable (être recruté dans notre cas) ; ii) la probabilité qu'un membre du groupe favorisé ait le résultat favorable. L'autre formule que nous utilisons est la parité statistique :

Statistical Parity=P(Y=1A)P(Y=1Aˉ)Statistical~Parity = \mathbf{P}(Y= 1 \mid A) - \mathbf{P}(Y= 1 \mid \bar{A})

L'utilisation à la fois de l'impact différencié et de la parité statistique offre une vision plus large et nous permet de trouver des effets qui peuvent être cachés par la distribution des données.

Compte tenu de ces équations, il n'existe pas de seuil prédéterminé (ni par la loi ni par les règlements) pour lequel une observation est considérée comme biaisée ou non. Feldman et al.[^23] soutient qu'un impact discriminatoire correct ne devrait pas être inférieur à 0,8 et pas supérieur à 1,25. Ces limites sont basées sur la "règle des 80 %" recommandée par la U.S. Equal Employment Opportunity Commission sur les directives uniformes sur les procédures de sélection des employés en 1979. En ce qui concerne la Parité Statistique, en l'absence d'un seuil bien défini dans la littérature scientifique, nous considérons qu'un écart de -0.1 est trop important pour ne pas être pris en compte dans le domaine du recrutement. Par exemple, cela pourrait signifier qu'un homme aurait 10% de plus de chance d'avoir une candidature validée. Le tableau suivant présente ces deux scores pour tous les attributs sensibles que nous avons étudiés.

| Attributs | Disparate Impact | Statistical Parity | | -------------------- | :----------------: | :------------------: | | genre | 0.98 | -0.01 | | 18-25 ans | 1.06 | 0.04 | | 25-35 ans | 1.03 | 0.02 | | 35-45 ans | 0.97 | -0.02 | | 45-55 ans | 0.87 | -0.09 | | titre de sejour | 0.72 | -0.19 | | éducation | 0.82 | -0.11 | | nationalité | 0.66 | -0.24 | | lineu de naissance | 0.78 | -0.17 |

Nous pouvons constater qu'il n'y a pas de déséquilibre clair en ce qui concerne l'âge ou le sexe. Pour ces variables, l'impact discriminatoire est assez proche de 11 et la parité statistique est proche de 00. Cela signifie qu'il n'y a pas de forte sous-représentation des femmes parmi les demandes approuvées par rapport aux hommes, et vice versa. Si l'on considère la nationalité, par exemple, l'Impact Disparate est particulièrement faible et la Parité Statistique est particulièrement loin en dessous de zéro. Cela montre que la fréquence des demandes approuvées pour les personnes qui ne sont pas françaises est significativement plus faible que pour les Français. Nous pourrions donner la même description pour d'autres variables telles que le fait d'être né en France, l'éducation et le fait que la personne ait besoin d'un permis de séjour.

Ici, nous voyons clairement que la distribution de l'étiquette n'est pas la même pour tous les attributs sensibles. Les personnes supposées être le groupe favorisé (les personnes de nationalité française) bénéficient généralement de l'issue préférée, tandis que les demandeurs étrangers obtiennent l'issue préférée environ la moitié du temps.

A partir de cette analyse et de l'examen de nos données, nous avons trouvé des biais et une sous-représentation qui sont présents non pas pour toutes mais pour quelques unes des variables définies (exigence de titre de séjour, éducation, nationalité et lieu de naissance). Nos données sont basées sur des événements précis et sont uniquement destinées à décrire le comportement humain. Cela ne signifie pas qu'un modèle entraîné sur ces données générera des règles discriminatoires, puisque le modèle n'est pas informé des attributs sensibles. Nous pensons cependant que cette approche représente une méthodologie appropriée pour comprendre les données. Nous pouvons également observer la dépendance entre le label et l'attribut sensible.

Un ensemble de lignes directrices (techniques) en matière d'équité

Lorsqu'il s'agit de tâches d'apprentissage supervisé dans un contexte de gestion des ressources humaines, la métrique de l'égalité des chances est considérée comme la plus pertinente par la littérature scientifique[^21]. Si Y^\hat{Y} est un prédicteur binaire du résultat d'une candidature de travailleur et YY la vérité terrain associée, nous considérons la classe 1 comme le résultat préféré dans la tâche de classification (le travailleur a été recruté). Étant donné un attribut sensible AA indiquant l'appartenance à un groupe considéré comme discriminé et Aˉ\bar{A} l'appartenance au groupe favorisé, Y^\hat{Y} est considéré comme une égalité des chances par rapport à l'attribut sensible AA si :

P(Y^=1Y=1,A)=P(Y^=1Y=1,Aˉ)\mathbf{P}\left(\hat Y=1 \mid Y=1, A \right) = \mathbf{P}\left(\hat Y=1 \mid Y=1, \bar{A} \right)

Cette équation pourrait également être écrite en termes d'une autre métrique statistique : le taux de vrais positifs (True Positive Ratio - TPRTPR). Étant donné le nombre de vrais positifs (True Positive - TPTP) et le nombre de faux négatifs (False Negative - FNFN), on calcule le TPRTPR comme suit : TPR=TPTP+FNTPR =\frac{TP}{TP+FN}. Ce qui nous donne comme nouvelle formulation de l'équation :

TPRAˉ=TPRATPR_{\bar{A}} = TPR_{A}

Nous pouvons donc définir le True Positive Ratio Parity (TPRP) comme :

TPRP=TPRAˉTPRATPRP = \mid TPR_{\bar{A}} - TPR_{A}\mid

Cette métrique particulière présente quelques avantages :

  1. Elle permet à la solution parfaitement exacte d'être juste, alors que la métrique de parité démographique pourrait décrire les données exactes comme inappropriées. Ce fait n'aurait pas de sens dans le contexte de notre travail, puisque nous formons un modèle pour approcher la vérité de terrain.

  2. Il compare la capacité du modèle à travers les groupes à sélectionner des profils pertinents.

  3. Il pénalise le modèle qui a de bonnes performances sur le groupe majoritaire.

Le deuxième point ci-dessus est particulièrement important dans un contexte de correspondance d'emploi et de recrutement. Par exemple, un agent recruteur préfère sélectionner trop de candidats plutôt que trop peu. Si le taux de vrais positifs pour les hommes était vraiment élevé par rapport au taux de vrais positifs pour les femmes, alors le modèle sélectionnerait les profils pertinents parmi les hommes avec plus de précision que parmi les femmes. Ou bien, le modèle sélectionnerait plus souvent des profils masculins non pertinents que des profils féminins non pertinents. Utiliser cette définition de l'équité revient en fait à exiger la non-discrimination uniquement dans le cadre du résultat préféré. On voit que cette vision de l'équité est plus qu'une équation probabiliste car elle est liée à une idéologie ou à une conviction philosophique. Le TPRPTPRP n'est pas un concept normalisé, et nous sommes conscients (biais vers ce que nous considérons) qu'une approche méritocratique est donc privilégiée.

L'idéal serait de fixer un seuil ou une valeur de référence pour cette métrique. Un "seuil d'alerte" auquel nous comparerions nos évaluations. Cependant, pour autant que nous le sachions, il n'existe pas de recommandation ou de manuel clair dans la littérature sur la valeur à considérer. Nous avons donc choisi la nôtre de manière quelque peu arbitraire, mais en nous basant sur notre propre expérience. Le seuil lui-même vise à garantir qu'aucun groupe ne soit lésé de manière disproportionnée. Une telle valeur de parité de taux de vrais positifs répond à la question suivante : "Si nous ne considérons que les applications pertinentes, à quelle fréquence prédisons-nous correctement ceux qui appartiennent à un groupe AA par rapport à un groupe BB ?".

Évaluation de l'équité

Après avoir traité nos données, nous passons à l'évaluation de l'impact de notre modèle. Nous avons examiné comment le modèle se comporte en fonction de la définition de l'équité de l'égalité des chances. Afin d'avoir une vue plus large sur le comportement du modèle, nous avons choisi d'utiliser une validation croisée double pour réduire le caractère aléatoire. Nous avons donc calculé la parité moyenne du taux de vrais positifs.

Comme l'illustre le tableau suivant, notre modèle ne prend pas de décisions indésirables afin d'obtenir un résultat juste.

| Attributs | True Positive Rate Parity | | :------------------- | :-------------------------: | | genre | 3.50 | | nationalité | 3.53 | | lieu de naissance | 4.54 | | éducation | 3.98 | | titre de résidence | 2.77 | | 18-25 ans | 0.90 | | 25-35 ans | 0.70 | | 35-45 ans | 0.25 | | 45-55 ans | 0.97 |

Nous pouvons également observer que les différentes valeurs de TPRPTPRP atteignent un maximum de 4,54 pour l'attribut définissant si le travailleur est français ou non. Comme mentionné précédemment, nous n'avons pas de seuil clair concernant cette métrique. Ceci dit, une vision binaire où un côté d'un seuil serait juste, et l'autre côté faux n'est pas nécessairement pertinente. Par exemple, il s'agit plutôt de s'assurer qu'aucun groupe n'est lésé ou désavantagé de manière disproportionnée par rapport à un autre. Tous les scores TPRPTPRP obtenus en sortie de notre modèle sont inférieurs à 5%. Grâce à notre connaissance du métier d'embauche et à notre interaction avec des recruteurs internes expérimentés, nous considérons ce seuil comme une bonne base de référence pour les itérations futures du modèle au cœur de notre solution d'apprentissage automatique. Ainsi, chaque évolution du modèle visant à améliorer ses performances pour la tâche de matching sera évaluée a posteriori et ne devrait pas dépasser ce seuil de 5% de TPRPTPRP pour chaque attribut sensible.

Atténuation des injustices

Dans notre approche du développement d'algorithmes équitables, nous avons adopté les directives générales en matière d'équité et d'éthique de l'intelligence artificielle[^24], mais nous avons également dû envisager des techniques d'atténuation. Plusieurs approches ont déjà été présentées.

Hardt et al.[^21] a proposé de réaliser l'égalité des chances en dérivant un prédicteur donné. Une telle approche présente des avantages intéressants, notamment le fait d'être insensible au modèle et de se concentrer sur l'optimisation des résultats de l'égalité des chances tout en conservant une fonction de perte intéressante par rapport au prédicteur dont elle est dérivée. Mais elle nécessite également d'inclure constamment l'attribut sensible à chaque étape. Ce n'est pas idéal pour nous puisque nous avons de nombreuses valeurs manquantes dans l'application réelle de notre modèle. Des interventions de prétraitement ont été proposées pour transformer les données afin de réduire les corrélations[^25],[^23]. Cependant, ces techniques sont destinées à atténuer tout excès dans la parité des taux de vrais positifs et ne sont pas les plus pertinentes lorsqu'on considère une définition de l'égalité des chances.

Agarwal et al.[^26] ont introduit une approche prometteuse. L'algorithme du gradient exponentiel pour la réduction des injustices semble être le plus pertinent en ce qui nous concerne. Le modèle donne de bons résultats pour une tâche de classification. De plus, cette méthode a l'avantage de ne nécessiter l'attribut sensible que dans la partie formation. Cette approche est particulièrement intéressante dans un contexte où nous sommes concernés par des problèmes et des enjeux de déploiement.

Le problème qui demeure est que nous avons toujours besoin de l'attribut sensible dans notre processus. Par conséquent, la mise en œuvre et le déploiement de cette approche dans nos pipelines d'apprentissage automatique impliquerait d'entraîner le modèle sur un fragment de notre base de données uniquement. Cela ne serait pas cohérent avec l'un des principaux objectifs de la justice de l'apprentissage automatique : la diversité[^27]. Ignorer les valeurs manquantes revient à réduire la diversité car les instances avec des valeurs manquantes pourraient décrire une utilisation particulière de notre produit ou porter des informations inhérentes aux groupes. Par conséquent, quelle que soit la définition de l'équité que l'on choisit, il est important de prendre de l'avance sur les parties modélisation et prédiction, en incluant des opinions diverses dans la conception du produit et en récupérant des données complètes sur une large couverture de population. Nous devons disposer d'observations sur différents individus ayant des usages différents, tant que certains profils peuvent être discriminés par le produit.

Conclusion

Dans le contexte de la gestion des ressources humaines, nous avons présenté une approche de la recherche et du développement d'algorithmes d'intelligence artificielle qui peuvent prédire qui est le meilleur candidat pour une offre d'emploi donnée tout en contrôlant l'équité des résultats de nos algorithmes. Nous avons identifié des biais dans le processus qui ont conduit à un traitement différencié des individus (certains étant favorisés, d'autres discriminés) ainsi que des biais concernant certaines informations sensibles telles que la possession d'un permis de séjour, un certain niveau d'éducation et un certain lieu de naissance.

À la lumière de ces préjugés, nous avons introduit dans notre solution de gestion des ressources humaines des paramètres permettant d'évaluer le niveau d'injustice et de corriger le résultat pour le rendre équitable. Ce que nous avons fait, c'est intégrer dans notre processus d'automatisation basé sur l'IA des garanties algorithmiques qui signalent les préjugés possibles (théorie) et les préjugés mesurés (résultats) afin que les décisions prises par notre algorithme d'apprentissage automatique chargé d'automatiser l'adéquation entre les candidats et les offres d'emploi soient aussi équitables que possible, ou à minima moins injustes.

Il s'agit de la première étape d'une série de phases de R&D où, quelle que soit la tâche à automatiser, l'équité sera mesurée, et les résultats algorithmiques seront corrigés si nos algorithmes de sauvegarde estiment que l'équité n'est pas respectée. Cela permet non seulement de garantir un niveau plus élevé d'équité dans les résultats fournis par nos algorithmes, mais aussi d'améliorer leur transparence et leur explicabilité dans les décisions qu'ils prennent.


Traduction partielle de l'article : Sebastien Delecraz, Loukman Eltarr, Martin Becuwe, Henri Bouxin, Nicolas Boutin, and Olivier Oullier. 2022. Making Recruitment More Inclusive: Unfairness Monitoring With A Job Matching Machine-Learning Algorithm. In International Workshop on Equitable Data and Technology (FairWare '22), May 9, 2022, Pittsburgh, PA, USA. ACM, New York, NY, USA, 8 pages.


Références

[^1]: GA Fordjour, APC Chan, and AA Fordjour. 2020. Exploring potential predictors of psychological distress among employees: A systematic review. Int J Psychiatr Res 2, 7 (2020), 1-11. DOI:https://doi.org/10.33425/2641-4317.1047

[^2]: Shigeru Fujita and Garey Ramey. 2007. Job matching and propagation. Journal of Economic Dynamics and Control 31, 11 (2007), 3671-3698. DOI:https://doi.org/10.1016/j.jedc.2006.12.008

[^3]: Céline Castets-Renard. 2020. The intersection between AI and IP: Conflict or complementarity? DOI:https://doi.org/10.1007/s40319-020-00908-z

[^4]: Stuart P. Meyer and Grace Fernandez. 2019. A looming AI war: Transparency v. IP rights. Retrieved from https://www.fenwick.com/insights/publications/intellectual-property-bulletin-summer-2019

[^5]: Ilana Golbin and Maria Luciana Axente. 2021. 9 ethical AI principles for organizations to follow. Retrieved from https://www.weforum.org/agenda/2021/06/ethical-principles-for-ai/

[^6]: Jerome Pesenti. 2021. Facebook's five pillars of responsible AI. Retrieved from https://ai.facebook.com/blog/facebooks-five-pillars-of-responsible-ai/

[^7]: Sundar Pichai. 2018. Artificial intelligence at google: Our principles. Retrieved from https://ai.google/principles/

[^8]: Steven Mills, Elias Baltassis, Maximiliano Santinelli, Cathy Carlisi, Sylvain Duranton, and Andrea Gallego. 2020. Six steps to bridge the responsible AI gap. Retrieved from https://mkt-bcg-com-public-pdfs.s3.amazonaws.com/prod/six-steps-for-socially-responsible-artificial-intelligence.pdf

[^9]: Ron Schmelzer. 2020. Artificial or human intelligence? Companies faking AI. Retrieved from https://www.forbes.com/sites/cognitiveworld/2020/04/04/artificial-or-human-intelligence-companies-faking-ai

[^10]: European Commision. 2021. Laying down harmonized rules on artificial intelligence (artificial intelligence act) and amending certain union legislative acts. Retrieved from https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52021PC0206

[^11]: Dan Reilly. 2021. White house a.i. Director says u.s. Should model europe's approach to regulation. Retrieved from https://fortune.com/2021/11/10/white-house-a-i-director-regulation

[^12]: National Conference of State Legislature. 2021. Legislation related to artificial intelligence. Retrieved from https://www.ncsl.org/research/telecommunications-and-information-technology/2020-legislation-related-to-artificial-intelligence.aspx

[^13]: Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, and Aram Galstyan. 2021. A survey on bias and fairness in machine learning. ACM Computing Surveys (CSUR) 54, 6 (2021), 1-35. DOI:https://doi.org/10.1145/3457607

[^14]: Belete Getnet, Tariku Jebena, and Assefa Tsegaye. 2014. The effect of employees' fairness perception on their satisfaction towards the performance appraisal practices. International Journal of Management and Commerce Innovations 2, 1 (2014), 174-210. DOI:https://doi.org/10.13140/RG.2.2.15768.96004

[^15]: Luo Jun and Chen Yefeng. 2015. Human prosocial behavior and its context-dependence. Academic Monthly 47, (2015), 15-19.

[^17]: Abhijit Ramalingam. 2010. On the context dependence of agents' social preferences. PhD thesis. Indiana University.

[^18]: Dino Pedreshi, Salvatore Ruggieri, and Franco Turini. 2008. Discrimination-aware data mining. In Proceedings of the 14th ACM SIGKDD international conference on knowledge discovery and data mining (KDD '08), Association for Computing Machinery, New York, NY, USA, 560-568. DOI:https://doi.org/10.1145/1401890.1401959

[^19]: Alessandro Castelnovo, Riccardo Crupi, Greta Greco, and Daniele Regoli. 2021. The zoo of fairness metrics in machine learning. arXiv preprint arXiv:2106.00467.

[^20]: Sahil Verma and Julia Rubin. 2018. Fairness definitions explained. In Proceedings of the international workshop on software fairness (FairWare '18), Association for Computing Machinery, New York, NY, USA, 1-7. DOI:https://doi.org/10.1145/3194770.3194776

[^21]: Moritz Hardt, Eric Price, and Nathan Srebro. 2016. Equality of opportunity in supervised learning. In Proceedings of the 30th international conference on neural information processing systems (NIPS'16), Curran Associates Inc., Red Hook, NY, USA, 3323-3331.

[^22]: Jon Kleinberg, Sendhil Mullainathan, and Manish Raghavan. 2017. Inherent Trade-Offs in the Fair Determination of Risk Scores. In 8th innovations in theoretical computer science conference (ITCS 2017) (Leibniz international proceedings in informatics (LIPIcs)), Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik, Dagstuhl, Germany, 43:1-43:23. DOI:https://doi.org/10.4230/LIPIcs.ITCS.2017.43

[^23]: Michael Feldman, Sorelle A. Friedler, John Moeller, Carlos Scheidegger, and Suresh Venkatasubramanian. 2015. Certifying and removing disparate impact. In Proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining (KDD '15), Association for Computing Machinery, New York, NY, USA, 259-268. DOI:https://doi.org/10.1145/2783258.2783311

[^24]: Thilo Hagendorff. 2020. The ethics of AI ethics: An evaluation of guidelines. Minds and Machines 30, 1 (2020), 99-120. DOI:https://doi.org/10.1007/s11023-020-09517-8

[^25]: Flavio P. Calmon, Dennis Wei, Bhanukiran Vinzamuri, Karthikeyan Natesan Ramamurthy, and Kush R. Varshney. 2017. Optimized pre-processing for discrimination prevention. In Proceedings of the 31st international conference on neural information processing systems (NIPS'17), Curran Associates Inc., Red Hook, NY, USA, 3995-4004.

[^26]: Alekh Agarwal, Alina Beygelzimer, Miroslav Dudik, John Langford, and Hanna Wallach. 2018. A reductions approach to fair classification. In Proceedings of the 35th international conference on machine learning (Proceedings of machine learning research), PMLR, Stockholm, Sweden, 60-69.

[^27]: Candice Schumann. 2020. Exploring diversity and fairness in machine learning. PhD thesis. University of Maryland, College Park. DOI:https://doi.org/10.13016/0vev-63jr