cat taking a decision - DALLE-E

Quel est l'indice de Gini pour l'apprentissage automatique ?

Temps de lecture : 2 min

Publié : janvier 8, 2023

Mis à jour : janvier 8, 2023

Apprenons avec des illustrations !

L'indice de Gini est utilisé pour les arbres de décision. En effet, comment savoir comment séparer le nœud racine ? Eh bien, il existe plusieurs méthodes, et l'indice de Gini en est une bonne. Il permet de vérifier si les feuilles contenant les étiquettes sont pures ou impures.

C'est vrai, plus les feuilles sont diverses, plus l'indice de Gini est élevé. Pourquoi ? Parce que si, disons, vous voulez recommander un produit à l'aide d'un arbre de décision, vous voulez vous assurer que les feuilles sont les plus homogènes possibles afin que vous puissiez avoir confiance en votre proposition.

two decisions trees with colored dots

Formule

En observant, on peut penser que la caractéristique A donne des feuilles avec moins de diversité, donc un meilleur score, car on a 3 cercles violets et deux cercles rouges. Mais vous savez quoi, soyons un peu plus rigoureux.

Donc pour choisir quelle caractéristique nous utilisons comme arbre racine, nous calculons la diversité des feuilles.

Voici la formule :

gini index formula commented (dataset, probability rule (complement), sum of classes, the probability that if we pick two random features out of the dataset, they belong to different classes)

Score

Ensuite, nous comparons la moyenne de chaque arbre et choisissons le chiffre le plus bas. Notre gagnant est l'élément A !

C'est tout !

En tant que débutant en science des données, êtes-vous submergé par tout ce que vous devez mettre dans votre carnet de notes ? Quand et comment faire de l'ingénierie des caractéristiques ou quelles métriques utiliser pour la validation ? Dans ce cas, vous pouvez acheter mon pack de démarrage d'apprentissage automatique par régression pour les débutants sur [Gumroad] (https://assitan.gumroad.com/l/machine-learning-regression-starter-pack-for-beginners) ! Vous pouvez utiliser ce code de réduction de -20% : xsmleqj

Si vous voulez en savoir plus sur la science des données et la programmation avec des illustrations, suivez-moi sur Twitter.

gini index calculated with the mean
Print booksmanning

Écrit par

Avatar of Assitan koné

Assitan Koné

Software engineer senior | ML Engineer. Également diplômée en arts numériques, j'adore expliquer les concepts de data science et de programmation avec des illustrations.

@Assitan_k

Inscrivez-vous. Soyez inspiré.e. Codez.

Tutoriels, illustrations et conseils dans votre boite email.