# Comportement du CMP avec les robots

#### Que sont les bots ?

👉 Les bots sont des applications logicielles qui exécutent des tâches automatisées sur [Internet](https://en.wikipedia.org/wiki/Internet). Ils sont utilisés pour indexer le contenu d'internet ou pour collecter automatiquement des informations sur des sites web.&#x20;

**Certains bots ont des finalités légitimes, tandis que d'autres collectent des données à des fins malveillantes, telles que :**

* Revente de contenu
* Génération de clics
* Baisse artificielle des prix
* Etc.

Comme toute solution web côté client, Didomi est impacté par le trafic de bots qui génère des données “fausses”. Par conséquent, cela peut engendrer des analyses CMP inexactes.&#x20;

**Impact sur les indicateurs d'analyse CMP**

La métrique la plus impactée est le **nombre total d'avis** (avec une augmentation du volume), qui gonfle directement le **taux de rebond des avis** et **taux d'adressabilité** indicateurs de performance.

#### Fournir des données analytiques sans bots

👉 Les bots impactent les données Web, ils génèrent donc de fausses données utilisateur. Ils dégradent le **taux d'adressabilité,** ainsi que le **taux de consentement par page** en augmentant le volume de **rebonds d'avis** et le nombre de **pages vues sans consentement**.

{% hint style="danger" %}
Afin de ne pas détériorer la conformité de vos rapports, nous vous conseillons de ne pas exclure tous les UA (user agents). Ces UA peuvent cacher des bots, mais aussi des utilisateurs qui ont donné leur consentement.&#x20;
{% endhint %}

**Dans ce cas, exclure des UA représente à la fois un risque de conformité et un risque juridique.**

Il existe deux types de bots :

**Bots déclarés** : ils peuvent être détectés grâce à leur user agent (UA). Ils sont exclus avec la méthode de filtrage par user agent. Quelques **exemples** de bots :<br>

* Bots de scraping : programmés pour capturer le contenu hors ligne, tels que les noms, les prix et les détails des produits sur les sites e‑commerce.
* Bots d'exploration : utilisés par de grandes entreprises, comme Google, Yahoo, etc., à des fins d'indexation de contenu.
* Bots de performance/audit : utilisés par des outils de performance web pour réaliser des audits SEO ou évaluer le temps de chargement des pages. Didomi utilise également un bot pour évaluer la conformité des sites web.

**Bots cachés** : ils utilisent des user agents standards et ne peuvent donc pas être identifiés avec la méthode de filtrage par UA.

Une solution/technologie spécialisée est requise pour les détecter puis les exclure des données analytiques.

#### Exemple de user agents

**Bots déclarés**

* Mozilla/5.0 (Macintosh; Intel Mac OS X 10\_15\_7) AppleWebKit/537.36 (KHTML, like Gecko) **TagInspector**/500.1 Chrome/90.0.4430.72 Safari/537.36 Edg/90.0.818.42
* Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) **HeadlessChrome**/85.0.4183.102 Safari/537.36
* Mozilla/5.0 (**iplabel**; Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36

**Éléments** qui ne font pas partie d'un user agent standard.

**User agents des bots cachés**

* Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36
* Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.64

Même si les user agents ci‑dessus sont utilisés par des bots, ils sont également utilisés par des visiteurs réguliers : les user agents ne peuvent pas être exclus.

#### **Faites attention à vos propres bots**

Si vous utilisez des outils pour évaluer la performance de votre site : temps de chargement des pages, audit SEO, etc.&#x20;

Ils utilisent probablement des bots pour le faire. Par conséquent, ils génèrent des données **si** ils ne sont pas identifiés par notre technologie. Vous pouvez :

1. Vérifier les bots que nous détectons ([voir la liste ci‑dessous](#didomis-bot-list)).&#x20;
2. Vérifier avec vos solutions si les bots ont un motif UA.
3. Ajouter les motifs dans votre fonctionnalité personnalisée de gestion des bots.

#### Comportement du CMP avec les bots

⚙️ Par défaut, les bots vont « contourner » la notice de consentement. Et nous considérons que le consentement est déjà donné pour les bots et tous les scripts seront donc exécutés. Ainsi la bannière n'est pas déployée et ne collecte aucun consentement de la part des bots.

➡️ Si vous avez besoin de collecter le consentement pour les bots dans votre Notice de Consentement, vous pouvez suivre [notre collecte de consentement bypass pour les bots](https://developers.didomi.io/cmp/web-sdk/consent-notice/bots).

Vous pouvez ajouter le code JSON à votre notice de consentement dans 2.customization; Advanced settings; Custom JSON.&#x20;

N'oubliez pas que, dans ce cas, la bannière est déployée pour les bots, mais ils ne seront probablement pas en mesure de faire un choix de consentement : il n'y a qu'une notice de consentement avec la chaîne de consentement par défaut. Aucun consentement n'est collecté, le bot ne pourra probablement pas naviguer sur le site.

**Gestion personnalisée des bots, collecte de consentement bypass pour les bots**

👉 Vous pouvez personnaliser directement la gestion des bots avec du json personnalisé dans votre implémentation SDK.&#x20;

Les fonctionnalités offrent les capacités suivantes :

* Définir la catégorie de bots à bloquer
* Ajouter des motifs de user agent (termes) à des fins d'exclusion

[Ici](https://developers.didomi.io/cmp/web-sdk/consent-notice/bots) sont tous les détails dans la documentation développeur.

#### Liste des bots de Didomi

👉 +90 bots sont automatiquement détectés au niveau du CMP et lors du traitement de nettoyage des données. Ci‑dessous les listes des motifs de bots (termes) utilisés pour identifier le trafic de bots. Tous les visiteurs dont le user agent contient les termes suivants sont identifiés comme des bots.

**Bots d'exploration**

Googlebot, adsbot, feedfetcher, mediapartners, bingbot, bingpreview, slurp, linkedin, msnbot, teoma, alexabot, exabot, facebot,  facebook, twitter, yandex, baidu, duckduckbot, qwant, archive, applebot, addthis, slackbot, reddit, whatsapp, pinterest, moatbot, google-xrawler, NETVIGIE, PetalBot, PhantomJS, NativeAIBot, Cocolyzebot, SMTBot, EchoboxBot, Quora-Bot, BLP\_bbot, MAZBot, ScooperBot, BublupBot, Cincraw, HeadlessChrome, diffbot, Google Web Preview, Doximity-Diffbot, Rely Bot, pingbot, cXensebot, PingdomTMS, AhrefsBot, semrush, seenaptic, netvibes, taboolabot, SimplePie, APIs-Google, Google-Read-Aloud, googleweblight, DuplexWeb-Google, Google Favicon, Storebot-Google, TagInspector, Rigor, Bazaarvoice, KlarnaBot, pageburst, naver, iplabel, **plus des termes génériques comme “robot”, “scraper”, “crawler”, “spider”, “crawling” et “oncrawl”.**

**Bots de performance**

Chrome-Lighthouse, gtmetrix, speedcurve, DareBoost, PTST, StatusCake\_Pagespeed\_Indev.

#### Diagramme de gestion des bots

![schéma](https://1244787492-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FNDxbAdc00ce6bH5u1urh%2Fuploads%2FuNN7V3zz1YSIIomeHyGz%2Fschema.webp?alt=media\&token=a78428e3-e80e-4021-96e3-488e8fd81bde)

**(1)**  Le SDK est chargé

**(2)** Vérification des règles de déclenchement de la notice :

* Le SDK analyse le user agent pour identifier s'il s'agit d'un bot ou non.
* Si un bot est détecté, le comportement de la notice est défini par la configuration de la notice (déclencher ou non la notice).
* Si le visiteur n'est pas étiqueté comme bot, la notice est déclenchée.

**(3)** Les événements CMP (affichage de la notice) sont déclenchés

**(4)** Traitement des données (transformer les événements en analyses)

**👉 Tous les événements (données) collectés à partir de bots (identifiés) sont exclus des analyses, même si la notice a été affichée au bot intentionnellement.**

**(5)** Les données analytiques sont affichées dans les tableaux de bord

#### Outils de protection contre les bots

![schema\_1](https://1244787492-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FNDxbAdc00ce6bH5u1urh%2Fuploads%2FOsFP9bOFJVN88DnSLCue%2Fschema_1.webp?alt=media\&token=05fea44d-b822-43da-ab97-74212783e3ed)

Certaines solutions sont spécialisées dans la **détection et la protection contre les bots.** Elles protègent votre site web du trafic de bots.&#x20;

Comme ces solutions détectent les bots avant qu'ils n'atteignent le site (voir le schéma), elles peuvent empêcher le bot de charger une page et donc éviter d'impacter les données analytiques du CMP.

Pour plus d'informations, voir des solutions telles que Datadome, Human, Cloudflare, Netacea, etc.
