Come impedire a ChatGPT di utilizzare i contenuti del tuo sito web

Homepage

Metaverso e IA

ChatGPT accede ai contenuti del sito web per apprenderne il significato. In questo articolo vedremo come bloccare i tuoi contenuti dall’essere utilizzati come dati di formazione per l’AI.

C’è preoccupazione per la mancanza di un modo facile per scegliere se consentire o meno l’utilizzo dei propri contenuti per addestrare grandi modelli di linguaggio (LLM) come ChatGPT. C’è un modo per farlo, ma non è semplice e non è garantito che funzioni.

I grandi modelli di linguaggio (LLM) sono addestrati su dati provenienti da molteplici fonti. Molti di questi dataset sono open source e sono liberamente utilizzati per l’addestramento di IA.

Esempi di tipi di fonti utilizzati:

Wikipedia;
Registri giudiziari governativi;
Libri;
Email;
Siti web crawlati.

In realtà, esistono portali e siti web che offrono dataset con enormi quantità di informazioni.

Uno dei portali è ospitato da Amazon, che offre migliaia di dataset nel Registro dei dati aperti su AWS.

Wikipedia elenca 28 portali per il download di dataset, tra cui il portale Google Dataset e Hugging Face per trovare migliaia di dataset.

ChatGPT si basa su GPT-3.5, noto anche come InstructGPT.

I dataset utilizzati per addestrare GPT-3.5 sono gli stessi utilizzati per GPT-3. La differenza principale tra i due è che GPT-3.5 utilizza una tecnica chiamata RLHF.

I cinque dataset utilizzati per addestrare GPT-3 (e GPT-3.5) sono descritti nella pagina 9 del paper di ricerca “Language Models are Few-Shot Learners” (PDF).

I dataset sono:

Common Crawl (filtrato);
WebText2;
Books1;
Books2;
Wikipedia.

L’idea è che questi URL siano affidabili e contengano contenuti di qualità.

Il dataset originale WebText aveva circa 15 miliardi di token. WebText è stato utilizzato per addestrare GPT-2.

WebText2 è leggermente più grande, con 19 miliardi di token. WebText2 è stato utilizzato per addestrare GPT-3 e GPT-3.5.

Come bloccarlo

Uno dei dataset più comunemente utilizzati è il dataset Common Crawl creato da un’organizzazione no-profit chiamata Common Crawl.

I dati di Common Crawl provengono da un bot che attraversa l’intero Internet.

I dati vengono scaricati dalle organizzazioni che desiderano utilizzarli e poi puliti da siti di spam, ecc.

Il nome del bot di Common Crawl è CCBot.

CCBot rispetta il protocollo robots.txt, quindi è possibile bloccare Common Crawl con Robots.txt e impedire che i dati del tuo sito web siano inclusi in un altro dataset.

Tuttavia, se il tuo sito è già stato scansionato, è probabile che sia già incluso in più dataset.

Tuttavia, bloccando Common Crawl, è possibile scegliere di non includere i contenuti del tuo sito web in nuovi dataset provenienti da dataset Common Crawl più recenti.

La stringa del user agent di CCBot è:

CCBot/2.0

Aggiungi il seguente codice al tuo file robots.txt per bloccare il bot di Common Crawl:

User-agent: CCBot
Disallow: /

CCBot rispetta anche le direttive del tag meta robots nofollow.

Utilizza questo nel tuo tag meta robots:

<meta name=”CCBot” content=”nofollow”>.

ChatGPT consiglia inoltre di programma direttamente il tool:

Per bloccare ChatGPT dal utilizzare i contenuti del tuo sito web, puoi utilizzare il file “robots.txt”. Il file “robots.txt” è un file di testo che si trova nella root directory del tuo sito web e indica ai motori di ricerca quali pagine e contenuti possono essere indicizzati e quali no.

Puoi impedire a ChatGPT di accedere ai contenuti del tuo sito web aggiungendo le seguenti linee al tuo file robots.txt:

User-agent: ChatGPT
Disallow: /

Ciò indica a ChatGPT di non accedere a qualsiasi pagina o contenuto del tuo sito web. Tieni presente che questa opzione non è completamente garantita, poiché non tutti i crawler rispettano il file robots.txt.

Clicca in basso se vuoi maggiori informazioni sul nostro servizio SEO e modificare il tuo file robots correttamente, non solo per quanto concerne ChatGPT:

consulenza SEO.

Come impedire a ChatGPT di utilizzare i contenuti del tuo sito web

Come bloccarlo

Redazione Wonize

Scrivi un Commento Cancel Reply

Come impedire a ChatGPT di utilizzare i contenuti del tuo sito web

Come bloccarlo

Redazione Wonize

Scrivi un Commento Cancel Reply

Informativa Cookie & Privacy Policy