paint-brush
Quel LLM è davvero "Open Source"? Dobbiamo parlare di Open-Washing nella Governance dell'IAdi@salkimmich
709 letture
709 letture

Quel LLM è davvero "Open Source"? Dobbiamo parlare di Open-Washing nella Governance dell'IA

di Sal Kimmich13m2024/09/08
Read on Terminal Reader

Troppo lungo; Leggere

Nel mondo in rapida evoluzione dell'intelligenza artificiale (IA), la distinzione tra software open source e proprietario sta diventando sempre più ambigua. Questa crescente complessità solleva questioni cruciali sulla trasparenza, l'etica e il vero significato di "apertura" nell'IA. Introdurremo un quadro di valutazione completo che integra la definizione di IA open source (OSAID) con approfondimenti analitici più approfonditi per aiutarti a prendere decisioni più consapevoli.
featured image - Quel LLM è davvero "Open Source"? Dobbiamo parlare di Open-Washing nella Governance dell'IA
Sal Kimmich HackerNoon profile picture
0-item

Figura che dimostra come i giudizi quantitativi di apertura possono essere trasformati in parametri praticabili assegnando pesi a caratteristiche specifiche per creare un gradiente di valutazione.

Cosa imparerai

In questo blog, approfondiamo le complessità dell'apertura dell'IA, concentrandoci su come i principi Open Source si applicano, o non si applicano, ai Large Language Model (LLM) come BloomZ e Llama 2. Alla fine di questo articolo, comprenderai il contesto storico delle licenze Open Source, le attuali sfide nel definire "apertura" nell'IA e il fenomeno dell'"open-washing", che sta fuorviando sia i consumatori che gli sviluppatori. Introduciamo anche un framework di valutazione completo che integra la Open Source AI Definition (OSAID) con approfondimenti complementari da altri framework per aiutarti a prendere decisioni più informate sui modelli di IA. Infine, concluderemo con le best practice praticabili per sviluppare il giudizio composito per misurare quantitativamente la trasparenza per qualsiasi modello di linguaggio di grandi dimensioni "Open Source".


È anche utile esplorare alternative che completino definizioni ampiamente accettate. Come discuteremo, alcune prospettive, tra cui analisi recenti, suggeriscono che framework come Open Source AI Definition (OSAID) traggono vantaggio da dimensioni aggiuntive, in particolare nel modo in cui affrontano questioni come la trasparenza dei dati. Il Model Openness Framework e le sue radici nei principi di Open Science offrono una prospettiva complementare che può fungere da guida aggiuntiva per valutare l'apertura dell'IA. Siamo ancora agli albori della conformità normativa in questo spazio.


Perché questo è importante

Il mondo dell'IA è complesso e in rapida evoluzione, spesso spingendo i principi open source ai loro limiti. Comprendere queste sfumature è fondamentale per sviluppatori, ricercatori e consumatori che vogliono garantire che i sistemi di IA non siano solo innovativi, ma anche trasparenti, etici e responsabili. Con l'ascesa dell'"open-washing", in cui i modelli di IA vengono falsamente commercializzati come open source, è più importante che mai avere un framework solido per valutare queste affermazioni. Essendo dotati di questa conoscenza, puoi prendere decisioni informate che si allineano con i veri valori di apertura e trasparenza nello sviluppo dell'IA.

Il contesto storico delle licenze open source

Per capire dove stiamo andando, è essenziale sapere dove siamo stati. Il movimento Open Source è nato da una ribellione contro il crescente predominio del software proprietario negli anni '80, quando la Free Software Foundation (FSF) e introdusse la GNU General Public License (GPL). Questa licenza ha cambiato le regole del gioco, garantendo agli utenti la libertà di usare, modificare e condividere il software, rimettendo essenzialmente il potere nelle mani di sviluppatori e utenti.


Facciamo un salto in avanti fino alla fine degli anni '90, quando fu istituita l' Open Source Initiative (OSI) per promuovere e proteggere il software Open Source certificando le licenze conformi alla Open Source Definition (OSD). L'OSD stabilì la legge su cosa poteva e cosa non poteva essere definito "open source", assicurando che il termine non venisse annacquato o utilizzato in modo improprio.

L'esempio dei grandi modelli linguistici (LLM) e i limiti dell'"apertura"

Entra nel mondo dell'IA, dove i confini tra sistemi aperti e chiusi diventano ancora più sfumati. I Large Language Model (LLM), come GPT-3 o i suoi successori, sono esempi lampanti di come "open source" possa essere un termine ingannevole nel panorama dell'IA. Gli LLM sono sofisticati sistemi di IA addestrati su enormi set di dati per generare testo simile a quello umano. Questi modelli hanno suscitato notevole interesse e investimenti grazie alla loro capacità di svolgere un'ampia gamma di attività, dalla traduzione alla scrittura creativa. Tuttavia, nonostante le impressionanti capacità di questi modelli, il concetto di "apertura" spesso risulta carente se esaminato attentamente.


Nel documento di ricerca "Rethinking Open Source Generative AI: Open-Washing and the EU AI Act", nella loro analisi, i ricercatori Dr. Liesenfeld e il suo team confrontano BloomZ e Llama 2, due importanti LLM, come esempi di vari gradi di apertura nell'IA. Questo confronto offre una dimostrazione pratica di come applicare una matrice di apertura ai modelli di IA generativa:


Confronto tra BloomZ e Llama 2 su 14 dimensioni di apertura, che illustra il framework.


BloomZ: uno studio di caso sulla vera apertura

BloomZ rappresenta un modello che abbraccia genuinamente i principi dell'open source, stabilendo uno standard elevato di trasparenza e accessibilità nell'intelligenza artificiale.


  • Disponibilità : BloomZ rende disponibile il codice sorgente per l'addestramento, la messa a punto e l'esecuzione del modello, rappresentando un elevato grado di apertura. I dati LLM utilizzati per addestrare BloomZ sono ampiamente documentati, rendendolo trasparente sulle sue fonti di dati e sui suoi processi. Sia i pesi del modello di base che la versione messa a punto dalle istruzioni sono disponibili apertamente, consentendo la replicazione e l'esame da parte della comunità più ampia.
  • Documentazione : il progetto BloomZ è ben documentato, con descrizioni dettagliate disponibili in più articoli scientifici e un repository GitHub attivo. I processi di cura dei dati e di messa a punto sono ampiamente trattati, fornendo approfondimenti sull'architettura del modello, sui dati di training e sull'uso responsabile. Articoli sottoposti a revisione paritaria supportano ulteriormente la sua trasparenza, inclusa una stima dell'impronta di carbonio, che è raramente documentata nei progetti di intelligenza artificiale.
  • Accesso e licenza : BloomZ è distribuito tramite Petals API e il suo codice sorgente è rilasciato con licenza Apache 2.0 , una licenza approvata da OSI. I pesi del modello sono coperti dalla Responsible AI License (RAIL), che impone restrizioni per prevenire un uso dannoso, aggiungendo un livello di responsabilità etica.

Llama 2 : Le insidie dell'Open-Washing

In netto contrasto, Llama 2 esemplifica il concetto di "open-washing", in cui l'etichetta di open source viene applicata senza rispettare pienamente i principi di apertura.


  • Disponibilità : in netto contrasto, Llama 2 non rende disponibile il suo codice sorgente. Sono condivisi solo gli script per l'esecuzione del modello e i dati LLM sono descritti in modo vago, con dettagli limitati forniti in una prestampa aziendale. L'accesso ai pesi del modello di base è limitato, richiedendo un modulo di consenso e i dati utilizzati per la messa a punto delle istruzioni rimangono non divulgati, limitando ulteriormente la trasparenza.

  • Documentazione : la documentazione per Llama 2 è minima, con il codice sorgente stesso non aperto. L'architettura è descritta in modo meno dettagliato, sparso tra siti Web aziendali e un singolo preprint . A differenza di BloomZ, Llama non dispone di una documentazione completa dei suoi set di dati di training, della messa a punto delle istruzioni e dei processi di messa a punto.

  • Accesso e licenza : Llama 2 è disponibile dietro un modulo di registrazione che sfida la privacy e la sua licenza è gestita dalla licenza Community License di Meta. Questa licenza è meno rigorosa della RAIL di BloomZ, con una barra più bassa per come viene rappresentato il contenuto generato, lasciando spazio ad applicazioni potenzialmente fuorvianti.


Il confronto tra BloomZ e Llama 2 evidenzia le nette differenze nel loro approccio all'apertura. BloomZ è un ottimo esempio di un modello che abbraccia genuinamente i principi dell'open source, con trasparenza nel suo codice, nei dati e nella documentazione. Al contrario, Llama 2 esemplifica "l'open-washing", dove il modello è etichettato come open source ma è carente nella maggior parte degli aspetti della vera apertura, con solo i pesi del modello accessibili in base a termini restrittivi. Questo confronto sottolinea la necessità di una comprensione più sfumata dell'apertura nell'IA e l'importanza di valutare i modelli in base a un insieme completo di criteri piuttosto che basarsi su affermazioni superficiali di apertura.

La sfida dell’Open-Washing

"Open-washing" è la pratica di apporre un'etichetta open source su qualcosa che non è veramente open. Nel mondo dell'intelligenza artificiale, l'open-washing è dilagante, con aziende che offrono pezzi e frammenti dei loro sistemi di intelligenza artificiale, mantenendo sotto chiave i componenti più cruciali.

Il documento di ricerca approfondisce i dettagli poco chiari dell'open-washing nell'intelligenza artificiale, evidenziando alcune delle principali sfide:


Apertura composita: l'apertura nell'IA non è un concetto valido per tutti. È un puzzle con molti pezzi, e ogni pezzo contribuisce alla trasparenza complessiva del sistema. Tuttavia, troppo spesso, le aziende rilasciano solo alcuni pezzi, portando a un fuorviante senso di apertura. La ricerca introduce il concetto di apertura a gradiente, sottolineando che l'apertura nell'IA dovrebbe essere vista come uno spettro piuttosto che come uno stato binario. Diversi componenti di un sistema di IA (codice sorgente, dati, modelli) possono essere aperti a vari livelli, ed è fondamentale valutare ogni componente individualmente. Comprendendo questo gradiente, possiamo valutare meglio la vera apertura dei sistemi di IA ed evitare di essere fuorviati dalla trasparenza parziale.


Apertura selettiva: alcuni modelli di IA vengono rilasciati con un'apertura appena sufficiente per cavarsela, solitamente i pesi del modello, ma i componenti critici, come i dati e il processo di formazione, rimangono proprietari. Questa apertura selettiva è un tentativo maldestro di trasparenza che fa più male che bene. Fornendo solo un accesso parziale, le aziende possono affermare di essere aperte senza in realtà fornire la piena trasparenza necessaria per una collaborazione e una comprensione significative.


Scappatoie normative: l'EU AI Act, un quadro normativo ben intenzionato, potrebbe inavvertitamente incoraggiare l'open-washing consentendo ai modelli di IA rilasciati con licenze aperte di aggirare i requisiti di documentazione dettagliati. Questa scappatoia potrebbe portare a un'ondata di sistemi di IA che sono "aperti" solo di nome, con poca o nessuna trasparenza reale. Mentre l'intenzione dietro tali normative è quella di promuovere l'apertura, senza un'attenta implementazione e supervisione, possono essere sfruttate per creare l'illusione di apertura senza la sostanza.


Julia Ferraioli affronta anche la questione dell'open-washing nel suo post sul blog , osservando: "Il nocciolo del problema è che termini come 'open source' vengono ampliati e ridefiniti per adattarsi ai programmi di grandi aziende che sono più interessate al marketing che alla vera trasparenza e collaborazione". Questa intuizione rafforza la necessità di un solido quadro di valutazione per setacciare queste affermazioni fuorvianti.


Approfondimenti sulla ricerca: le realtà dell'intelligenza artificiale open source


Il Model Openness Framework introdotto nelle recenti discussioni integra alcune di queste intuizioni offrendo un approccio alla trasparenza allineato all'Open Science. Mentre l' Open Source AI Definition (OSAID) fornisce una solida base, molti nel settore, inclusi alcuni ricercatori, ritengono che potrebbe non essere sufficiente, in particolare quando si tratta di trasparenza dei dati. Il Model Openness Framework, al contrario, stabilisce un punto di riferimento più rigoroso, sottolineando non solo l'apertura del codice, ma anche la disponibilità di set di dati, metodologie e processi di formazione in linea con i valori dell'Open Science.


Espansione con apertura a gradiente

Basandosi su OSAID, il concetto di apertura a gradiente aggiunge sfumature al processo di valutazione. Valutando ogni componente di un sistema AI (codice sorgente, dati, modelli) individualmente, possiamo comprendere meglio il vero livello di trasparenza e apertura.



Il documento menzionato offre spunti chiave tratti dalla ricerca:


  • Sfide degli adeguamenti delle licenze: le licenze Open Source tradizionali sono state progettate per il software, non per la natura complessa e multiforme dell'IA. Il documento sostiene che sono necessarie nuove strategie di licenza per affrontare le sfide uniche poste dall'IA. Queste licenze dovrebbero garantire che non solo il codice sorgente, ma anche i dati, i modelli e i parametri siano coperti dai principi Open Source. Questo approccio olistico alle licenze è fondamentale per mantenere l'integrità del movimento Open Source nell'era dell'IA.


  • Considerazioni etiche: oltre all'apertura tecnica, il documento evidenzia anche l'importanza delle considerazioni etiche nello sviluppo e nell'implementazione dell'IA. Sottolinea che garantire equità, responsabilità e trasparenza nei sistemi di IA non è solo una sfida tecnica, ma un imperativo morale. La dimensione etica dello sviluppo dell'IA deve essere integrata in qualsiasi discussione sull'apertura, poiché la trasparenza senza responsabilità può portare a danni significativi.


  • Un approccio pratico: i ricercatori delineano alcuni modi ragionevoli per stabilire l'affidabilità categoriale anche con una licenza composita. Integrando la Open Source AI Definition (OSAID) con queste intuizioni più approfondite, possiamo costruire un framework più solido per la valutazione dei sistemi di IA. Questo approccio consente una valutazione più sfumata e completa dei modelli di IA, assicurando che soddisfino sia gli standard tecnici che etici di apertura.


Il problema del versioning LLM: un aspetto trascurato dell'apertura

Una delle sfide più sfumate nell'apertura dell'IA è la questione del versioning LLM. A differenza dei pacchetti software tradizionali, in cui gli aggiornamenti di versione sono in genere ben documentati e trasparenti, gli LLM possono subire aggiornamenti opachi, lasciando gli utenti all'oscuro di cosa è cambiato. Questa mancanza di trasparenza è simile all'installazione di un aggiornamento del sistema operativo senza sapere cosa è stato modificato, tranne che, nel caso degli LLM, la posta in gioco è presumibilmente ancora più alta.


Confronto tra sistemi operativi: immagina di installare un sistema operativo sul tuo computer e di ricevere regolarmente aggiornamenti. Normalmente, ti aspetteresti di vedere un changelog, che descriva in dettaglio cosa è stato corretto, migliorato o aggiunto. Questa trasparenza è fondamentale per gli utenti per comprendere lo stato del loro sistema. Ora, considera un LLM che viene continuamente aggiornato senza tale trasparenza. Gli utenti potrebbero ritrovarsi a lavorare con un modello che è cambiato in modo sottile o significativo senza una chiara comprensione di tali cambiamenti. Questa mancanza di trasparenza può portare a problemi che vanno dal degrado delle prestazioni a preoccupazioni etiche, poiché il modello potrebbe comportarsi in modi inaspettati. Il confronto evidenzia i rischi associati all'utilizzo di modelli di intelligenza artificiale che non sono trasparenti sui loro aggiornamenti, sottolineando la necessità di informazioni di versioning chiare e accessibili.


I rischi degli aggiornamenti opachi: senza trasparenza, gli utenti non possono fidarsi completamente dei sistemi di intelligenza artificiale che stanno utilizzando. Proprio come non installeresti un aggiornamento del sistema operativo senza sapere cosa è stato modificato, affidarsi a un LLM che subisce aggiornamenti opachi è rischioso. Ciò è particolarmente preoccupante in ambienti ad alto rischio in cui l'intelligenza artificiale viene utilizzata per processi decisionali che influenzano la vita reale. Se un aggiornamento LLM introduce nuovi pregiudizi o rimuove funzionalità importanti, le conseguenze potrebbero essere gravi. La mancanza di trasparenza non solo mina la fiducia degli utenti, ma solleva anche significativi rischi etici e operativi.

Stabilire un quadro di valutazione completo: integrazione dell'OSIAID

Per aiutare a superare queste sfide, introduciamo un framework di valutazione completo che combina i punti di forza della Open Source AI Definition (OSIAID) con approfondimenti più approfonditi tratti da ricerche recenti. Questo framework mira a fornire un metodo più robusto per valutare l'apertura dei sistemi di IA.


OSIAID come fondamento: la definizione di IA open source fornisce una solida base per comprendere cosa costituisce un sistema di IA open source. Stabilisce criteri chiari per trasparenza, accessibilità e uso etico, assicurando che i modelli di IA soddisfino uno standard minimo di apertura. Aderendo all'OSIAID, sviluppatori e utenti possono avere la certezza che un modello di IA soddisfi gli standard di base di apertura e trasparenza.


Espandere con Gradient Openness: basandosi su OSIAID, il concetto di gradient openness aggiunge sfumature al processo di valutazione. Valutando ogni componente di un sistema AI (codice sorgente, dati, modelli) individualmente, possiamo comprendere meglio il vero livello di trasparenza e apertura. Questi possono essere indicatori della propensione al rischio e del framework della tua organizzazione o standardizzati tra le organizzazioni. Questo approccio consente una valutazione più dettagliata e accurata dei modelli AI, identificando le aree in cui l'apertura è forte e quelle in cui potrebbe essere necessario un miglioramento.


Affrontare le implicazioni etiche e legali: il framework incorpora anche considerazioni etiche e legali, assicurando che i sistemi di IA non siano solo tecnicamente aperti, ma anche allineati con valori sociali e requisiti legali più ampi. Integrando queste considerazioni, il framework assicura che l'apertura non riguardi solo la trasparenza tecnica, ma anche il rispetto degli standard etici e legali che sono cruciali nello sviluppo dell'IA.


L'enfasi di Julia Ferraioli sulla necessità di definizioni chiare e di un impegno verso i principi dell'Open Source risuona con questo approccio. Scrive: "La comunità Open Source deve attenersi ai propri valori, assicurandosi che qualsiasi deviazione venga affrontata con un esame critico e una richiesta di trasparenza". Queste pratiche sono progettate per soddisfare tale esigenza, fornendo un framework solido e completo per la valutazione dei sistemi di intelligenza artificiale.

Tieni presente l'orizzonte normativo

Mentre il panorama della regolamentazione dell'IA continua a evolversi, è fondamentale rimanere informati e coinvolti negli sviluppi normativi. L'EU AI Act e quadri normativi simili svolgeranno un ruolo significativo nel plasmare il futuro dell'apertura e della trasparenza dell'IA. Comprendendo e partecipando a queste discussioni, puoi contribuire a garantire che i quadri normativi promuovano efficacemente la trasparenza e la responsabilità nell'IA.

  • Valuta l'apertura su più dimensioni: usa il framework per valutare i sistemi di intelligenza artificiale su varie dimensioni di apertura, tra cui codice sorgente, dati, pesi del modello e documentazione. Una valutazione completa assicura che non sarai tratto in inganno da affermazioni superficiali di apertura e che potrai prendere decisioni informate sui modelli di intelligenza artificiale che utilizzi.
  • Attenzione all'Open-Washing: fai attenzione ai modelli di intelligenza artificiale che affermano di essere open source ma offrono solo una trasparenza parziale. Cerca segnali di apertura selettiva, in cui solo determinati componenti sono resi disponibili. Comprendere queste tattiche può aiutarti a evitare di essere ingannato da modelli che non aderiscono veramente ai principi open source.
  • Richiedi una documentazione completa: insisti su una documentazione dettagliata per i sistemi di intelligenza artificiale, incluse informazioni sui dati di training, sui processi di messa a punto e sulle considerazioni etiche. Questa trasparenza è fondamentale per comprendere le capacità e le limitazioni del modello. Una documentazione completa consente una migliore valutazione e utilizzo dei modelli di intelligenza artificiale, assicurandoti di essere pienamente informato sugli strumenti che stai utilizzando.
  • Supporta le licenze specifiche per l'IA: promuovi lo sviluppo e l'adozione di licenze specifiche per l'IA che coprano non solo il codice, ma anche i dati, i modelli e i parametri. Ciò aiuterà a impedire alle aziende di nascondersi dietro un'apertura parziale. Le licenze specifiche per l'IA possono affrontare le sfide uniche dello sviluppo dell'IA, assicurando che tutti gli aspetti del modello siano aperti e trasparenti.
  • Coinvolgimento nei quadri normativi: tieniti informato sugli sviluppi normativi, come l'EU AI Act, e partecipa attivamente alle discussioni per garantire che questi quadri promuovano efficacemente la trasparenza e la responsabilità nell'IA. Coinvolgere i quadri normativi garantisce che la tua voce venga ascoltata nello sviluppo di politiche che plasmeranno il futuro dell'IA.

Conclusione: garantire l’apertura dell’intelligenza artificiale in un mondo complesso

Il mondo dell'IA è complesso, caotico e pieno di sfide che il movimento Open Source non era stato originariamente progettato per gestire. Ma questo non significa che dovremmo rinunciare agli ideali di trasparenza, collaborazione e apertura. Invece, dobbiamo adattarci, evolverci e garantire che l'IA Open Source rappresenti ancora le quattro libertà necessarie per adattarsi alla definizione.


Mentre navighiamo in questo nuovo mondo, la collaborazione tra la comunità Open Source, gli enti normativi e gli sviluppatori di IA sarà cruciale. Affrontando le sfide dell'open-washing, ripensando il nostro approccio alle licenze e adottando solidi quadri normativi, possiamo costruire un ecosistema di IA che non sia solo innovativo, ma anche etico e responsabile.


L'intelligenza artificiale è qui per restare e spetta a noi assicurarci che serva al bene comune. Infine, vi lascio con questo importante pensiero direttamente dai ricercatori di questo importante lavoro:


"Forse non è una coincidenza che i ricercatori finanziati con fondi pubblici siano all'avanguardia nel denunciare l'open-washing: non vincolati agli interessi aziendali e senza incentivi a promuovere l'intelligenza artificiale, possiamo fare un passo indietro e mettere a nudo ciò che sta facendo la grande tecnologia, e ideare modi costruttivi per tenerli sotto controllo". Dott. Liesenfeld.


Questo team di ricerca è attivamente coinvolto in diverse iniziative relative all'EU AI Act, concentrandosi in particolare su cosa comporterà in pratica un "riepilogo sufficientemente dettagliato" nella documentazione AI. Questo lavoro è condotto in collaborazione con la Mozilla Foundation e la Open Future Foundation . Il team sta inoltre continuando il suo lavoro accademico sulla valutazione della tecnologia e sta pianificando di pubblicare un nuovo sito Web entro la fine dell'anno che fungerà da risorsa pubblica per la valutazione dell'apertura, rendendo questi strumenti più accessibili al pubblico più vasto. Questa iniziativa mira a fornire standard e quadri più chiari per responsabilizzare le aziende in materia di trasparenza nell'AI.


La definizione di IA Open Source (OSAID) è ancora aperta alla revisione e al feedback del pubblico. Se desideri partecipare alla definizione del futuro dell'IA Open Source, puoi inviare commenti sulla bozza attuale qui . La versione finale della definizione sarà annunciata alla conferenza All Things Open (ATO) , che si terrà nel 2024. Resta sintonizzato per ulteriori aggiornamenti mentre la comunità continua a perfezionare questo framework fondamentale per lo sviluppo dell'IA aperta.


Alla fine della giornata, se intendi assumerti un rischio calcolato usando questi LLM, allora devi misurare quel rischio. Spero che questo ti dia qualche modo per farlo e voglio assolutamente che tu mi contatti se hai delle metriche quantitative o dei miglioramenti alle soluzioni offerte sopra o in generale delle domande su questo argomento che non sono stato in grado di trattare qui.