Tecnica di allineamento interessante. Se il modello si accorge e si dice che lo stai osservando, si comporta meglio — quindi puoi addestrarlo ulteriormente per ricordarselo più frequentemente.
Prima del rilascio di Claude Sonnet 4.5, abbiamo condotto un audit white-box del modello, applicando tecniche di interpretabilità per "leggere la mente del modello" al fine di convalidarne l'affidabilità e l'allineamento. Questo è stato il primo audit di questo tipo su un LLM di frontiera, per quanto ne sappiamo. (1/15)
Mostra originale
976
0
Il contenuto di questa pagina è fornito da terze parti. Salvo diversa indicazione, OKX non è l'autore degli articoli citati e non rivendica alcun copyright sui materiali. Il contenuto è fornito solo a scopo informativo e non rappresenta le opinioni di OKX. Non intende essere un'approvazione di alcun tipo e non deve essere considerato un consiglio di investimento o una sollecitazione all'acquisto o alla vendita di asset digitali. Nella misura in cui l'IA generativa viene utilizzata per fornire riepiloghi o altre informazioni, tale contenuto generato dall'IA potrebbe essere impreciso o incoerente. Leggi l'articolo collegato per ulteriori dettagli e informazioni. OKX non è responsabile per i contenuti ospitati su siti di terze parti. Gli holding di asset digitali, tra cui stablecoin e NFT, comportano un elevato grado di rischio e possono fluttuare notevolmente. Dovresti valutare attentamente se effettuare il trading o detenere asset digitali è adatto a te alla luce della tua situazione finanziaria.