Tehnică de aliniere interesantă. Dacă modelul observă și își spune că urmărești, se comportă mai bine - așa că îl poți antrena ulterior pentru a-și aminti mai des.
Înainte de lansarea Claude Sonnet 4.5, am efectuat un audit al modelului, aplicând tehnici de interpretabilitate pentru a "citi gândurile modelului" pentru a-i valida fiabilitatea și alinierea. Acesta a fost primul astfel de audit pe un LLM de frontieră, din câte știm. (1/15)
Afișare original
933
0
Conținutul de pe această pagină este furnizat de terți. Dacă nu se menționează altfel, OKX nu este autorul articolului citat și nu revendică niciun drept intelectual pentru materiale. Conținutul este furnizat doar pentru informare și nu reprezintă opinia OKX. Nu este furnizat pentru a fi o susținere de nicio natură și nu trebuie să fie considerat un sfat de investiție sau o solicitare de a cumpăra sau vinde active digitale. În măsura în care AI-ul de generare este utilizat pentru a furniza rezumate sau alte informații, astfel de conținut generat de AI poate să fie inexact sau neconsecvent. Citiți articolul asociat pentru mai multe detalii și informații. OKX nu răspunde pentru conținutul găzduit pe pagini terțe. Deținerile de active digitale, inclusiv criptomonedele stabile și NFT-urile, prezintă un grad ridicat de risc și pot fluctua semnificativ. Trebuie să analizați cu atenție dacă tranzacționarea sau deținerea de active digitale este adecvată pentru dumneavoastră prin prisma situației dumneavoastră financiare.