Claude 3, l'ultima intelligenza artificiale di Anthropic, è così potente che ha individuato una trappola tesa dai suoi stessi progettisti. Separatamente, i ricercatori hanno affermato che in una serie di test, il loro modello ha sovraperformato altri IA come GPT-4 (OpenAI) e Gemini (Google).
Claude 3: il modello attuale più intelligente?
E ChatGPT e GPT-4 vengono visualizzati molto spesso nella stampa scientifica si parla anche di altri modelli, non Claude 3. Questo modello linguistico rilasciato di recente è stato sviluppato da Anthropic, una società fondata tre anni prima dagli ex studenti di OpenAI. Secondo i ricercatori, Claude 3 è il modello attuale più intelligente. Secondo lui avrebbe addirittura sovraperformato i suoi principali concorrenti, vale a dire GPT-4 e Gemini una dichiarazione pubblicato sulla piattaforma Anthropic il 4 marzo 2024. Più precisamente, i tre diversi modelli di Claude 3, rispettivamente Haiku, sonetto e operaha ottenuto risultati migliori rispetto ai modelli sopra citati durante una serie di test in diverse aree, tra cui cultura generale, programmazione e problemi di matematica.
“Ogni modello successivo offre prestazioni sempre più potenti, consentendo agli utenti di selezionare l’equilibrio ottimale tra intelligenza, velocità e costo per la loro specifica applicazione. »ha detto Antropico.
Tuttavia, è importante sottolineare che i modelli più efficienti GPT-4 (GPT-4 Turbo) e Gemini (Gemini 1.5) non sono stati inclusi in questi test e quindi non compaiono nei risultati.
Il test dell’“ago nel pagliaio”.
Secondo i suoi creatori, Claude 3 è così intelligente che lui è riuscito a smascherare i suoi creatori. L’AI, infatti, ha capito che si stava valutando e soprattutto lo ha segnalato con argomentazioni alquanto sorprendenti. Questo cosiddetto test “dell’ago nel pagliaio” prevedeva l’inserimento di una frase a caso nel mezzo di molte altre informazioni non correlate. I ricercatori hanno poi chiesto a Claude 3 informazioni sulla famosa frase e hanno ottenuto una risposta sorprendente, come ha spiegato l'ingegnere specializzato in suggerimenti Alex Albert, in una pubblicazione su (vedi sotto).
Storia divertente dai nostri test interni su Claude 3 Opus. Ha fatto qualcosa che non avevo mai visto prima da un LLM mentre stavamo eseguendo la valutazione dell'ago nel pagliaio.
Per lo sfondo, questo testa la capacità di richiamo di un modello inserendo una frase target (l' »ago ») in un corpus di… pic.twitter.com/m7wWhhu6Fg
— Alex (@alexalbert__) 4 marzo 2024
Claude 3 ha risposto che la frase in questione forse era stata inserita per scherzo oppure per verificare il tuo livello di attenzione. L'IA ha motivato la sua risposta indicando che la frase era irrilevante e non corrispondeva al resto del contenuto degli altri documenti. La frase relativa all'intruso, infatti, menzionava la ricetta di una pizza mentre il resto delle informazioni riguardava linguaggi di programmazione, startup e ricerca di lavoro.
Alla fine, Alex Albert ha detto che era interessante osservare questo livello di metacoscienzama ha anche evidenziato la necessità di test più realistici degli IA al fine di valutare con precisione la reali capacità e limiti dei modelli.
- Gaëtan Barlot (Castres) verso UBB - octobre 11, 2024
- Ousmane Dieng convince con gli Oklahoma City Thunder nel pre-campionato NBA - octobre 11, 2024
- Denigrato a Monaco, Alexander Nübel ha ritrovato fiducia con lo Stoccarda e partirà con la Germania - octobre 11, 2024