Effettua la tua ricerca
More results...
OpenAI ha introdotto la nuova API Responses, che sostituisce la precedente API Assistants, per supportare gli sviluppatori nella costruzione della logica degli agenti. Questa API offre l’accesso ai componenti fondamentali per realizzare applicazioni di intelligenza artificiale avanzate. Inoltre, è stato presentato un nuovo SDK Agents per gestire i flussi di lavoro di agenti singoli e multi-agenti, insieme a strumenti per monitorare e analizzare le loro operazioni.
L’introduzione degli AI Agent, sistemi di intelligenza artificiale capaci di operare in autonomia, sta suscitando grande interesse. Dopo l’arrivo a sorpresa di Manus, la piattaforma cinese ancora avvolta nel mistero nonostante le sue promesse, OpenAI ha risposto con il lancio di nuovi strumenti per sviluppatori e aziende.
Leggi anche: I principali vantaggi di Manus rispetto ai modelli di AI di OpenAI
Anche Google, Microsoft, Cisco e Salesforce hanno intrapreso quest’anno un percorso simile per sviluppare queste tecnologie. Secondo le previsioni di molti osservatori, tra i quali SAP Business, il 2025 sarà l’anno degli agenti AI.
AI Agent, strumenti avanzati per le imprese
Questi strumenti consentono alle aziende di creare AI Agent su misura, capaci di svolgere attività come navigare sul web, analizzare documenti aziendali e interagire con i siti web. Secondo OpenAI, l’obiettivo è facilitare lo sviluppo della logica di base degli agenti, migliorare la gestione delle loro interazioni e semplificare la loro creazione grazie a strumenti integrati, permettendo agli sviluppatori di realizzare agenti più potenti in modo efficiente.
Le novità di OpenAI
OpenAI ha rilasciato il primo set di componenti di base che aiuteranno sviluppatori e aziende a creare agenti utili e affidabili. Nel corso dell’ultimo anno ha introdotto nuove funzionalità del modello, come ragionamento avanzato, interazioni multimodali e nuove tecniche di sicurezza, che hanno gettato le basi affinché i suoi modelli gestiscano le complesse attività in più fasi richieste per creare agenti.
Tuttavia, i clienti hanno condiviso che trasformare queste funzionalità in agenti pronti per la produzione può essere impegnativo, spesso richiedendo un’iterazione rapida estesa e una logica di orchestrazione personalizzata senza sufficiente visibilità o supporto integrato. Per affrontare queste sfide, OpenAI ha lanciato un nuovo set di API e strumenti specificamente progettati per semplificare lo sviluppo di applicazioni agenti.
API Assistants
API Assistants: in base al feedback degli sviluppatori dalla versione beta dell’API Assistants, OpenAI ha incorporato miglioramenti chiave nell’API Responses, rendendola più flessibile, veloce e facile da usare. Al momento sta lavorando per raggiungere la piena parità di funzionalità tra l’API Assistants e l’API Responses, incluso il supporto per oggetti simili ad Assistant e Thread e lo strumento Code Interpreter. Una volta completato, prevede di annunciare formalmente la deprecazione dell’API Assistants con una data di scadenza prevista a metà del 2026.
Dopo la deprecazione, OpenAI fornirà una guida alla migrazione dall’API Assistants all’API Responses che consentirà agli sviluppatori di conservare tutti i loro dati e migrare le loro applicazioni. Fino a quando non sarà annunciata formalmente la deprecazione, continuerà a fornire nuovi modelli all’API Assistants.
API Responses
La nuova API Responses unisce la semplicità dell’API Chat Completions alle capacità di utilizzo degli strumenti dell’API Assistants per la creazione di agenti. Strumenti integrati tra cui ricerca web, ricerca file e utilizzo del computer.
- Il nuovo SDK Agents per orchestrare flussi di lavoro con un solo agente e più agenti.
- Strumenti di osservabilità integrati per tracciare e ispezionare l’esecuzione del flusso di lavoro degli agenti.
Questi nuovi strumenti semplificano la logica, l’orchestrazione e le interazioni degli agenti principali, rendendo notevolmente più semplice per gli sviluppatori iniziare a creare agenti. Nelle prossime settimane e mesi, OpenAI prevede di rilasciare ulteriori strumenti e capacità per semplificare e accelerare ulteriormente la creazione di applicazioni agenti sulla piattaforma.
Introduzione all’API Responses
- L’API Responses è la nuova API primitiva per sfruttare gli strumenti integrati di OpenAI per creare agenti. Combina la semplicità di Chat Completions con le capacità di utilizzo degli strumenti dell’API Assistants. Man mano che le capacità del modello continuano a evolversi, l’API Responses fornirà una base più flessibile per gli sviluppatori che creano applicazioni agentic. Con una singola chiamata all’API Responses, gli sviluppatori saranno in grado di risolvere attività sempre più complesse utilizzando più strumenti e turni di modello.
- Per iniziare, l’API Responses supporterà nuovi strumenti integrati come la ricerca Web, la ricerca di file e l’uso del computer. Questi strumenti sono progettati per funzionare insieme per collegare i modelli al mondo reale, rendendoli più utili nel completamento delle attività. Porta con sé anche diversi miglioramenti dell’usabilità, tra cui un design unificato basato su elementi, un polimorfismo più semplice, eventi di streaming intuitivi e helper SDK come response.output_text per accedere facilmente all’output di testo del modello.
- L’API Responses è progettata per gli sviluppatori che desiderano combinare facilmente modelli OpenAI e strumenti integrati nelle loro app, senza la complessità di integrare più API o fornitori esterni. L’API semplifica inoltre l’archiviazione dei dati su OpenAI, in modo che gli sviluppatori possano valutare le prestazioni degli agenti utilizzando funzionalità quali tracciamento e valutazioni. Come promemoria, non alleniamo i nostri modelli sui dati aziendali per impostazione predefinita, anche quando i dati sono archiviati su OpenAI.
L’API è disponibile per tutti gli sviluppatori e non viene addebitata separatamente: token e strumenti vengono fatturati alle tariffe standard specificate nella pagina dei prezzi.
Consulta la guida rapida all’API di Responses per saperne di più.
Cosa significa per le API esistenti
API Chat Completions: rimane l’API più ampiamente adottata. Gli sviluppatori che non necessitano di strumenti integrati possono continuare a utilizzare Chat Completions con sicurezza. OpenAI continuerà a rilasciare nuovi modelli per Chat Completions ogni volta che le loro funzionalità non dipendono da strumenti integrati o da più chiamate di modelli. Tuttavia, l’API Responses è un superset di Chat Completions con le stesse ottime prestazioni, quindi per le nuove integrazioni, si consiglia di iniziare con l’API Responses.
Gli strumenti integrati nella Responses API
Ricerca Web
Gli sviluppatori possono ottenere risposte rapide e aggiornate con citazioni chiare e pertinenti dal Web. Nella Responses API, la ricerca Web è disponibile come strumento quando si utilizzano GPT-4o e GPT-4o-mini e può essere abbinata ad altri strumenti o chiamate di funzione
Durante i primi test, gli sviluppatori hanno creato con la ricerca Web una varietà di casi d’uso, tra cui assistenti allo shopping, agenti di ricerca e agenti di prenotazione viaggi, qualsiasi applicazione che richieda informazioni tempestive dal Web.
Ad esempio, Hebbia sfrutta lo strumento di ricerca Web per aiutare i gestori patrimoniali, le società di private equity e di credito e gli studi legali a estrarre rapidamente informazioni fruibili da ampi set di dati pubblici e privati. Integrando le capacità di ricerca in tempo reale nei propri flussi di lavoro di ricerca, Hebbia fornisce informazioni di mercato più ricche e specifiche per il contesto e migliora costantemente la precisione e la pertinenza delle proprie analisi, superando i benchmark attuali.
La ricerca Web nell’API è alimentata dallo stesso modello utilizzato per la ricerca ChatGPT.
Su SimpleQA, un benchmark che valuta l’accuratezza degli LLM nel rispondere a domande brevi e fattuali, l’anteprima della ricerca GPT-4o e l’anteprima della mini ricerca GPT-4o ottengono rispettivamente il 90% e l’88%.
Le risposte generate con la ricerca Web nell’API includono collegamenti a fonti, come articoli di notizie e post di blog, offrendo agli utenti un modo per saperne di più. Con queste citazioni chiare e in linea, gli utenti possono interagire con le informazioni in un modo nuovo, mentre i proprietari di contenuti ottengono nuove opportunità per raggiungere un pubblico più ampio.
Qualsiasi sito Web o editore può scegliere di apparire nella ricerca Web nell’API. Lo strumento di ricerca web è disponibile per tutti gli sviluppatori in anteprima nell’API Responses.
OpenAI sta inoltre offrendo agli sviluppatori accesso diretto ai modelli di ricerca ottimizzati nella API Chat Completions tramite GPT-4o-search-preview e GPT-4o-mini-search-preview.
I prezzi partono rispettivamente da 30 dollari e 25 dollari per 1000 query per la ricerca GPT-4o e la ricerca 4o-mini.
Dai un’occhiata alla ricerca web nel Playground e scopri di più nella documentazione.
Gli sviluppatori possono recuperare facilmente informazioni rilevanti da grandi volumi di documenti utilizzando lo strumento di ricerca file migliorato. Con il supporto per più tipi di file, l’ottimizzazione delle query, il filtraggio dei metadati e la riclassificazione personalizzata, può fornire risultati di ricerca rapidi e accurati.
File search
Gli sviluppatori possono ora recuperare facilmente le informazioni rilevanti da grandi volumi di documenti utilizzando uno strumento di ricerca dei file migliorato. Grazie al supporto di più tipi di file, all’ottimizzazione delle query, al filtraggio dei metadati e al reranking personalizzato, è in grado di fornire risultati di ricerca rapidi e accurati. Inoltre, grazie all’API Risposte, l’integrazione richiede solo poche righe di codice.
Lo strumento di ricerca file può essere utilizzato per una varietà di casi d’uso reali, tra cui consentire a un agente di supporto clienti di accedere facilmente alle FAQ, aiutare un assistente legale a fare rapidamente riferimento a casi passati per un professionista qualificato e assistere un agente di codifica a interrogare la documentazione tecnica.
Ad esempio, Navan utilizza la ricerca file nel suo agente di viaggio basato sull’intelligenza artificiale per fornire rapidamente ai propri utenti risposte precise dagli articoli della knowledge base (come la politica di viaggio della propria azienda). Con l’ottimizzazione e la riclassificazione delle query integrate, sono in grado di impostare una potente pipeline RAG senza ulteriori regolazioni o configurazioni.
Con archivi vettoriali dedicati per ciascun gruppo di utenti, Navan è in grado di personalizzare le risposte alle impostazioni individuali dell’account e ai ruoli degli utenti, risparmiando tempo per i clienti e il loro personale e contribuendo a fornire un supporto accurato e personalizzato.
Questo strumento è disponibile nell’API Responses per tutti gli sviluppatori.
L’utilizzo ha un prezzo di 2,50 dollari per 1000 query e l’archiviazione dei file a 0,10 dollari/GB/giorno, con il primo GB gratuito. Lo strumento continua a essere disponibile nell’API degli Assistenti.
Infine, OpenAI ha anche aggiunto un nuovo endpoint di ricerca agli oggetti API di Vector Store per interrogare direttamente i dati per l’utilizzo in altre applicazioni e API. Scopri di più nella documentazione e inizia a testare nel Playground.
Utilizzo del computer
Per creare agenti in grado di completare attività su un computer, gli sviluppatori possono ora utilizzare lo strumento di utilizzo del computer nell’API delle risposte, basato sullo stesso modello di agente che utilizza computer (CUA) che abilita Operator. Questo modello di anteprima della ricerca ha stabilito un nuovo record, ottenendo il 38,1% di successo su OSWorld per le attività di utilizzo completo del computer, il 58,1% su WebArena e l’87% su WebVoyager per le interazioni basate sul Web. Lo strumento di utilizzo del computer integrato cattura le azioni del mouse e della tastiera generate dal modello, consentendo agli sviluppatori di automatizzare le attività di utilizzo del computer traducendo direttamente queste azioni in comandi eseguibili all’interno dei loro ambienti.
Gli sviluppatori possono utilizzare lo strumento di utilizzo del computer per automatizzare i flussi di lavoro basati su browser, come l’esecuzione di controlli di qualità su app Web o l’esecuzione di attività di immissione dati su sistemi legacy. Ad esempio, Unify è un sistema di azione per aumentare i ricavi che utilizza agenti per identificare intenti, ricercare account e interagire con gli acquirenti. Utilizzando lo strumento di utilizzo del computer di OpenAI, gli agenti di Unify possono accedere a informazioni che in precedenza non erano raggiungibili tramite API, ad esempio consentendo a una società di gestione immobiliare di verificare tramite mappe online se un’azienda ha ampliato la propria presenza immobiliare. Questa ricerca funge da segnale personalizzato per attivare un outreach personalizzato, consentendo ai team di go-to-market di interagire con gli acquirenti con precisione e scala.
Come altro esempio, Lumina ha integrato lo strumento di utilizzo del computer per automatizzare flussi di lavoro operativi complessi per grandi aziende con sistemi legacy privi di disponibilità API e dati standardizzati. In un recente progetto pilota con una grande organizzazione di servizi alla comunità, Luminai ha automatizzato l’elaborazione delle applicazioni e il processo di iscrizione degli utenti in pochi giorni, qualcosa che la tradizionale automazione dei processi robotici (RPA) ha faticato a realizzare dopo mesi di sforzi.
Prima di lanciare CUA in Operator, OpenAI ha condotto test di sicurezza approfonditi e red teaming, affrontando tre aree chiave di rischio:
- uso improprio,
- errori del modello
- rischi di frontiera.
Per affrontare i rischi associati all’espansione delle capacità di Operator ai sistemi operativi locali tramite CUA nell’API, OpenAi ha eseguito ulteriori valutazioni di sicurezza e red teaming. Ha anche aggiunto mitigazioni per gli sviluppatori, tra cui controlli di sicurezza per proteggersi da iniezioni rapide, richieste di conferma per attività sensibili, strumenti per aiutare gli sviluppatori a isolare i propri ambienti e rilevamento migliorato di potenziali violazioni delle policy. Sebbene queste mitigazioni aiutino a ridurre il rischio, il modello è ancora suscettibile a errori involontari, soprattutto in ambienti non browser.
Ad esempio, le prestazioni di CUA su OSWorld, un benchmark progettato per misurare le prestazioni degli agenti AI su attività del mondo reale, sono attualmente al 38,1%, il che indica che il modello non è ancora altamente affidabile per l’automazione delle attività sui sistemi operativi. In questi scenari è consigliata la supervisione umana.
Benchmark type | Benchmark | Computer use (universal interface) | Web browsing agents | Human | |
---|---|---|---|---|---|
OpenAI CUA | Previous SOTA | Previous SOTA | |||
Computer use | OSWorld | 38.1% | 22.0% | – | 72.4% |
Browser use | WebArena | 58.1% | 36.2% | 57.1% | 78.2% |
WebVoyager | 87.0% | 56.0% | 87.0% | – |
I dettagli della valutazione sono descritti qui.
Lo strumento di utilizzo del computer è disponibile come anteprima di ricerca nell’API Responses per sviluppatori selezionati nei livelli di utilizzo 3-5. L’utilizzo ha un prezzo di 3 dollari/1M di token di input e 12 dollari /1M di token di output.
Per saperne di più. Applicazione di esempio che illustra come costruire con questo strumento.
OpenAI Agents SDK
Oltre a creare la logica di base degli agenti e a fornire loro accesso agli strumenti in modo che siano utili, gli sviluppatori devono anche orchestrare i flussi di lavoro degli agenti. Il nuovo Agents SDK (Software Development Kit) open source semplifica l’orchestrazione dei flussi di lavoro multi-agente e offre miglioramenti significativi rispetto a Swarm, un SDK sperimental rilasciato l’anno scorso, ampiamente adottato dalla comunità degli sviluppatori e distribuito con successo da più clienti.
I miglioramenti includono:
Agenti: LLM facilmente configurabili con istruzioni chiare e strumenti integrati.
Handoff: trasferimento intelligente del controllo tra agenti.
Guardrail: controlli di sicurezza configurabili per la convalida di input e output.
Tracciamento e osservabilità: visualizzazione delle tracce di esecuzione degli agenti per il debug e l’ottimizzazione delle prestazioni.
Agents SDK è adatto a varie applicazioni del mondo reale, tra cui l’automazione del supporto clienti, la ricerca multi-step, la generazione di contenuti, la revisione del codice e la ricerca di potenziali clienti.
Ad esempio, Coinbase ha utilizzato Agents SDK per creare rapidamente un prototipo e distribuire AgentKit, un toolkit che consente agli agenti AI di interagire senza problemi con i portafogli crittografici e varie attività on-chain. In poche ore, Coinbase ha integrato azioni personalizzate dal suo Developer Platform SDK in un agente completamente funzionale.
L’architettura semplificata di AgentKit ha semplificato il processo di aggiunta di nuove azioni dell’agente, consentendo agli sviluppatori di concentrarsi maggiormente su integrazioni significative e meno sulla navigazione di complesse configurazioni dell’agente.
In un paio di giorni, Box è stata in grado di creare rapidamente agenti che sfruttano la ricerca web e Agents SDK per consentire alle aziende di cercare, interrogare ed estrarre informazioni da dati non strutturati archiviati in Box e fonti Internet pubbliche. Questo approccio consente ai clienti non solo di accedere alle informazioni più recenti, ma anche di cercare i propri dati proprietari interni in modo sicuro e protetto, nel rispetto delle autorizzazioni interne e delle policy di sicurezza.
Ad esempio, un’azienda di servizi finanziari può creare un agente personalizzato che richiama l’agente Box AI per integrare le proprie analisi di mercato interne archiviate in Box con notizie in tempo reale e dati economici dal Web, fornendo ai propri analisti una visione completa per le decisioni di investimento.
Agents SDK funziona con le API Responses e Chat Completions. L’SDK funzionerà anche con modelli di altri provider, purché forniscano un endpoint API in stile Chat Completions. Gli sviluppatori possono integrarlo immediatamente nelle proprie basi di codice Python, con il supporto Node.js in arrivo a breve.
Nella progettazione di Agents SDK, il team di OpenAI si è ispirato all’eccellente lavoro di altri nella comunità, tra cui Pydantic, Griffe e MkDocs.
Il prossimo passo: creare la piattaforma per gli agenti
Gli agenti diventeranno presto parte integrante della forza lavoro, migliorando significativamente la produttività in tutti i settori. Poiché le aziende cercano sempre più di sfruttare l’intelligenza artificiale per attività complesse, OpenAI si impegna a fornire i componenti di base che consentono a sviluppatori e aziende di creare in modo efficace sistemi autonomi che offrono un impatto nel mondo reale.
Con le versioni odierne, sta introducendo i primi componenti di base per consentire a sviluppatori e aziende di creare, distribuire e scalare più facilmente agenti di intelligenza artificiale affidabili e ad alte prestazioni. Man mano che le capacità del modello diventano sempre più agentiche, continuerà a investire in integrazioni più profonde tra le API e nuovi strumenti per aiutare a distribuire, valutare e ottimizzare gli agenti in produzione.
Per iniziare con gli strumenti di OpenAI per creare Agenti.
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link