08/10/2025
Ostatnie dni były wyjątkowe dla świata sztucznej inteligencji. Tylko w dniach 6–7 października 2025 roku wszystkie główne firmy AI – OpenAI, Google, Microsoft, Anthropic, Meta, Amazon i IBM – zaprezentowały przełomowe rozwiązania w dziedzinie agentów i automatyzacji. Trendy jasno wskazały kierunek rozwoju: integracja, samodzielne działanie modeli i pełna multimodalność.
6 października
OpenAI
pokazało Apps SDK – framework do budowy aplikacji działających bezpośrednio w ChatGPT, oparty na Model Context Protocol (MCP).
Udostępniło także AgentKit, narzędzie do projektowania i wdrażania zaawansowanych agentów konwersacyjnych.
Wydano GPT-5 Pro (API) – wersję modelu z możliwością sterowania parametrami, takimi jak poziom rozumowania czy szybkość działania.
Pokazano również Sorę 2 – nową generację modelu audio-wideo z pełną synchronizacją dźwięku i obrazu.
Microsoft ogłosił Copilot Studio 2025 Wave 2.
Copilot Studio to narzędzie do tworzenia agentów AI, które działają w środowisku Microsoft 365 (dawniej Office 365).
Co to oznacza w praktyce? Można zaprojektować własnego agenta (czyli inteligentnego pomocnika), który będzie współpracował z aplikacjami takimi jak Outlook, Teams, SharePoint, Excel, Word czy Power Platform. Taki agent może:
Automatycznie odpowiadać na wiadomości e-mail
Obsługiwać zgłoszenia klientów
Zarządzać procesami biznesowymi
Wykonywać zadania na podstawie danych z Microsoft Graph (np. kalendarz, kontakty, pliki)
Anthropic
zaprezentował Claude Sonnet 4.5 – zaawansowany model agentowy przeznaczony do kodowania, analiz regulacyjnych i automatyzacji w sektorach zdrowia, finansów i prawa.
Meta
wprowadziła Devmate – asystenta programistycznego integrującego modele Claude, GPT-5 i inne, z rozbudowanymi funkcjami debugowania.
Amazon
zapowiedział nową serię urządzeń AI (Kindle Scribe, Echo, Ring) napędzanych modelem Sora do przetwarzania audio-wideo.
7 października
Google
udostępniło Gemini 2.5 Computer Use Preview – model zdolny do automatyzacji działań w przeglądarkach i aplikacjach desktopowych. Gemini 2.5 Computer Use potrafi samodzielnie obsługiwać komputer, szczególnie przeglądarkę internetową, wykonując zadania jak człowiek, bez potrzeby bezpośredniej interakcji użytkownika.
Model „widzi” interfejs graficzny komputera lub urządzenia mobilnego, rozpoznaje elementy ekranu i wykonuje operacje takie jak klikanie, przewijanie, wpisywanie tekstu, obsługa menu rozwijanych czy wypełnianie formularzy.
Pokazano Gemini 2.5 Flash i Flash-Lite – szybsze, zoptymalizowane wersje modeli agentowych.
Zapowiedziano również Gemini Robotics-ER 1.5 – specjalistyczny model dla robotyki w fazie podglądu (preview).
Nowy model wyznaczył początek nowej ery w AI – systemów, które nie tylko rozumieją polecenia i kontekst, ale faktycznie przejmują kontrolę nad komputerem.