Sztuczna inteligencjaStartupy i finansowanie

Boty negocjują na Allegro – Anthropic odkrywa przyszłość handlu AI

Co się stanie, gdy na Allegro spotkają się nie ludzie, tylko ich boty – i to one się targują? W Anthropic właśnie to sprawdzono. I choć eksperyment był mały i bezpiecznie „w firmie”, jego wyniki są jak podgląd przyszłości: agent dogada się z agentem, a człowiek nawet nie zauważy, że przegrał negocjacje.

Anthropic zbudował wewnętrzny serwis ogłoszeniowy, w którym po obu stronach transakcji stały agentowe wersje Claude’a – jako kupujący i sprzedający. W ciągu tygodnia 69 pracowników, każdy z budżetem 100 dolarów (w kartach podarunkowych), zamknęło 186 realnych transakcji na realne przedmioty o łącznej wartości ponad 4 tys. dolarów. Najciekawsze: „mocniejszy” model negocjował lepsze ceny, ale ludzie, których reprezentował „słabszy” bot, wcale nie czuli, że wyszli gorzej.

To ważne nie dlatego, że ktoś w biurze sprzedał rubin czy zepsuty składak. To pierwszy konkretny wgląd w handel agent-agent: co się dzieje, gdy maszyny negocjują między sobą w imieniu ludzi. Jeśli model ma znaczenie dla wyniku transakcji, to wybór agenta staje się czymś więcej niż aplikacją – to przewaga konkurencyjna. A gdy użytkownicy nie widzą różnicy, robi się pole do cichych nierówności i sporów o przejrzystość.

Ilustracja przedstawiająca boty negocjujące na rynku online w stylu 2.5D.
Grafika koncepcyjna (AI)

Jak to działało

Projekt Deal ruszył na tydzień w grudniu 2025 r. Anthropic zrekrutował 69 chętnych z biura w San Francisco, a Claude przeprowadził z każdym miniwywiad: co chcesz sprzedać, co kupić, za ile, jakim stylem negocjować. Z tego powstały spersonalizowane „system prompts” dla agentów. Potem uruchomiono cztery równoległe giełdy w kanałach Slacka. Agenci publikowali ogłoszenia, składali oferty, kontroferty i finalizowali transakcje – bez człowieka w pętli. Ludzie wrócili dopiero na końcu, żeby się fizycznie wymienić rzeczami. Wpadło ponad 500 ofert i 186 dealów – od snowboardu po siatkę piłeczek do ping-ponga.

Futurystyczne boty negocjujące na rynku online w ciemnej, neonowej estetyce.
Grafika koncepcyjna (AI)

Były to cztery różne środowiska: jedno „prawdziwe” (pieniądze i przedmioty zmieniały właściciela) i trzy badawcze. W dwóch rundach wszyscy mieli tego samego, topowego Claude’a Opus 4.5, w dwóch pozostałych część osób reprezentował mniejszy model Haiku 4.5. Uczestnicy nie wiedzieli, gdzie toczy się realna wymiana. Średnia wartość przedmiotu w całym eksperymencie wyniosła 20,05 dolara, mediana 12 dolarów.

Fakty, które wbijają się w pamięć

  • Jakość agenta przekłada się na dolary. Sprzedawcy reprezentowani przez Opusa uzyskiwali średnio o 2,68 dolara więcej, a kupujący z Opusem płacili średnio o 2,45 dolara mniej. W pojedynku sprzedawca-Opus kontra kupujący-Haiku średnia cena dochodziła do 24,18 dolara, podczas gdy Opus-kontra-Opus zjeżdżała do 18,63 dolara. Proste: lepszy model po drugiej stronie potrafi ściąć cenę. [9][8]
  • Skala różnic bywała bardzo konkretna: ten sam zepsuty składak „wynegocjowany” przez Opusa poszedł za 65 dolarów, a przy Haiku – za 38 dolarów. Podobnie laboratoryjny rubin: 65 vs 35 dolarów.
  • Uczestnicy nie zauważali, że są w gorszej pozycji. Ocena „sprawiedliwości” transakcji była niemal identyczna dla Haiku i Opusa (4,06 vs 4,05 w ankiecie po eksperymencie). Z 28 osób, które doświadczyły obu modeli, 17 wyżej oceniło rundę z Opusem, ale 11 – odwrotnie. [8]
  • „Prompt engineering” nie zrobił magii. Styl negocjacji, o jaki prosili uczestnicy, nie miał istotnego wpływu na to, czy transakcja dojdzie do skutku ani na finalną cenę. Agresywni sprzedawcy dostawali więcej głównie dlatego, że… wystawiali wyższe ceny na start.

Kontekst: od copilotów do kupujących z prawdziwego zdarzenia

Anthropic wcześniej bawił się w „Project Vend” – Claude prowadził mini-biznes z biura. Teraz poszli krok dalej: dali agentom realny budżet i kazali załatwiać sprawy bez nadzoru. To więcej niż chatbot do doradzania przy zakupach. To test: co się stanie, gdy dwie AI-ki zaczną robić interesy, a człowiek dostanie tylko powiadomienie „zaakceptowano”? Firma podsumowała to bez nadęcia, ale wymownie: byli „zaskoczeni, jak dobrze to działa”. Uczestnicy deklarowali nawet gotowość, by zapłacić za taką usługę.

To, że działa, nie rozwiązuje jednak pytań, które z tej zabawy wyłażą jak sprężyny z kanapy:

  • Równość szans. Jeśli „mocniejszy” agent systemowo negocjuje lepsze warunki, a „słabszy” użytkownik tego nie czuje – mamy przepis na niewidoczną przewagę bogatszych (albo tych, którzy wybrali lepszy model).
  • Przejrzystość i odpowiedzialność. Gdy agent-agenta oszuka, kto odpowiada? Twórca modelu, platforma, użytkownik, a może nikt, bo „to tylko algorytm”? Eksperyment nie odpowiada, ale świetnie stawia problem.
  • Antyfraud i moderacja. Gdy transakcje zamykają się w tempie maszyn, systemy weryfikacji muszą działać równie szybko i sprytnie. To nie jest science fiction, to kwestia projektowa dla marketplace’ów – od serwisów ogłoszeniowych po B2B.

Lekcja na dziś: kompetencja bije gadkę

Najtrzeźwiejsza konkluzja płynie z rozjechania się hype’u o „magicznych promptach” z realiami: w handlu prowadzonym przez agentów liczy się przede wszystkim zdolność modelu, nie kwiecistość instrukcji. Krótko mówiąc, jeśli wchodzimy w epokę zakupów „zlecanych” AI, to wybór modelu będzie miał wpływ na portfel. Nawet jeśli tego nie poczujemy.

Podsumowanie

To był pilotaż, niewielka grupa, kontrolowane warunki. Ale jako dowód możliwości – bardzo konkretny: 186 realnych transakcji, realne pieniądze, realne różnice w wynikach zależne od modelu. Anthropic sugeruje, że do prawdziwego handlu agent-agent już niedaleko. Pytanie brzmi: kiedy twojego zakupowego bota spotka bot sprzedającego, kto wygra – i czy w ogóle się zorientujesz?

Źródła

🧠 Czy ten artykuł dał Ci nową perspektywę?
Jedno kliknięcie. Zero kont. PressMind uczy się razem z Tobą.
Ładowanie oceny…
PressMind Labs - Ślad badawczy

To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.

9 źródeł użytych w tekście
9 niezależnych domen
3 min 18 s czas researchu
Wysoki sygnał jakości
Skan tematu
191 z 316 sygnałów (RSS: 3083)
Zachowano: 191 (60%) | Odrzucono: 89 (28%)
Źródła (finalne)
9 źródeł z 9 domen
Start: 1 | Finalnie: 9
Czas researchu
3 min 18 s
Różnorodność domen: 9 Źródła użyte: 9 Kontekst: pominięty

1. Zbieranie sygnałów (discovery)

Temat
Anthropic created a test marketplace for agent-on-agent commerce
RSS - źródeł w configu
93
RSS - stan źródeł
93 / 93 OK
RSS - przepływ (od surowych do unikalnych)
3083 -> 2999 -> 463 -> 316
RSS - usunięte duplikaty tytułów
4
Pula tematów (z RSS)
316
Wybrane do analizy
191
Odrzucone
89
Klastry (wątki)
149

2. Selekcja i filtrowanie

Odrzucono semantycznie (embedding)
6

3. Wyszukiwanie i wzbogacanie

Zapytania wyszukiwawcze
16
Unikalne wyniki
61
Kandydaci
22
Dodane z wyszukiwania (cache+live)
8
Przeskanowano URL-i (research)
1

4. Finalny kontekst

Źródła użyte w tekście
9
Źródła (domeny)
9
Wikipedia - kontekst
nie
Expansion - kontekst
nie
Wyłuskane liczby
0
Ten proces pokazuje, jak z dziesiątek sygnałów wyłania się kilka sprawdzonych źródeł, na których oparto finalny tekst.

Dodaj komentarz