Czy masz w telefonie portret, który aż prosi się o ruch? Google twierdzi, że teraz zrobi z niego gotowy, pionowy klip pod TikToka czy Shorts jednym kliknięciem – i to z bohaterem, który nie zmienia twarzy w każdej scenie.
Google rozwinęło Veo 3.1: moduł Ingredients to Video potrafi zamieniać zdjęcia referencyjne w natywne pionowe wideo 9:16. Do tego dorzuca lepszą spójność bohaterów i tła między ujęciami oraz podbicie jakości do 1080p i – przez wbudowany upscaler – 4K. Funkcje trafiają do aplikacji Gemini, YouTube Shorts i YouTube Create, a także do narzędzi dla profesjonalistów (Gemini API, Vertex AI, Google Vids).
Dlaczego to ważne? Bo vertical to lingua franca mobilnych platform, a generatywne wideo przestaje być loterią. Jeśli Veo faktycznie „słucha” zdjęć bazowych i utrzymuje tożsamość postaci oraz scenografię, to nagle krótkie formaty zyskują produkcyjną kontrolę, której do tej pory brakowało. Krócej: mniej losowości, więcej narracji – gotowej do wrzucenia prosto na feed.
O co chodzi
Ingredients to Video pozwala nakarmić Veo kilkoma obrazami – postacią, tłem czy teksturą – i opisać, co ma się wydarzyć. Nowa wersja uważniej trzyma się tych referencji, a wygenerowane klipy są „bardziej ekspresyjne i dynamiczne”, nawet przy oszczędnych promptach. Efekt? Postać wygląda tak samo w różnych scenach, obiekty i tła nie „pływają”, a całość lepiej się skleja w spójny wizualnie klip. [2][1]
Największa zmiana dla twórców mobilnych to natywny 9:16. Do tej pory pion był dostępny głównie z promptów tekstowych lub wymagał kombinowania w postprodukcji. Teraz Veo wyrzuca vertical od razu – bez cropu i utraty jakości – więc materiał jest gotowy do uploadu na Shorts, Reels czy TikToka.
Kontekst: pion rządzi, kontrola ma znaczenie
Google już wcześniej eksperymentowało z foto→wideo. W Gemini można było animować zdjęcia do krótkich, horyzontalnych klipów z dźwiękiem; do Google Photos trafiła uproszczona animacja „subtle movements” oparta na starszej wersji Veo. Ale to dopiero obecna aktualizacja układa puzzle: pełna obsługa referencji, porządna spójność i pionowy kadr – w jednym miejscu i w głównych produktach. [7][3]
To także ruch w wyścigu z konkurencją. Wideo-AI staje się funkcją, nie aplikacją. Google integruje Veo w Gemini, YouTube i Workspace, celując zarówno w amatorów, jak i w studia czy marki. A pion? To dziś domyślny format internetu na telefonie. Trudno o lepszą drogę do masowej adopcji. [6][5]
Fakty, dane, cytaty
- Natywne wyjścia 9:16 dla Ingredients to Video: bez cropowania, gotowe pod Shorts i spółkę.
- Lepsza „identity consistency”: ta sama postać ma wyglądać tak samo w różnych klipach i sceneriach; można też ponownie używać obiektów, teł i tekstur.
- Usprawnienia ekspresji i ruchu przy krótszych promptach, plus lepsze „sklejanie” różnych elementów w jedno spójne ujęcie.
- Jakość: poprawione 1080p i upscaling do 4K wewnątrz platformy. The Verge przypomina, że to nie jest publicznie dostępna natywna generacja 4K, o której Google mówiło kiedyś – ale lepszy upscaler to i tak oszczędność w workflow. [2]
- Dostępność: nowe funkcje w Gemini (w tym pion w Veo), integracja z YouTube Shorts i aplikacją YouTube Create; dla pro – Gemini API, Vertex AI i Google Vids. [1][3]
- Oznaczanie treści: filmy z narzędzi Google dostają niewidoczny watermark SynthID oraz widoczne oznaczenie, że to AI.
Drobna ironia na chłodno
Czy to znaczy, że nasze feedy zaraz zaleje fala idealnie pionowych, idealnie nijakich klipów? Pewnie trochę tak. Ale ważniejsze jest co innego: kontrola. Gdy postać nie mutuje między ujęciami, a tło nie „tańczy”, można wreszcie planować ciągłość wizualną, łączyć sceny i opowiadać mikrohistorie – nawet jeśli wciąż w granicach krótkiego formatu. To krok od efektownych demonstracji w stronę narzędzia do realnej produkcji.
Do tego umocowanie w YouTube Create i Shorts sprawia, że Veo staje się mniej „demo na konferencji”, a bardziej „przycisk w aplikacji”, który ktoś rzeczywiście kliknie. Ograniczenia? Brak publicznego natywnego 4K, możliwe ograniczenia regionalne i subskrypcyjne w Gemini, a także klasyka gatunku: AI nadal potrafi zaskoczyć w złym momencie. Stąd SynthID – bo jeśli coś wygląda zbyt gładko, dobrze mieć sygnaturę pochodzenia.
Podsumowanie
Google dopasowało Veo do świata, który przewija kciukiem – i lubi, gdy wszystko wypełnia ekran. Pionowe wyjścia, lepsza spójność i podbite rozdzielczości robią z Ingredients to Video narzędzie bardziej praktyczne niż pokazowe. Czy to wystarczy, by krótkie formy przestały być chaotycznymi miksami i stały się miniopowieściami z charakterem? To już zależy od tego, co w te obrazy-referencje wrzucisz.
FAQ
Jak zamienić pionowe zdjęcie w pionowe wideo w Veo?
Trzeba użyć funkcji Ingredients to Video w aplikacji Gemini lub w YouTube Create/Shorts i wybrać wyjście 9:16. Wgrywasz zdjęcia referencyjne i dopisujesz krótki opis ruchu.
Czy Veo 3.1 generuje natywne 4K?
Nie, publicznie dostępna jest poprawiona generacja 1080p oraz upscaling do 4K. To przyspiesza workflow, ale nie zastępuje natywnej generacji 4K.
Gdzie dostępne są pionowe wyjścia i ulepszone Ingredients to Video?
Funkcje są w Gemini, YouTube Shorts i YouTube Create, a dla pro w Gemini API, Vertex AI i Google Vids. Dostępność może zależeć od regionu i planu.
Czy Veo utrzyma wygląd tej samej postaci w kolejnych scenach?
Tak, aktualizacja poprawia „identity consistency” między klipami i sceneriami. Możesz też ponownie używać tych samych obiektów i teł.
Czy wygenerowane filmy są znakowane jako AI?
Tak, Google osadza niewidzialny watermark SynthID oraz widoczne oznaczenie. To pomaga w weryfikacji pochodzenia treści.
Źródła
- [1] https://blog.google/innovation-and-ai/technology/ai/veo-3-1-ingredients-to-video/
- [2] https://theverge.com/news/861257/google-veo-3-1-ai-video-ingredients-vertical-update
- [3] https://techcrunch.com/2026/01/13/googles-update-for-veo-3-1-lets-users-create-vertical-videos-through-reference-images/
- [4] https://androidpolice.com/photo-to-video-generator-google-photos/
- [5] https://petapixel.com/2025/08/27/google-vids-uses-ai-to-turn-photos-into-videos/
- [6] https://mashable.com/article/google-veo-3-vertical-video-support
- [7] https://theverge.com/news/703885/google-gemini-ai-photo-video-feature-availability
To nie jest ozdobnik. To ślad po procesie: ile informacji było szumem, ile stało się wiedzą i jak wyglądał research, zanim powstał ten tekst.
1. Zbieranie sygnałów (discovery)
- RSS - źródeł w configu
- 63
- RSS - stan źródeł
- 63 / 63 OK
- RSS - przepływ (od surowych do unikalnych)
- 2436 -> 2379 -> 377 -> 319
- RSS - usunięte duplikaty tytułów
- 1
- Pula tematów (z RSS)
- 319
- Wybrane do analizy
- 220
- Odrzucone
- 99
- Klastry (wątki)
- 121
2. Selekcja i filtrowanie
- Odrzucono po tytule
- 41
- Odrzucono semantycznie (embedding)
- 0
3. Wyszukiwanie i wzbogacanie
- Zapytania wyszukiwawcze
- 10
- Unikalne wyniki
- 51
- Kandydaci
- 4
- Dodane z wyszukiwania (cache+live)
- 4
- Przeskanowano URL-i (research)
- 3
4. Finalny kontekst
- Źródła użyte w tekście
- 7
- Źródła (domeny)
- 6
- Wikipedia - kontekst
- tak
- Expansion - kontekst
- nie
- Wyłuskane liczby
- 0




