Część internautów z pewnością pamięta syntezator mowy Ivona, który odczytywał na głos dowolny tekst wklejony na dedykowanej stronie. Technologia, która wielu osobom kojarzyła się z zabawnymi filmikami na YouTube, w 2013 roku została dostrzeżona i zakupiona przez Amazon. Ivona Software z Gdyni przeniosła się na Oliwę, do młodej dzielnicy biznesowej Gdańska, a w listopadzie 2014 roku świat po raz pierwszy zobaczył Alexę.

Od tamtego czasu sporo się zmieniło. Za asystentem głosowym Amazon, bazującym na polskim syntezatorze głosu Ivona, teraz stoi wielotysięczny zespół na całym świecie.

Nad czym się pracuje nad morzem?

Gdańscy inżynierowie opracowują innowacyjne rozwiązania, które stanowią podstawę produktów i usług oferowanych przez Amazon na całym świecie, skupiając się na systemach rozproszonych i technologiach takich jak Text-to-Speech czy przetwarzanie języka naturalnego (Natural Language Understanding – NLU).

“Niezależnie jednak od tego, nad czym nasi inżynierzy aktualnie się pochylają, mają świadomość, że pracują kompleksowo i na wielką skalę. Projektujemy, rozwijamy i wspieramy istniejące oprogramowanie, gdyż chcemy, aby konsumenci odczuli prawdziwą różnicę”
Rafał Kukliński, dyrektor Centrum Rozwoju Technologii Amazon

Poznaj nasze zespoły

W Gdańsku pracuje kilka zespołów – każdy z nich rozwija inny aspekt technologii głosowej.

Natural Language Understanding – zespół buduje i rozwija usługi oparte na chmurze, które umożliwiają Alexie oraz AWS LEX zrozumienie ludzkiego języka. Procesowe uczenie maszynowe opracowane przez tutejszych inżynierów wspiera miliony konwersacji prowadzonych z asystentem głosowym.

Alexa Hybrid Engine – część większego teamu pracującego nad głosem Alexy, którym kieruje przekonanie, że głos jest najprostszym i najbardziej naturalnym sposobem komunikacji. Stąd dalszy cel: aby asystent głosowy był dostępny dosłownie wszędzie: także w trybie offline czy w samochodzie.

Alexa Text-to-Speech – dzięki temu zespołowi Alexa brzmi i mówi tak naturalnie, jakby była człowiekiem. Wdrażane przez gdańskich inżynierów funkcje, które umożliwiają programowanie umiejętności asystenta głosowego z wykorzystaniem różnorodnych mechanizmów, umożliwiają udostępnienie głosu Alexy z chmury obliczeniowej na dziesiątkach milionów urządzeń od Amazon oraz innych producentów.

TTS Software Methods & Practice – tutaj opracowywane są frameworki testowe end-to-end dla silnika Text-To-Speech oraz Sofware Development Kit (SDK). Wspierają one wdrażanie nowych funkcji w asystencie głosowym, a także umożliwiają śledzenie testów (również regresyjnych) związanych z nowymi możliwościami oraz ocenę wdrażanych ulepszeń. Czytelne wyniki umożliwiają szybkie wyciąganie wniosków, a adaptacja nowych praktyk rozwijania oprogramowania umożliwia implementowanie produktów w bezproblemowy i przewidywalny sposób.

TTS On-device – wdraża funkcje głosowe na urządzenia Amazon takie jak Fire Tablet, Fire TV czy Kindle, co umożliwia korzystanie z tych urządzeń niedowidzącym użytkownikom. Ogólnym celem teamu jest wdrażanie innowacji w technologii TTS na platformy mobilne, dzięki czemu rozmowa z urządzeniem może przypominać realną konwersację z inną osobą.

TTS Voices and Languages – rozwija i nadzoruje głosy wykorzystywane w technologii TTS. Zastosowanie technik głębokiego uczenia umożliwia głosom Alexy i Amazon Polly interpretację oraz wymowę tekstów w dokładny sposób, w różnych kontekstach – tak, aby zapewnić wrażenie rozmowy z żywymi osobami.

Amazon Polly – tutaj tekst jest zmieniany w ludzką mowę z wykorzystaniem usługi AWS Text-To-Speech, umożliwiając programistom tworzenie mówiących aplikacji – w ten sposób mogą zaprojektować zupełnie nowy rodzaj produktów czerpiących z technologii głosowej. Rozwijanie konsoli czy SDK, usług przeznaczonych dla klientów, umożliwia projektowanie rozwiązań z wykorzystaniem różnych rodzajów głosów z wielu języków. Klienci lub programiści mogą wybrać spośród nich ten, który pasuje do ich potrzeb, i wykorzystać do tworzenia aplikacji działających na wielu rynkach. Chciałbyś więcej się dowiedzieć o Polly? Odwiedź blog AWS dla developerów i zobacz nasz Polly Tech Talk.

Alexa Data Service & Alexa Machine Learning – rozwiązuje problemy lingwistyczne, z którymi mierzą się na co dzień inżynierowie pracujący nad technologiami głosowymi, wykorzystując do tego dane i skalowalne rozwiązania. W ten sposób generuje dane językowe, z których później czerpią nasze systemy rozumienia języka mówionego (Spoken Language Understanding – SLU).

Compliance Operations, zespół będący częścią organizacji Security and Compliance (HS3C), przykłada szczególną wagę do bezpieczeństwa naszych klientów, partnerów oraz dostawców i nieustannie dba o ich zdrowie oraz ochronę. To członkowie tego teamu gwarantują, że wszystkie produkty i usługi sprzedawane przez Amazon są zgodne z regulacjami. Zajmując się zadaniami operacyjnymi dla HS3C, zespół wspiera dostawców na wszystkich platformach Amazon i prowadzi działania klasyfikacyjne dotyczące produktów.

Jak widać, w Gdańsku za sukcesem Alexy stoi wielu ludzi. Jesteśmy pewni, że jeszcze nie raz usłyszycie o ich osiągnięciach w świecie technologii. Jeśli i Ty chciałbyś dołączyć do nas, zachęcamy do przejrzenia obecnych ofert pracy.