Umělá inteligence je zaklínadlo posledních měsíců. Ve svém byznysu ale AI už od samého začátku vyžívá společnost Semantic Visions, která zpracovává, třídí a vyhodnocuje zpravodajské obsahy z celého světa. Výsledky pak prodává firmám. „V současnosti vidíme velký potenciál v rozvoji služeb pro finanční trhy. Ale aktivně rozpracovávaných nápadů máme asi stovku,“ říká managing director Semantic Visions Jan Balatka v rozhovoru pro newstream.cz.
Kdo patří k vašim hlavním klientům a co klienti v dnešní době nejčastěji požadují?
Klienty máme prakticky z celého světa. Nejčastěji z Evropy a Spojených států, nově i na Blízkém Východě. Nejčastěji požadují data buď ve formě monitorování vybraných oblastí v téměř reálném čase anebo prověření historických událostí publikovaných v globálních médiích, a to až o pět let zpět.
Ze kterých sektorů klienti přicházejí nejčastěji?
Neřekl bych, že by nějaké odvětví vyloženě dominovalo. Naše produkty využívají jak státní instituce, tak i společnosti ve výrobním i maloobchodním sektoru, farmacii, finančnictví, ale i globální poradenské firmy a nově třeba také vydavatelství. Nicméně na co se v současnosti při vývoji nových produktů hodně soustředíme, je rozvoj služeb pro finanční trhy.
Jaké informace dokážete klientům najít v otevřených zdrojích?
V podstatě jakékoliv. V praxi v článcích nejprve vyhledáváme tzv. pojmenované entity. Pod tímto odborným a pro laika záhadným termínem si můžeme představit právnické osoby, fyzické osoby, lokace nebo komodity. Připravujeme ale i doplňující pojmenované entity jako produkty, měny nebo regulace. V další fázi detekujeme témata a události zmíněné v článcích. Těch je většinou v každém článku několik a vztahují se k různým entitám. Ilustroval bych to na článku o porušování pravidel v rámci boje proti praní špinavých peněz a financování terorismu. Tématy by byla například „porušení pravidel AML“, „regulace AML“, případně „vyšetřování příslušným úřadem“. A konečně v posledním kroku nacházíme vztah mezi pojmenovanou entitou a tématem či událostí.
Výsledkem je tedy velmi přesná informace, která hovoří o tématu, události nebo entitě, která klienta opravdu zajímá. Nezahlcujeme ho množstvím nerelevantních článků, kde je třeba sice téma zmíněno, ale už není relevantní ve vztahu k dané entitě. To sice vypadá dobře na papíře, ale pro klienta to má nulový nebo i záporný přínos, protože ještě musí věnovat energii tomu, aby si sám vyfiltroval, co potřebuje.
Pochopení minulosti utváří lepší budoucnost
Jak s daty dál pracujete?
Historicky bylo nalezení vztahu mezi pojmenovanou entitou a tématem či událostí nejzazším možným stupněm zpracování. Takto zpracovaná data byla nabízena klientům ve formě kontinuálního monitoringu anebo ověření událostí do minulosti. My nicméně jdeme ještě dál a rozvíjíme řadu dalších kroků – z výsledků například stavíme znalostní grafy, díky kterým půjde v budoucnu velmi rychle dotazovat informační kontext nebo pracujeme na backtestingu vůči různým veličinám. To může být velmi zajímavé pro finanční trhy, kdy na základě historických dat bude možné simulovat, jak by obchodní nebo cenová strategie fungovala v minulosti, a tím do budoucna snížit riziko, že se společnost „spálí“.
Váš byznys je postaven na AI a strojovém učení, které se v posledních měsících stává hitem. Jakým způsobem vaše AI funguje?
AI je zaklínadlo, které se sice ve velké míře začalo skloňovat až v poslední době, ale jde o obor, který se rozvíjí už od padesátých let minulého století. V Semantic Visions s umělou inteligenci pracujeme už od samotného vzniku, kdy pro různé fáze zpracování dat používáme různé metody a algoritmy. Pro rozeznávání pojmenovaných entit a clustering například využíváme strojové učení, pro kategorie témat znalostní systém, hluboké učení pro odfiltrování nevhodného obsahu a takto bych mohl pokračovat dále. Díky tomu můžeme optimalizovat přesnost, výtěžnost, rychlost a ve výsledku i cenu zpracování.
Jaké další služby v tuto chvíli chystáte?
Jak už jsem naznačil, v současnosti se hodně soustředíme na rozvoj služeb pro finanční trhy, kde vidíme velký potenciál. Zároveň rozvíjíme i samotnou bázi našich takzvaných signálů, tedy témat či událostí navázaných na dané pojmenované entity. Neustále tak přidáváme nová témata a události, a to ve všech dvanácti jazycích, v nichž umíme data vyhledávat a třídit. Pracujeme na rozvíjení spolupráce s dalšími českými či zahraničními firmami, díky kterým nově umíme detekovat únik přihlašovacích údajů na darkweb nebo rozeznat autorství článku. Plánujeme také naše data integrovat do dalších globálních softwarů, podobně jako jsou jedním z datových zdrojů pro řízení dodavatelských rizik v systému SAP Ariba, s jedním z našich klientů jednáme o rozšíření vyhledávání v dalších jazycích…
Když jsme si před tři čtvrtě rokem sestavili seznam požadavků stávajících klientů a našich vlastních nápadů, tak jsme se dostali téměř ke stovce položek. Takže by se dalo říct, že jsme ve fázi konstantního dohánění. Což je pro celý tým ohromná motivace a věřím, že i díky tomu se v našem oboru držíme na světové špičce.
Jan Balatka
Specialista na technologické projekty. Po studiích začal pracovat v oddělení řízení kybernetických rizik ve společnosti Deloitte ČR. Postupem času se zaměřoval kromě kybernetických hrozeb i na analytické a forenzní technologie pro služby vyšetřování podvodů. Poté vedl divizi Analytiky, umělé inteligence a eDiscovery pro region střední Evropy v Deloitte. Během 18leté práci v Deloitte se účastnil a později řídil množství projektů i mimo ČR, zejména ve Švýcarsku, v Kanadě a v Německu. Kromě projektové činnosti měl na starosti i vedení a rozvíjení divizí spojených s datovou analytikou či strojovým učením. Sem patřilo i budování aliancí a partnerství nejen s velkými značkami, ale především s lokálními týmy subdodavatelů, startupy a inovativními technologiemi.