Adatbányászat / Data mining: mi mindent rejthet az adat?
Az utóbbi időben rengeteg szó esik a mesterséges intelligencia (MI) térnyeréséről, lehetséges hatásairól, ami főként a chatGPT berobbanásának köszönhető. Szinte mindenkiben felmerülnek kérdések:
- Hogyan fogja befolyásolni az életünket az MI?
- Tényleg elveszi az állásomat?
- Hogyan tudnék részt venni az MI forradalomban?
- Hogyan tudna a cégem hatékonyabban működni az MI segítségével?
Közben arról is sokat lehet hallani, hogy az MI nem a chatGPT-vel kezdődött. Erről mi is beszéltünk már podcast-ben, adtunk elő a Pécsi Tudományegyetem Mesterséges Intelligencia szakmai napján, és számos érdeklődő ügyfelünk felkérésére céges rendezvényeken.
Tapasztalatunk szerint azonban sokszor összekeverednek a fogalmak. Ez nem feltétlenül probléma, de könnyen félreértésekhez vezethet. Ezért indítjuk cikksorozatunkat, amiben megpróbáljuk összeszedni és üzleti szempontból érthetővé tenni mik a legfontosabb szakmai fogalmak a témakörben.
Mi is az adatbányászat?
Első cikkünkben az adatbányászatot (Data Mining) járjuk körül. Sok mai mesterséges intelligencia szakértő a karrierje kezdetén még adatbányászként dolgozott, és sok átfedés is van az egyes fogalmak között.
Az adatbányászat célja, hogy értékes információt, mintázatokat nyerjünk ki nagy méretű adathalmazokból. Az üzleti életben ez azt jelenti, hogy olyasmit találunk az adatokban, amit az üzletmenet szempontjából fel tudunk használni, tehát valamilyen üzleti célt támogat, mint például:
- Jobban megismerjük az ügyfeleinket és hatékonyabban tudunk velük kommunikálni
- Megértjük ügyfeleink viselkedését és időben tudunk reagálni az igényeikre
- Észrevesszük a gyanús kártya tranzakciókat és megelőzzük az esetleges csalásokat
A hagyományos statisztikai eljárásoktól eltérően itt fontos szempont az adathalmaz mérete. Az adatbányászati eljárások, algoritmusok sajátossága, hogy sok adaton is hatékonyan működnek, így például több millió vásárlási tranzakció vagy ügyfelek közötti interakció is vizsgálható velük anélkül, hogy kisebb mintákat kellene vennünk az adatokból és a mintavételezés miatt esetleg elveszítenénk releváns információt.
Mire tudom használni az adatbányászatot az üzleti életben?
Az üzleti életben szinte minden szektorban bizonyított már az adatbányászat:
- Meglévő folyamatok optimalizálása
- Új folyamatok kialakítása
- Új bevételi források felállítása
Az adatbányászati projektek sajátosságai
Szintén fontos kiemelni az adatbányászat másik sajátosságát: esetenként olyan adatokkal dolgozunk ezekben a projektekben, amiket – például a méretük miatt – korábban a szervezet nem használt, így nem tudjuk előre megmondani, hogy egyáltalán van-e benne értékes információ. Ennek a projekt előzetes megtérülés elemzésénél van kiemelt jelentősége, hisz nem minden esetben tudjuk megmondani a várható nyereséget, ellenben a költség azonnal látszik.
Így a ROI (Return On Investment) kalkuláció sem végezhető el megfelelő minőségben. Szerencsére ma már sok tapasztalat felgyülemlett az adatbányászati projektekben, így megfelelő szakértelemmel és tapasztalattal, valamilyen becslést azért tudunk adni, ami egy projekt jóváhagyatási folyamathoz már megfelelő pontosságú. Fontos azonban kiemelni, hogy a szervezet számára érthetővé kell tenni az adatbányászati projektek sajátosságait és a folyamatinkat is fel kell készíteni ezek megfelelő kezelésére.
De hol tárolok ennyi adatot?
Az adatbányászati tevékenység előfeltétele, hogy szükségünk van hozzá adatra. Itt több megközelítés is lehetséges:
- Data Lake: az összegyűjtött nagy mennyiségű adatot (pl. Forrásrendszerekből, web-ről) betölthetem egy olyan adattároló rétegbe, ahol azt hatékonyan és olcsón tudom kezelni.
- Data Warehoue vagy Adattárház: Általában a nagyvállalatok szoktak adattárházat létrehozni, amiben a vállalatban elérhető lényeges adatokat rendszerezetten, strukturáltan tárolják.
- Data Mart vagy Adatpiac: A vállalat egy adott üzleti funkciójának ellátását támogató adattároló réteg, melyben specifikusan az adott üzleti terület számára készítjük elő az adatokat riportozás, elemzés, adatbányászat céljára.
Adatbányászat és projektmenedzsment kapcsolata
Az adatbányászati projektek menedzselésére több megközelítés is létezik. Az egyik legelterjedtebb a CRISP-DM (Cross-Industry Standard Process for Data Mining) módszertan, melyet számos szervezet követ kisebb-nagyobb módosításokkal.
A módszertan egyik nagy előnye, hogy felhasználási területtől függetlenül alkalmazható keretet ad az adatbányászati projektek menedzseléséhez.
A módszertan 6 fázisból áll, melyek között iteratív halad a projekt, tehát egy – egy fázisban előfordulhat, hogy olyan eredménnyel zárul, ami miatt vissza kell lépni egy előző fázishoz, és onnan újra végig kell haladni a megfelelő fázisokon:
- Üzleti célok beazonosítása (Business Understanding)
- Adatok megismerése (Data Understanding)
- Adatok előkészítése (Data Preparation)
- Adatbányászati modellezés (Modeling)
- Kiértékelés (Evaluation)
- Élesítés (Deployment)
Hogyan tudom ellenőrizni, hogy jól működik egy ilyen komplex logika?
Az adatbányászat sajátossága, hogy jellemzően olyan nagy mennyiségű adatot dolgoz fel, amit nem tudunk például egy Excel-ben egyszerűen átnézni. Ezért sokszor Big Data megoldásokat is szükséges alkalmazni az adatok hatékony menedzsmentjéhez. Emellett az adatbányászati eljárások is sok esetben bonyolult, komplex matematikai eljárások, amit nem minden esetben tudunk üzletileg könnyedén értelmezni.
Szintén nagyon fontos – és sok esetben alhanyagolt – feladat az adatbányászati modellek és az általa feldolgozott adatvagyon ellenőrzése, tesztelése:
- Minden rendelkezésre álló és releváns felhasználtunk?
- Megfelelő minőségű a felhasznált adat?
- A valós üzleti cél szempontjából releváns a modellünk eredménye?
- Előfordulhat-e, hogy nem várt káros következménye lesz a modell alkalmazásának az üzleti tevékenységre vonatkozóan?
Megfelelő tesztelési és validációs módszertanok alkalmazásával az adatbányászat eredményeinek nem várt káros következményei elkerülhetők!
Milyen eszközöket használnak az adatbányászok?
Az adatbányászat során számos eszközt használhatunk, azonban van néhány, ami jobban elterjedt.
A programozási nyelvek közül:
- SQL: az adatok kinyerésére és esetleges transzformációjára nyújt kiváló lehetőségeket
- Python és/vagy R: a teljes adatbányászati tevékenységet lefedhetjük velük, de sokan az SQL mellett használják az adatok manipulációjára, a modellek fejlesztésére és validációjára. Az utóbbi években a Python kezdte átvenni az egyeduralmat a 2 nyelv közül.
Low code / No code eszközök:
Ezek mellett természetesen a nagy felhőszolgáltatók szolgáltatás kínálatában is megtalálható minden releváns eszköz az adatbányászati tevékenységek elvégzéséhez:
Hogyan kapcsolódik az Adatbányászat a Generatív Mesterséges Intelligenciához?
Az üzleti területek képviselőinek azt szoktuk mondani, hogy nem kell igazán törődniük azzal, hogy egy üzleti problémára adott megoldás vajon adatbányászatnak számít, gépi tanulásnak vagy mesterséges intelligenciának. A területek között amúgy is vannak átfedések, és ritka, hogy valakinek az lenne a fontos, hogy az üzleti értékét csak az egyik vagy a másik megközelítéssel szeretné elérni J
A generatív mesterséges intelligencia (pl. chatGPT) viszont sokat kapott a szövegbányászattól és a gépi tanulástól is. A szövegbányászatból az NLP (Natural Language Processing), a gépi tanulásból pedig a neurális hálózatok (Neural Network) eljárások teremtettek meg sok alapot ahhoz, hogy ma izgalmas beszélgetéseket folytathassunk a chatGPT-vel (OpenAI) vagy a Gemini-vel (Google).