Data Science:
Matematika és statisztika alapok
Nyerj ki minden fontos információt az adatokból statisztikai módszerekkel, és spórolj időt és pénzt mind magadnak, mind a cégednek!
Szabolcs Péter
Senior Data Scientist
MOL Group
A KURZUSRÓL
- Időpont:
NOVEMBER 13.
- Hossz:
14 alkalom
- Formátum:
élő, online
Az adatok elemzéséhez nem elég ismerni az elméletet – alkalmazni is tudni kell a megfelelő matematikai és statisztikai módszereket. Ezen a kurzuson a Python segítségével, gyakorlati feladatokon keresztül sajátíthatod el a leíró statisztika, a valószínűségszámítás, a hipotézisvizsgálat és a gépi tanulás alapjait.
Miért válaszd az r_d kurzusait?
KINEK AJÁNLJUK A KURZUST?
MIRE SZÁMÍTHATSZ A KURZUSON?
-
01
Matematika és statisztika
Végigvesszük a legfontosabb matematikai és statisztikai alapokat: megismered a Kolmogorov-axiómákat, a központi határeloszlás tételét és a maximum likelihood módszert. Emellett elsajátítod a hipotézisvizsgálatok módszertanát, és képes leszel kvalitatív adatokat is elemezni.
-
02
Python
A kurzuson a Python programnyelv segítségével ültetheted át a gyakorlatba a megszerzett elméleti tudást. Megtanítjuk használni Jupyter Notebookokban többek között a Pandas, a NumPy, a Matplotlib és a Plotly könyvtárakat, amelyekkel alapvető adatfeldolgozást, -vizualizációt és statisztikai vizsgálatokat végezhetsz.
-
03
Gépi tanulás alapok
Megtanulod azonosítani az alapvető gépi tanulási problémák fajtáit, és elsajátítod a legegyszerűbb modellek elméleti hátterét. A kurzus végére le tudsz majd futtatni lineáris és logisztikus regressziót, valamint hierarchikus klaszterezést a Pythonban.
-
04
Gyakorlat
A kurzuson leíró statisztikai mutatók kiszámolásával, halmazműveletek elvégzésével, pont- és intervallumbecslésekkel, hipotézisvizsgálattal, valamint klasszifikációs modellek készítésével és az eredmények értelmezésével mélyítheted el az új tudást.
AZ ELŐADÓ
Szabolcs Péter
Senior Data Scientist
MOL Group
-
Évtizedes tapasztalattal rendelkezik az adattudomány területén, már a felsőoktatásban töltött évei alatt is oktatott statisztikát a Corvinus Egyetemen.
-
Karrierjét a Tresoritnál kezdte, ahol pályakezdőként egyből az üzleti intelligencia funkció létrehozásával mint kihívással szembesült, amivel sikeresen megbirkózott.
-
A Vodafone-nál töltött évei alatt data science feladatok széles spektrumáról szerzett első kézből tapasztalatot. Részt vett például szolgáltatók közötti roaming forgalomra épített anomáliadetekciós modellezésben, csalással érintett roaming hívások azonosításában és más projektekben, amelyek eurómilliókban mérhetők.
-
A Magyar Telekomnál az általa készített dashboard- és churn-modellek üzleti folyamatokba ültetése kulcsszerepet töltött be a B2B szegmens ügyféllemorzsolódásának rekordalacsony szintre való csökkentésében.
-
A MOL-nál úttörő szerepet töltött be az országokon átívelő vevőbázis adatalapú szegmentálásában és az automatizált marketingajánlatok rendszerének felépítésében.
-
Jelenleg a MOL Digital Factoryban dolgozik a hűségprogramhoz kapcsolódó perszonalizációs kezdeményezések menedzselésén és fejlesztésén tradicionális és generatív AI-modellek segítségével.
Program
-
01 alkalom11.13. 18:00–19:30
Python az adatelemzésben: első lépések I.
- A kurzus céljainak és tematikájának bemutatása
- Python telepítés, Jupyter notebookok használatának bemutatása
- Python alapok (adatstruktúrák, operátorok, etc.)
Az óra eredményeképpen:
• tudok kódot futtatni Jupyter Notebookban
• képes vagyok adatokkal és számokkal alapvető műveleteket elvégezni
• értem a for és while loopok működését Pythonban
• megértem, hogyan tudom a Pythont és a matematikát a munkámban használni -
02 alkalom11.18. 18:00–19:30
Python az adatelemzésben: első lépések II.
- NumPy és Pandas alapok
- Matplotlib és Plotly express alapok
Az óra eredményeképpen:
• tudok importálni és használni Python könyvtárakat
• képes vagyok adatokkal dolgozni a numpy és a pandas könyvtárak segítségével
• meg tudok jeleníteni és értelmezni adatokat a matplotlib és plotly express könyvtárak segítségével -
03 alkalom11.20. 18:00–19:30
Leíró statisztikai mutatók és vizualizációk
- Legfontosabb leíró statisztikák (átlag, módusz, medián, stb.)
- Szóródási mutatók
- Csúcsossági és ferdeségi együtthatók
- Alapvető adatvizualizációs technikák (box-plot, violin plot, jitter chart, stb.)
Az óra eredményeképpen:
• ki tudom számolni Pythonban az alapvető leíró statisztikai mutatókat
• meg tudom jeleníteni az adatot megfelelő módon
• képes vagyok adatvizualizációhoz használni a matplotlib és plotly express könyvtárakat
-
04 alkalom11.25. 18:00–19:30
Halmazelmélet alapok
- Alapvető halmazelméleti ismeretek
- Venn diagramok és azok használata
- Halmazműveletek
- Halmazok Pythonban
Az óra eredményeképpen:
• halmazokat értelmezni, velük műveleteket végrehajtani
• Venn-diagramok segítségével problémákat elemezni
• halmazokkal Pythonban dolgozni -
05 alkalom11.27. 18:00–19:30
Valószínűségszámítás elmélet
- Valószínűség és valószínűségi tér
- Kolmogorov axiómái
- Frekvencialista vs. bayesi megközelítés
- Feltételes valószínűség
- Bayes elmélete, erre példák
- Véletlen változók
- Eloszlások
- Várható érték
- Példák
Az óra eredményeképpen:
• átlátom a valószínűségszámítás legfontosabb fogalmait
• értem és alkalmazni is tudom a feltételes valószínűségszámítást
• tisztában vagyok a frekvencialista és a bayesi megközelítések lényegével
• tisztában vagyok a frekvencialista és a bayesi megközelítések lényegével -
06 alkalom12.02. 18:00–19:30
Nevezetes eloszlások
- Binomiális
- Normális (gaussi)
- Student féle t-eloszlás
- Poisson
- Khí-négyzet eloszlás
- Exponenciális eloszlás
- Gamma-eloszlás
- Pythonban való használatuk
Az óra eredményeképpen:
• tisztában vagyok a legalapvetőbb eloszlások lényegi jellemzőivel
• létre tudok hozni adott eloszlásnak megfelelő eloszlású változókat Pythonban -
07 alkalom12.04. 18:00–19:30
Központi határeloszlás tétele és mintavételezés
- Központi határeloszlás tétele
- Mintavételezési eljárások elmélete és gyakorlati tanácsok
- Minta és sokaság kapcsolata
Az óra eredményeképpen:
• értem a központi határeloszlás tételét és annak alkalmazhatóságát
• ismerem a különböző mintavételezési eljárásokat és ki tudom választani az adott kontextusban a legmegfelelőbbet -
08 alkalom12.09. 18:00–19:30
Véletlen változók közötti kapcsolat erősségének vizsgálata
- Arányskálán mért változók közötti kapcsolat: kovariancia és korreláció
- Arány és nominális változók: kereszttáblás elemzés, Khí-négyzet próba
- Ordinális változók: Spearman-féle rangkorreláció, Kendall-féle tau
- Nominális változók közötti kapcsolat: Khí-négyzet próba, Cramér-féle V mutató
Az óra eredményeképpen:
• fel tudom ismerni, hogy milyen fajta változókhoz milyen kapcsolaterősségi mutatót kell használni
• ezeket a mutatókat Pythonban ki tudom számolni és értelmezni tudom azokat -
09 alkalom12.11. 18:00–19:30
Pont- és intervallumbecslések
- Minta és sokaság kapcsolata
- Hogyan adjunk pontbecsléseket
- Központi határeloszlás tételének alkalmazása
- Pontbecslés a maximum likelihood módszerrel
- Konfidencia intervallumok használata, értelmezése
Az óra eredményeképpen:
• tisztában vagyok a minta és sokaság közötti kapcsolat természetével
• értem a maximum likelihood módszer működését
• tudok pont- és intervallumbecsléseket készíteni
• értelmezni tudom a konfidencia intervallumokat -
10 alkalom12.16. 18:00–19:30
Hipotézisvizsgálat
- Megfelelő hipotézisek felállítása
- Tesztstatisztika számítása
- P-érték és annak értelmezése
- Kapcsolat szignifikancia-szint és mintanagyság között
- Példák
Az óra eredményeképpen:
• fel tudok állítani megfelelő hipotéziseket és tudom tesztelni azokat
• értelmezni tudom a hipotézisvizsgálat eredményét, a p-értéket -
11 alkalom12.18. 18:00–19:30
Kvalitatív adatok elemzése
- Kvalitatív változók elemzése
- Non-parametrikus módszerek
- Kontingencia táblák alkalmazása
- Példák
Az óra eredményeképpen:
• képes vagyok kvalitatív adatokat elemezni
• létre tudok hozni kontingencia táblákat és azokon hipotézisvizsgálatot tudok végezni -
12 alkalom01.06. 18:00–19:30
Gépi tanulás alapok: Regresszió
- Regressziós problémák bemutatása
- Lineáris regresszió elméleti alapjai (OLS)
- Modellek kiértékelése
- Regularizációs módszerek
- Python gyakorlat
Az óra eredményeképpen:
• képes vagyok regressziós problémákat azonosítani
• megismerem a lineáris regresszió elméleti alapjait
• le tudok futtatni lineáris regressziót Pythonban (sklearn könyvtár segítségével)
• értelmezni tudom a modell eredményeit és teljesítményét
• ismerek regularizációs módszereket és Pythonban használni is tudom őket -
13 alkalom01.08. 18:00–19:30
Gépi tanulás alapok: Klasszifikáció
- Klasszifikációs problémák bemutatása
- Logisztikus regresszió elméleti alapjai
- Modellek kiértékelése
- Keresztvalidáció
- Python gyakorlat
Az óra eredményeképpen:
• képes vagyok klasszifikációs problémákat azonosítani
• megismerem a logisztikus regresszió elméleti alapjait
• le tudok futtatni logisztikus regressziót Pythonban (sklearn könyvtár segítségével)
• értelmezni tudom a modell eredményeit és teljesítményét
• ismerek regularizációs módszereket és Pythonban használni is tudom -
14 alkalom01.13. 18:00–19:30
Gépi tanulás alapok: Szegmentáció
- Szegmentációs problémák bemutatása
- K-means és hierarchikus szegmentáció elméleti alapjai
- Eredmények kiértékelése
- Python gyakorlat
Az óra eredményeképpen:
• képes vagyok szegmentációs problémákat azonosítani
• megismerem a K-means és a hierarchikus klaszterezési eljárások elméleti alapjait
• le tudok futtatni logisztikus K-means és hierarchikus klaszterezést Pythonban
• értelmezni tudom a modellek eredményeit és teljesítményét
TUDJ MEG TÖBBET
A kurzussal kapcsolatos további információkért töltsd ki az űrlapot, és munkatársunk a lehető leghamarabb felveszi veled a kapcsolatot, hogy bővebb tájékoztatást adjon a kurzus részleteiről és áráról.