Data Science:
Matematika és statisztika alapok
Értsd meg a kód mögötti matematikát, és nyerj ki minden fontos információt az adatokból statisztikai módszerekkel!
Szabolcs Péter
Lead Data Scientist
Digital Factory — Member of MOL Group

A KURZUSRÓL
- Időpont:
HAMAROSAN
- Hossz:
14 alkalom
- Formátum:
élő, online
Az adatok elemzéséhez nem elég ismerni az elméletet – alkalmazni is tudni kell a megfelelő matematikai és statisztikai módszereket. A Data Science alapozó képzésen a Python segítségével, gyakorlati feladatokon keresztül sajátíthatod el a leíró statisztika, a valószínűségszámítás, a hipotézisvizsgálat és a gépi tanulás alapjait.
KINEK AJÁNLJUK A KURZUST?
-
01
Kezdő adatelemzőknek
Megmutatjuk, hogyan használd a gyakorlatban a halmazműveleteket, a valószínűségszámítást és más, adatelemzéshez nélkülözhetetlen matematikai és statisztikai módszereket. Építs biztos alapokat, válaszd ki a megfelelő módszertant, és oldj meg valós adattudományi problémákat!
-
02
Üzleti elemzőknek
Data Science kurzusunkon megtanulod értelmezni az összetett adathalmazokat, és alapvető üzleti analitikai ismereteket szerezhetsz. Bővítsd a matematikai és statisztikai eszköztáradat, és készíts gyorsan reprodukálható elemzéseket!
-
03
Adatvezérelt vállalatok vezetőinek
Ismerd meg a leíró statisztikai mutatókat és az adatvizualizációs technikákat, és fejleszd az adatműveltségedet, hogy az üzleti döntéshozatal és az adattudományi csapatokkal való kommunikáció gördülékenyebben menjen!
Miért válaszd az r_d kurzusait?





MIRE SZÁMÍTHATSZ A KURZUSON?
-
01
Matematika és statisztika
Végig vesszük a legfontosabb matematikai és statisztikai alapokat: megismered a Kolmogorov-axiómákat, a központi határeloszlás tételét, halmazelmélet alapjait, és minden olyan építőelemet, amely a stabil elméleti alapok felállításához szükséges.
-
02
Python
Az alkalmakon a Python programnyelv segítségével ültetheted át a gyakorlatba a megszerzett elméleti tudást. Megtanítjuk használni Jupyter Notebookokban többek között a Pandas, a NumPy, a Matplotlib és a Plotly könyvtárakat, amelyekkel alapvető adatfeldolgozást, -vizualizációt és statisztikai vizsgálatokat végezhetsz.
-
03
Gépi tanulás alapok
Megmutatjuk, hogyan azonosíthatod az alapvető gépi tanulási problémák fajtáit, és elmerülsz a legegyszerűbb modellek elméleti hátterében. A Data Science alapjai képzés végére le tudsz majd Pythonban kódolni és futtatni alapvető regressziós, klasszifikációs és klaszterező algoritmusokat.
-
04
Gyakorlat
A kurzuson leíró statisztikai mutatók kiszámolásával, halmazműveletek elvégzésével, pont- és intervallumbecslésekkel, hipotézisvizsgálattal, valamint klasszifikációs modellek készítésével és az eredmények értelmezésével mélyítheted el az új tudást.
AZ ELŐADÓ
Szabolcs Péter
Lead Data Scientist
Digital Factory — Member of MOL Group
-
Évtizedes tapasztalattal rendelkezik az adattudomány területén, már a felsőoktatásban töltött évei alatt is oktatott statisztikát a Corvinus Egyetemen.
-
Karrierjét a Tresoritnál kezdte, ahol pályakezdőként egyből az üzleti intelligencia funkció létrehozásával mint kihívással szembesült, amivel sikeresen megbirkózott.
-
A Vodafone-nál töltött évei alatt data science feladatok széles spektrumáról szerzett első kézből tapasztalatot. Részt vett például szolgáltatók közötti roaming forgalomra épített anomáliadetekciós modellezésben, csalással érintett roaming hívások azonosításában és más projektekben, amelyek üzleti hatása eurómilliókban mérhetők.
-
A Magyar Telekomnál az általa készített dashboard- és churn-modellek üzleti folyamatokba ültetése kulcsszerepet töltött be a B2B szegmens ügyféllemorzsolódásának rekordalacsony szintre való csökkentésében.
-
A MOL-nál úttörő szerepet töltött be az országokon átívelő vevőbázis adatalapú szegmentálásában és az automatizált marketingajánlatok rendszerének felépítésében.
-
Jelenleg a Digital Factory-ban (a MOL Csoport tagja) dolgozik a hűségprogramhoz kapcsolódó perszonalizációs kezdeményezések menedzselésén és fejlesztésén tradicionális és generatív AI-modellek segítségével.
Kurzusprogram
-
01 alkalom
Python az adatelemzésben: első lépések I.
- A kurzus céljainak és tematikájának bemutatása
- Python telepítés, Jupyter notebookok használatának bemutatása
- Python alapok (adatstruktúrák, operátorok, etc.)
Az óra eredményeképpen:
• tudok kódot futtatni Jupyter Notebookban
• képes vagyok adatokkal és számokkal alapvető műveleteket elvégezni
• értem a for és while loopok működését Pythonban
• megértem, hogyan tudom a Pythont és a matematikát a munkámban használni -
02 alkalom
Python az adatelemzésben: első lépések II.
- NumPy és Pandas alapok
- Matplotlib és Plotly express alapok
Az óra eredményeképpen:
• tudok importálni és használni Python könyvtárakat
• képes vagyok adatokkal dolgozni a numpy és a pandas könyvtárak segítségével
• meg tudok jeleníteni és értelmezni adatokat a matplotlib és plotly express könyvtárak segítségével -
03 alkalom
Leíró statisztikai mutatók és vizualizációk
- Legfontosabb leíró statisztikák (átlag, módusz, medián, stb.)
- Szóródási mutatók
- Csúcsossági és ferdeségi együtthatók
- Alapvető adatvizualizációs technikák (box-plot, violin plot, jitter chart, stb.)
Az óra eredményeképpen:
• ki tudom számolni Pythonban az alapvető leíró statisztikai mutatókat
• meg tudom jeleníteni az adatot megfelelő módon
• képes vagyok adatvizualizációhoz használni a matplotlib és plotly express könyvtárakat
-
04 alkalom
Halmazelmélet alapok
- Alapvető halmazelméleti ismeretek
- Venn diagramok és azok használata
- Halmazműveletek
- Halmazok Pythonban
Az óra eredményeképpen:
• halmazokat értelmezni, velük műveleteket végrehajtani
• Venn-diagramok segítségével problémákat elemezni
• halmazokkal Pythonban dolgozni -
05 alkalom
Valószínűségszámítás elmélet
- Valószínűség és valószínűségi tér
- Kolmogorov axiómái
- Frekvencialista vs. bayesi megközelítés
- Feltételes valószínűség
- Bayes elmélete, erre példák
- Véletlen változók
- Eloszlások
- Várható érték
- Példák
Az óra eredményeképpen:
• átlátom a valószínűségszámítás legfontosabb fogalmait
• értem és alkalmazni is tudom a feltételes valószínűségszámítást
• tisztában vagyok a frekvencialista és a bayesi megközelítések lényegével
• tisztában vagyok a frekvencialista és a bayesi megközelítések lényegével -
06 alkalom
Nevezetes eloszlások
- Binomiális
- Normális (gaussi)
- Student féle t-eloszlás
- Poisson
- Khí-négyzet eloszlás
- Bernoulli-eloszlás
- Egyenletes eloszlás
- Pythonban való használatuk
Az óra eredményeképpen:
• tisztában vagyok a legalapvetőbb eloszlások lényegi jellemzőivel
• létre tudok hozni adott eloszlásnak megfelelő eloszlású változókat Pythonban -
07 alkalom
Központi határeloszlás tétele és mintavételezés
- Központi határeloszlás tétele
- Mintavételezési eljárások elmélete és gyakorlati tanácsok
- Minta és sokaság kapcsolata
Az óra eredményeképpen:
• értem a központi határeloszlás tételét és annak alkalmazhatóságát
• ismerem a különböző mintavételezési eljárásokat és ki tudom választani az adott kontextusban a legmegfelelőbbet -
08 alkalom
Véletlen változók közötti kapcsolat erősségének vizsgálata
- Arányskálán mért változók közötti kapcsolat: kovariancia és korreláció
- Arány és nominális változók: kereszttáblás elemzés, Khí-négyzet próba
- Ordinális változók: Spearman-féle rangkorreláció, Kendall-féle tau
- Nominális változók közötti kapcsolat: Khí-négyzet próba, Cramér-féle V mutató
Az óra eredményeképpen:
• fel tudom ismerni, hogy milyen fajta változókhoz milyen kapcsolaterősségi mutatót kell használni
• ezeket a mutatókat Pythonban ki tudom számolni és értelmezni tudom azokat -
09 alkalom
Pont- és intervallumbecslések
- Minta és sokaság kapcsolata
- Hogyan adjunk pontbecsléseket
- Központi határeloszlás tételének alkalmazása
- Pontbecslés a maximum likelihood módszerrel
- Konfidencia intervallumok használata, értelmezése
Az óra eredményeképpen:
• tisztában vagyok a minta és sokaság közötti kapcsolat természetével
• értem a maximum likelihood módszer működését
• tudok pont- és intervallumbecsléseket készíteni
• értelmezni tudom a konfidencia intervallumokat -
10 alkalom
Hipotézisvizsgálat
- Megfelelő hipotézisek felállítása
- Tesztstatisztika számítása
- P-érték és annak értelmezése
- Kapcsolat szignifikancia-szint és mintanagyság között
- Példák
Az óra eredményeképpen:
• fel tudok állítani megfelelő hipotéziseket és tudom tesztelni azokat
• értelmezni tudom a hipotézisvizsgálat eredményét, a p-értéket -
11 alkalom
Az idősoros adatok elemzésének alapjai
- Idősoros adatok természete
- Alapvető tulajdonságok tesztelése
- ARIMA módszertan megismerése
- Példák
Az óra eredményeképpen:
• képes vagyok idősoros adatokkal dolgozni
• idősoros adatok alapvető jellemzőit megállapítani és tesztelni
• egyszerű egyváltozós előrejelző modelleket készíteni -
12 alkalom
Gépi tanulás alapok: Regresszió
- Regressziós problémák bemutatása
- Lineáris regresszió elméleti alapjai (OLS)
- Modellek kiértékelése
- Regularizációs módszerek
- Python gyakorlat
Az óra eredményeképpen:
• képes vagyok regressziós problémákat azonosítani
• megismerem a lineáris regresszió elméleti alapjait
• le tudok futtatni lineáris regressziót Pythonban (sklearn könyvtár segítségével)
• értelmezni tudom a modell eredményeit és teljesítményét
• ismerek regularizációs módszereket és Pythonban használni is tudom őket -
13 alkalom
Gépi tanulás alapok: Klasszifikáció
- Klasszifikációs problémák bemutatása
- Logisztikus regresszió elméleti alapjai
- Modellek kiértékelése
- Keresztvalidáció
- Python gyakorlat
Az óra eredményeképpen:
• képes vagyok klasszifikációs problémákat azonosítani
• megismerem a logisztikus regresszió elméleti alapjait
• le tudok futtatni logisztikus regressziót Pythonban (sklearn könyvtár segítségével)
• értelmezni tudom a modell eredményeit és teljesítményét
• ismerek regularizációs módszereket és Pythonban használni is tudom -
14 alkalom
Gépi tanulás alapok: Klaszterezés
- Klaszterezési problémák bemutatása
- K-means és hierarchikus klaszterezés elméleti alapjai
- Eredmények kiértékelése
- Python gyakorlat
Az óra eredményeképpen:
• képes vagyok szegmentációs problémákat azonosítani
• megismerem a K-means és a hierarchikus klaszterezési eljárások elméleti alapjait
• le tudok futtatni logisztikus K-means és hierarchikus klaszterezést Pythonban
• értelmezni tudom a modellek eredményeit és teljesítményét




