Data Science:
Matematika és statisztika alapok
Nyerj ki minden fontos információt az adatokból statisztikai módszerekkel, és spórolj időt és pénzt mind magadnak, mind a cégednek!
Szabolcs Péter
Senior Data Scientist
MOL Group
A KURZUSRÓL
- Időpont:
NOVEMBER 13.
- Hossz:
14 alkalom
- Formátum:
élő, online
Az adatok elemzéséhez nem elég ismerni az elméletet – alkalmazni is tudni kell a megfelelő matematikai és statisztikai módszereket. Ezen a kurzuson a Python segítségével, gyakorlati feladatokon keresztül sajátíthatod el a leíró statisztika, a valószínűségszámítás, a hipotézisvizsgálat és a gépi tanulás alapjait.
Miért válaszd az r_d kurzusait?
KINEK AJÁNLJUK A KURZUST?
MIRE SZÁMÍTHATSZ A KURZUSON?
-
01
Matematika és statisztika
Végigvesszük a legfontosabb matematikai és statisztikai módszereket: megismered Kolmogorov-axiómákat, a központi határeloszlás tételét, a Khí-négyzet próbát és a maximum likelihood módszert. Emellett elsajátítod a p-érték számítást, és képes leszel kvalitatív adatokat elemezni kontingenciatáblákkal.
-
02
Python
A kurzuson a Python programnyelv segítségével ültetheted át a gyakorlatba az elméletet. Megtanítjuk használni a Jupyter Notebook, a Pandas, a NumPy, a Matplotlib és a Plotly felületeket, amelyekkel adatfeldolgozást, -vizualizációt és statisztikai vizsgálatokat végezhetsz.
-
03
Gépi tanulás alapok
Megtanulod azonosítani a regressziós, a klasszifikációs és a szegmentációs problémákat, megismered a regularizációs módszereket, és nem okoz majd gondot a lineáris és a logisztikus regresszió, valamint a K-means és a hierarchikus klaszterezés lefuttatása a Pythonban.
-
04
Gyakorlat
A kurzuson leíró statisztikai mutatók kiszámolásával, halmazműveletek elvégzésével, pont- és intervallumbecslésekkel, hipotézisvizsgálattal, valamint klasszifikációs modellek készítésével és az eredmények értelmezésével mélyítheted el az új tudást.
AZ ELŐADÓ
Szabolcs Péter
Senior Data Scientist
MOL Group
-
Évtizedes tapasztalattal rendelkezik az adattudomány területén, már a felsőoktatásban töltött évei alatt is oktatott statisztikát a Corvinus Egyetemen.
-
Karrierjét egy dinamikusan fejlődő magyar start-upnál, a Tresoritnál kezdte Business Analyst pozícióban, ahol az üzleti intelligencia mint funkció bevezetésén dolgozott.
-
A Vodafone-nál töltött évei alatt részt vett egy CDR szintű nemzetközi projektben, valamint egy szolgáltatók közötti hívásforgalomra fókuszáló anomáliadetektáló modellt is készített, ami eurómilliós hasznot hozott a vállalatnak.
-
A Magyar Telekomnál olyan dashboardfejlesztéseken dolgozott, amelyek segítségével rekordalacsony szintre csökkent az ügyfelek lemorzsolódása.
-
A MOL-nál úttörő szerepet töltött be az országokon átívelő vevőbázis adatalapú szegmentálásában és az automatizált marketingajánlatok rendszerének felépítésében.
-
Jelenleg a MOL Digital Factoryban dolgozik a hűségprogramhoz kapcsolódó perszonalizációs kezdemények menedzselésén és fejlesztésén.
Program
-
01 alkalom11.13. 18:00–19:30
Python az adatelemzésben: első lépések I.
- A kurzus céljainak és tematikájának bemutatása
- Python telepítés, Jupyter notebookok használatának bemutatása
- Python alapok (adatstruktúrák, operátorok, etc.)
Az óra eredményeképpen:
• tudok kódot futtatni Jupyter Notebookban
• képes vagyok adatokkal és számokkal alapvető műveleteket elvégezni
• értem a for és while loopok működését Pythonban
• megértem, hogyan tudom a Pythont és a matematikát a munkámban használni -
02 alkalom11.18. 18:00–19:30
Python az adatelemzésben: első lépések II.
- NumPy és Pandas alapok
- Matplotlib és Plotly express alapok
Az óra eredményeképpen:
• tudok importálni és használni Python könyvtárakat
• képes vagyok adatokkal dolgozni a numpy és a pandas könyvtárak segítségével
• meg tudok jeleníteni és értelmezni adatokat a matplotlib és plotly express könyvtárak segítségével -
03 alkalom11.20. 18:00–19:30
Leíró statisztikai mutatók és vizualizációk
- Legfontosabb leíró statisztikák (átlag, módusz, medián, stb.)
- Szóródási mutatók
- Csúcsossági és ferdeségi együtthatók
- Alapvető adatvizualizációs technikák (box-plot, violin plot, jitter chart, stb.)
Az óra eredményeképpen:
• ki tudom számolni Pythonban az alapvető leíró statisztikai mutatókat
• meg tudom jeleníteni az adatot megfelelő módon
• képes vagyok adatvizualizációhoz használni a matplotlib és plotly express könyvtárakat
-
04 alkalom11.25. 18:00–19:30
Halmazelmélet alapok
- Alapvető halmazelméleti ismeretek
- Venn diagramok és azok használata
- Halmazműveletek
- Halmazok Pythonban
Az óra eredményeképpen:
• halmazokat értelmezni, velük műveleteket végrehajtani
• Venn-diagramok segítségével problémákat elemezni
• halmazokkal Pythonban dolgozni -
05 alkalom11.27. 18:00–19:30
Valószínűségszámítás elmélet
- Valószínűség és valószínűségi tér
- Kolmogorov axiómái
- Frekvencialista vs. bayesi megközelítés
- Feltételes valószínűség
- Bayes elmélete, erre példák
- Véletlen változók
- Eloszlások
- Várható érték
- Példák
Az óra eredményeképpen:
• átlátom a valószínűségszámítás legfontosabb fogalmait
• értem és alkalmazni is tudom a feltételes valószínűségszámítást
• tisztában vagyok a frekvencialista és a bayesi megközelítések lényegével
• tisztában vagyok a frekvencialista és a bayesi megközelítések lényegével -
06 alkalom12.02. 18:00–19:30
Nevezetes eloszlások
- Binomiális
- Normális (gaussi)
- Student féle t-eloszlás
- Poisson
- Khí-négyzet eloszlás
- Exponenciális eloszlás
- Gamma-eloszlás
- Pythonban való használatuk
Az óra eredményeképpen:
• tisztában vagyok a legalapvetőbb eloszlások lényegi jellemzőivel
• létre tudok hozni adott eloszlásnak megfelelő eloszlású változókat Pythonban -
07 alkalom12.04. 18:00–19:30
Központi határeloszlás tétele és mintavételezés
- Központi határeloszlás tétele
- Mintavételezési eljárások elmélete és gyakorlati tanácsok
- Minta és sokaság kapcsolata
Az óra eredményeképpen:
• értem a központi határeloszlás tételét és annak alkalmazhatóságát
• ismerem a különböző mintavételezési eljárásokat és ki tudom választani az adott kontextusban a legmegfelelőbbet -
08 alkalom12.09. 18:00–19:30
Véletlen változók közötti kapcsolat erősségének vizsgálata
- Arányskálán mért változók közötti kapcsolat: kovariancia és korreláció
- Arány és nominális változók: kereszttáblás elemzés, Khí-négyzet próba
- Ordinális változók: Spearman-féle rangkorreláció, Kendall-féle tau
- Nominális változók közötti kapcsolat: Khí-négyzet próba, Cramér-féle V mutató
Az óra eredményeképpen:
• fel tudom ismerni, hogy milyen fajta változókhoz milyen kapcsolaterősségi mutatót kell használni
• ezeket a mutatókat Pythonban ki tudom számolni és értelmezni tudom azokat -
09 alkalom12.11. 18:00–19:30
Pont- és intervallumbecslések
- Minta és sokaság kapcsolata
- Hogyan adjunk pontbecsléseket
- Központi határeloszlás tételének alkalmazása
- Pontbecslés a maximum likelihood módszerrel
- Konfidencia intervallumok használata, értelmezése
Az óra eredményeképpen:
• tisztában vagyok a minta és sokaság közötti kapcsolat természetével
• értem a maximum likelihood módszer működését
• tudok pont- és intervallumbecsléseket készíteni
• értelmezni tudom a konfidencia intervallumokat -
10 alkalom12.16. 18:00–19:30
Hipotézisvizsgálat
- Megfelelő hipotézisek felállítása
- Tesztstatisztika számítása
- P-érték és annak értelmezése
- Kapcsolat szignifikancia-szint és mintanagyság között
- Példák
Az óra eredményeképpen:
• fel tudok állítani megfelelő hipotéziseket és tudom tesztelni azokat
• értelmezni tudom a hipotézisvizsgálat eredményét, a p-értéket -
11 alkalom12.18. 18:00–19:30
Kvalitatív adatok elemzése
- Kvalitatív változók elemzése
- Non-parametrikus módszerek
- Kontingencia táblák alkalmazása
- Példák
Az óra eredményeképpen:
• képes vagyok kvalitatív adatokat elemezni
• létre tudok hozni kontingencia táblákat és azokon hipotézisvizsgálatot tudok végezni -
12 alkalom01.06. 18:00–19:30
Gépi tanulás alapok: Regresszió
- Regressziós problémák bemutatása
- Lineáris regresszió elméleti alapjai (OLS)
- Modellek kiértékelése
- Regularizációs módszerek
- Python gyakorlat
Az óra eredményeképpen:
• képes vagyok regressziós problémákat azonosítani
• megismerem a lineáris regresszió elméleti alapjait
• le tudok futtatni lineáris regressziót Pythonban (sklearn könyvtár segítségével)
• értelmezni tudom a modell eredményeit és teljesítményét
• ismerek regularizációs módszereket és Pythonban használni is tudom őket -
13 alkalom01.08. 18:00–19:30
Gépi tanulás alapok: Klasszifikáció
- Klasszifikációs problémák bemutatása
- Logisztikus regresszió elméleti alapjai
- Modellek kiértékelése
- Keresztvalidáció
- Python gyakorlat
Az óra eredményeképpen:
• képes vagyok klasszifikációs problémákat azonosítani
• megismerem a logisztikus regresszió elméleti alapjait
• le tudok futtatni logisztikus regressziót Pythonban (sklearn könyvtár segítségével)
• értelmezni tudom a modell eredményeit és teljesítményét
• ismerek regularizációs módszereket és Pythonban használni is tudom -
14 alkalom01.13. 18:00–19:30
Gépi tanulás alapok: Szegmentáció
- Szegmentációs problémák bemutatása
- K-means és hierarchikus szegmentáció elméleti alapjai
- Eredmények kiértékelése
- Python gyakorlat
Az óra eredményeképpen:
• képes vagyok szegmentációs problémákat azonosítani
• megismerem a K-means és a hierarchikus klaszterezési eljárások elméleti alapjait
• le tudok futtatni logisztikus K-means és hierarchikus klaszterezést Pythonban
• értelmezni tudom a modellek eredményeit és teljesítményét
TUDJ MEG TÖBBET
A kurzussal kapcsolatos további információkért töltsd ki az űrlapot, és munkatársunk a lehető leghamarabb felveszi veled a kapcsolatot, hogy bővebb tájékoztatást adjon a kurzus részleteiről és áráról.