Zaawansowane metody analizy i eksploracji danych | I2N | semestr zimowy 2025/2026
Laboratoria
- Niedziela, zjazdy 1-5, 14.00-16.45, PE121.
- Niedziela, zjazdy 1-5, 17.00-19.45, PE121.
Zasady zaliczenia
Zaliczenie laboratoriów polegać będzie na wyborze jednej pracy naukowej dotyczącej szeroko pojętej analizy danych, zrozumieniu jej treści, implementacji proponowanego rozwiązania, przeprowadzeniu eksperymentów na danych oraz przedstawieniu wyników i porównania z metodami wcześniejszymi.
Wymagania
- Każdy projekt powinien być realizowany przez 2 lub 3 osoby. Wkład wszystkich osób powinien być podobny.
- Implementację należy przygotować w formie repozytorium Git (dostępnego przez GitHub/GitLab/…).
- W repozytorium należy umieścić plik
README.mdz krótką instrukcją uruchomienia (komendy, środowisko, wymagania). - W pliku
DESC.mdlubdesc.pdfnależy umieścić krótki opis przygotowanego projektu (postawienie problemu, opisanie dotychczasowych rozwiązań, przedstawienie nowego podejścia). Opis powinien być zrozumiały dla osoby, która zna podstawowe pojęcia/problemy analizy danych, ale nie jest specjalistą od rozważanego zagadnienia. - W pliku
EXAMPLE.mdlubexample.pdfnależy umieścić przykład analizy wykonanej na konkretnych danych.
Terminy
- O wyborze tematu proszę poinformować mnie mailowo do 8.11.2025.
- Link do gotowego repozytorium proszę przesłać do 26.11.2025.
- Podczas ostatniego zjazdu (laboratorium 30.11.2025) każdy zespół zaprezentuje swój projekt. Ma to być krótkie i przystępne omówienie problemu oraz jego rozwiązania. Należy następnie wskazać istotne elementy implementacji oraz pokazać przykład analizy wykonanej przy pomocy omawianego podejścia. Całość nie powinna zająć więcej niż ok. 20 minut.
- Rada: proszę nie przygotowywać jakiejś dużej prezentacji z wieloma slajdami i morzem tekstu. Wystarczy prosty obrazek, na którym wskażecie główne idee. Najważniejsze jest to, co powiecie, a nie to, co będzie wyświetlone.
Ocena
Przy wystawianiu ocen będę brał pod uwagę jakość:
- implementacji – 40%.
- prezentacji – 60%.
Podkreślam, że w prezentacji nie chodzi o przygotowanie pliku ze slajdami. Tego może w ogóle nie być. Chodzi o Państwa zaprezentowanie tematu i omówienie rozwiązania.
Proponowane tematy
Poniżej przedstawiam listę przykładowych prac, które mogą być podstawą projektu. Niektóre prace są zupełnie proste, inne trochę trudniejsze. Proszę znaleźć coś dla siebie. Oczywiście można też wybrać artykuł spoza listy. W tej sytuacji prosiłbym o wcześniejszą informację.
Dwa różne zespoły nie mogą wybrać tego samego artykułu (o wyborze decyduje kolejność zgłoszeń).
Klasteryzacja
Louis Mahon, Mirella Lapata, K∗-Means: A Parameter-free Clustering Algorithm.- Jingyun Zhang, Hao Peng, Li Sun, Guanlin Wu, Chunyang Liu, Zhengtao Yu, Unsupervised Graph Clustering with Deep Structural Entropy.
- Guanlin Mo, Shihong Song, Hu Ding, Towards Metric DBSCAN: Exact, Approximate, and Streaming Algorithms.
- Ziqing Wang, Zhirong Ye, Yuyang Du, Yi Mao, Yanying Liu, Ziling Wu, Jun Wang, AMD-DBSCAN: An Adaptive Multi-density DBSCAN for Datasets of Extremely Variable Density.
- Alfred K. Adzika, Prudence Djagba, Inference with K-means.
- Ben Jourdan, Gregory Schwartzman, Mini-Batch Kernel k-means.
- HaoChuan Xu, Ninh Pham, Scalable DBSCAN with Random Projections.
PCA i redukcja wymiaru
- Lakshmi Jayalal, Gokularam Muthukrishnan, Sheetal Kalyani, Tuning-Free Online Robust Principal Component Analysis through Implicit Regularization.
- Rachel S. Y. Teo, Tan M. Nguyen, Unveiling the Hidden Structure of Self-Attention via Kernel Principal Component Analysis.
- Ruriko Yoshida, Projected Gradient Descent Method for Tropical Principal Component Analysis over Tree Space.
- Yangyang Xu, Kexin Li, Li Yang, You-Wei Wen, Outlier-aware Tensor Robust Principal Component Analysis with Self-guided Data Augmentation.
- Yanqing Yin, Wang Zhou, High-Dimensional PCA Revisited: Insights from General Spiked Models and Data Normalization Effects.
Klasyfikacja liniowa i regresja logistyczna
- Cencheng Shen, Yuexiao Dong, Linear Discriminant Analysis with Gradient Optimization on Covariance Inverse.
- Jingfeng Wu, Pierre Marion, Peter Bartlett, Large Stepsizes Accelerate Gradient Descent for Regularized Logistic Regression.
- Qingshi Sun, Nathan Justin, Andres Gomez, Phebe Vayanos, Mixed-feature Logistic Regression Robust to Distribution Shifts.
- Qipeng Zhan, Zhuoping Zhou, Zixuan Wen, Zexuan Wang, Boning Tong, Heng Huang, Andrew J. Saykin, Paul M. Thompson, Christos Davatzikos, Li Shen, SLR: A Modified Logistic Regression Model with Sinkhorn Divergence for Alzheimer’s Disease Classification.
Analiza przeżycia
- Mike Van Ness, Madeleine Udell, Interpretable Prediction and Feature Selection for Survival Analysis.
- Annabel L. Davies, Anthony C. C. Coolen, Tobias Galla, Retarded Kernels for Longitudinal Survival Analysis and Dynamic Prediction.
- Aliasghar Tarkhan, Noah Simon, An Online Framework for Survival Analysis: Reframing Cox Proportional Hazards Model for Large Data Sets and Neural Networks.
- Narasimha Raghavan Veeraragavan, Sai Praneeth Karimireddy, Jan Franz Nygård, A Differentially Private Kaplan–Meier Estimator for Privacy-Preserving Survival Analysis.
Systemy rekomendacyjne i grafowe GNN
- Hansol Jung, Hyunwoo Seo, Chiehyeon Lim, Sequential Recommendation on Temporal Proximities with Contrastive Learning and Self-Attention.
- Xiangnan He, Kuan Deng, Xiang Wang, Yan Li, Yongdong Zhang, Meng Wang, LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation.
Modelowanie czasowe i regresja sekwencyjna
- Matthew Ricci, Guy Pelc, Zoe Piran, Noa Moriel, Mor Nitzan, TRENDy: Temporal Regression of Effective Non-linear Dynamics.
- Emirhan Ilhan, Mehmet Y. Turali, Suleyman S. Kozat, Gradient Boosting With Moving-Average Terms for Nonlinear Sequential Regression.
Statystyczna kontrola procesu
- Tanuja Negi, Estimated Phase II Weibull Control Chart for Monitoring Times Between Events.
- Mohammad Iqbal Rasul Seeam, Victor S. Sheng, Proactive Statistical Process Control Using AI: A Time Series Forecasting Approach for Semiconductor Manufacturing.
Reguły asocjacyjne
- Hadar Ben-Efraim, Susan B. Davidson, Amit Somech, SHARQ: Explainability Framework for Association Rules on Relational Data.
Testowanie statystyczne
- Miguel Araujo-Voces, Víctor Quesada, An Exact, Unconditional, Nuisance-Agnostic Test for Contingency Tables.
Konsultacje
Adam Gregosiewicz
- Środa, 10.15–11.00, Pentagon, pok. 3 (PE 3).
- Czwartek, 14.15-15.00, Pentagon, pok. 3 (PE 3).
Laboratoria
Tydzień 1 — 5.10.2025
Tydzień 2 — 19.10.2025
Tydzień 3 — 26.10.2025
Tydzień 4 — 16.11.2025
Materiały
Poza materiałami cytowanymi w sylabusie przedmiotu polecam:
Książki
- Jiawei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques.
- Gareth James, Daniela Witten, Trevor Hastie, Rob Tibshirani, Jonathan Taylor An Introduction to Statistical Learning.
- Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining.
- Sergio J. Rey, Dani Arribas-Bel, Levi J. Wolf, Geographic Data Science with Python.
- Wes McKinney, Python for Data Analysis.