\documentclass[10pt,a4paper,twocolumn]{article}
\usepackage[utf8]{inputenc}
\usepackage[greek,english]{babel}
\usepackage{alphabeta}
\usepackage{amsmath, amssymb, amsfonts}
\usepackage{graphicx}
\usepackage{booktabs}
\usepackage{url}
\usepackage{microtype}
\usepackage{geometry}
\geometry{margin=1.9cm}
\title{Η χρήση της μεθόδου Principal Component Analysis (PCA) στην Βιοτεχνολογία}
\author{Βιργινία Γκενούδη-12632}
\date{6/6/2025}

\begin{document}
\maketitle

\begin{abstract}
Η Principal Component Analysis (PCA) αποτελεί μία από τις πιο διαδεδομένες τεχνικές μείωσης διαστάσεων και εξόρυξης χαρακτηριστικών, με πληθώρα εφαρμογών στη βιοτεχνολογία. 
Στην εργασία αυτή παρουσιάζουμε σύντομα την μέθοδο, κάνουμε επισκόπηση σχετικών ερευνητικών εργασιών, αναλύουμε τη μαθηματική της θεμελίωση και επιδεικνύουμε την εφαρμογή της σε σύνολο δεδομένων γονιδιακής έκφρασης. 
Τα αποτελέσματα καταδεικνύουν την ικανότητα της PCA να αποκαλύπτει δομές υψηλού επιπέδου σε πολύ-διάστατα βιολογικά δεδομένα, διευκολύνοντας επακόλουθες βιολογικές ερμηνείες.
\end{abstract}

\section{Εισαγωγή}
Η ραγδαία πρόοδος των πειραματικών τεχνολογιών στην βιοτεχνολογία, όπως η υψηλής διαμέτρου αλληλούχιση DNA (next-generation sequencing) και οι high-throughput πλατφόρμες μικροσυστοιχιών (microarrays),έχει οδηγήσει σε εκθετική αύξηση του όγκου και της πολυπλοκότητας των παραγόμενων δεδομένων. Τα δεδομένα αυτά είναι συνήθως πολύ-διάστατα, γεγονός που καθιστά απαραίτητες τις τεχικές μείωσης διαστάσεων για: (α) θόρυβο και πλεονασμό χαρακτηριστικών, (β) βελτιωμένη οπτικοποίηση, (γ) αποδοτικότερη επεξεργασία και (δ) αποκάλυψη λανθανουσών δομών. Η Principal Component Analysis (PCA) αποτελέι κλασική αλλά πάντα επίκαιρη λύση σε αυτά τα προβλήματα.
Σκοπός της παρούσας εργασίας είναι να παρουσιάσει συνοπτικά: (i) τη μέθοδο PCA και τις βασικές βιοτεχνολογικές της εφαρμογές, (ii) τη σχετική βιβλιογραφία, (iii) τη μαθηματική διατύπωση καθώς και ένα θεωρητικό υπόδειγμα εφαρμογής της σε δεδομένα γονιδιακής έκφρασης, και (iv) να εξαχθούν συμπεράσματα ως προς την πρακτική της αξία.

\section{Συναφής Βιβλιογραφία}
Η PCA έχει εφαρμοστεί εκτεταμένα στη βιοτεχνολογία από τα τέλη της δεκαετίας του 1990. Eφάρμοσαν Singular Value Decomposition (SVD) - στενά συνδεδεμένο με την PCA - σε microarray δεδομένα, επιτυγχάνοντας απεικόνηση γονιδίων και δειγμάτων σε χαμειλότερες διαστάσεις. Παρέχουν ανασκόπηση των στατιστικών τεχνικών μείωσης διαστάσεων σε γονιδιακή έκφραση, τονίζοντας τα πλεονεκτήματα της PCA έναντι μη-γραμμικών μεθόδων ως προς την ερμηνευσιμότητα. Πρόσφατα, ενσωμάτωσαν PCA στο προ-επεξεργασιακό στάδιο ανάλυσης single-cell RNA-seq δεδομένων. Παράλληλες εργασίες ασχολούνται με PCA-βασισμένο φιλτράρισμα θορύβου σε proteomics και metabolomics.
\vspace{0.3em}\noindent\textbf{Ιστορική αναδρομή.} Η PCA εισήχθει από τον Pearson (1901) και γενικεύτηκε από τον Hotelling (1933), ενώ η μαθηματική της βάση εδράζεται στην φασματική θεωρία πίνακα.

\section{Μαθηματική Περιγραφή και Παράδειγμα Εφαρμογής}
\subsection{Θεωριτική Παρουσίαση}
Έστω \(\mathbf X\in\mathbb R^{n\times p}\) ο πίνακας δεδομένων με \(n\) δειγμάτων και \(p\) χαρακτηριστικά. Προϋποθέτουμε ότι ο καθετήρας \(\mathbf 1_n\) έχει αφαιρεθεί (δεδομένα κεντραρισμένα). Ο πίνακας συνδιακύμανσης είναι 
\begin{equation}
	\mathbf C = \frac{1}{n-1}\mathbf X^\top \mathbf X.
\end{equation}
Ορίζουμε την ιδιοαποσύνθεση
\begin{equation}
	\mathbf C = \mathbf Q\,\boldsymbol\Lambda\,\mathbf Q^\top,
\end{equation}
όπου \(\boldsymbol\Lambda = \operatorname{diag}(\lambda_1,\dots,\lambda_p)\) με \(\lambda_1\ge \dots \ge \lambda_p \ge 0\). Οι πρώτες \(k\) ιδιοτιμές αντιστοιχούν στις κύριες συνιστώσες (PCs) \(\mathbf Z = \mathbf X\mathbf Q_k\), παρέχοντας βέλτιστη (κατά Frobenius) ανακατασκευή τάξης \(k\).

\subsection{Παράδειγμα σε Δεδομένα Γονιδιακής Έκφρασης}
Θεωρούμε το δημόσιο σύνολο δεδομένων Yeast Cell-Cycle της Spellman \emph{etal.} (1998) με \(p=6{,}178\) γονίδια και \(n=77\) χρονικά σημεία. Μετά τυπική κανονικοποίηση, εφαρμόζουμε PCA και κρατούμε τις πρώτες δύο PCs που εξηγούν \(\approx 52\%\) της συνολικής διακύμανσης. Το σκοράρισμα των δειγμάτων στο επίπεδο (PC1,~PC2) αποκαλύπτει σαφή κυκλική πορεία σύμφωνη με την βιολογική φάση κυτταρικού κύκλου (Σχ.~\ref({fig:yeast}).

\begin{figure}[ht]
	\centering
	%\fbox{\pardox{0.9\linewidth}{\centering Εικονική απεικόνιση\newline των δειγμάτων σε PC1-PC2 (αριστερά) και φορτίων γονιδίων (δεξιά).}}
	\caption{Παράδειγμα οπτικοποίησης PCA σε δεδομένα ζύμης.}
	\label{fig:yeast}
\end{figure}

\section{Συμπεράσματα}
Η Principal Component Analysis παραμένει θεμελιώδες εργαλείο για την εξερεύνηση και προ-επεξεργασία πολύ-διάστατων βιοτεχνολογικών δεδομένων. Η θεωρητική της απλότητα, σε συνδυασμό με την ισχυρή ερμηνευσιμότητα, την καθιστούν άξιο ανταγωνιστή νεότερων μη-γραμμικών μεθόδων. Μελλοντικές κατευθύνσεις περιλαμβάνουν συνδυασμούς PCA με γραμμικά μοντέλα κανονικοποίησης και ενσωμάτωσή της σε υπολογιστικούς αγωγούς big-data βιολογίας.

\begin{thebibliography}{10}
\bibitem{Jolliffe2002} I.~T. Jolliffe, \emph{Principal Component Analysis}, 2nd~ed., Springer, 2002.
\bibitem{Alter2000} O.~Alter, P.~O. Brown, D.~Botstein, "Singular value decomposition for genome-wide expression data processing and modeling," \emph{Proc. Nat1. Acad. Sci.}, vol.~97, pp. 10101-10106, 2000.
\bibitem{Ringner2008}
\bibitem{Chen2018}
\bibitem{Callister2006}
\bibitem{Worley2014}
\bibitem{Spellman1998}
\bibitem{Pearson1901}
\bibitem{Hotellinh1933}
\bibitem{Abdi2010}
\end{thebibliography}

\end{document}

