A regressão linear é o processo de estimação dos parâmetros de um modelo linear para que ele se ajuste da melhor forma possível a um conjunto de dados segundo um determinado critério(ou métrica). É uma técnica frequentemente utilizada em aprendizagem de máquina para modelar a relação entre uma variável dependente (ou variável de saída) e uma ou mais variáveis independentes (ou variáveis de entrada). Várias abordagens diferentes podem ser utilizadas para encontrar os parâmetros ótimos de um modelo linear. Essencialmente, a tarefa de encontrar os parâmetros ótimos de um modelo linear é um processo de otimização. Assim existem centenas ou milhares de abordagens possíveis. Entretanto, uma abordagem bastante utilizada em regressões lineares é o método dos mínimos quadrados. Em sua forma mais simples ($\mathbb{R}^1 \rightarrow \mathbb{R}^1$), chamada de regressão linear simples, a relação é estabelecida entre duas variáveis, e o objetivo é encontrar uma linha reta que melhor descreva essa relação.
A equação da regressão linear simples é dada por:
\[
y = \theta_0 + \theta_1 x + \epsilon \qquad Eq.1
\]
onde:
- $y$ é a variável dependente (resultado ou saída),
- $x$ é a variável independente (entrada),
- $\theta_0$ é o termo de intercepto,
- $\theta_1$ é o coeficiente de inclinação da linha,
- $\epsilon$ representa o erro residual, que é a diferença entre os valores previstos e os valores reais de $y$.
Na prática, o objetivo da regressão linear (Eq.1) é encontrar os valores de $\theta_0$ e $\theta_1$ que minimizam um critério de erro ou energia. No caso da utilização do método dos mínimos quadrados o critério a ser minimizado é a diferença ao quadrado entre a saída do modelo e o valor esperado.
A regressão linear múltipla ($\mathbb{R}^n \rightarrow \mathbb{R}^1$), que permite incluir várias variáveis independentes (ou características). É uma extensão natural da equação anterior (Eq.1). A fórmula da regressão linear múltipla é dada por:
\[
y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \dots + \theta_n x_n + \epsilon \qquad Eq.2
\]
Se considerarmos $y$ e o $x_j$ como variáveis aleatórias com várias instâncias $i$ medidas ($y_i$ e $x_{ij}$) e que o objetivo final é encontrar os parâmetros $\theta_j$ do modelo, podemos reorganizar a Eq.2 em um formato matricial mais conveniente mostrado na Eq.3.
\[
[y_i] = \begin{bmatrix} 1 & x_{i1} & … & x_{ij} &… & x_{in} \end{bmatrix} \begin{bmatrix} \theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \end{bmatrix} \qquad Eq.3
\]
Considerando $m$ pares ( $y_i$, $\begin{bmatrix}1 & x_{i1} & … & x_{in}\end{bmatrix}$ ), a expressão completa para o modelo de regressão linear fica:
\[
\begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_m \end{bmatrix} = \begin{bmatrix} 1 & x_{11} & … & x_{1j} &… & x_{1n} \\ 1 & x_{21} & & x_{2j} & & x_{2n} \\ \vdots & \vdots & & \vdots & & \vdots \\ 1 & x_{m1} & … & x_{mj} & … & x_{mn} \end{bmatrix} \begin{bmatrix} \theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \end{bmatrix} \qquad Eq.4
\]
De uma forma mais compacta a Eq.4 fica:
\[ [Y] = [X][\theta] \qquad Eq.5 \]
No caso da Eq.4(ou Eq.5), temos um modelo de regressão para $n$ parâmetros e $m$ pares de entrada e saída do modelo ( $y_i$, $\begin{bmatrix}1 & x_{i1} & … & x_{in}\end{bmatrix}$ ) .
A solução para encontrar o vetor de parâmetros $[\theta]$ na Eq.5 utilizando o método dos mínimos quadrados é dada pela matriz pseudo-inversa. A expressão é a seguinte:
\[ [\theta] = ([X]^T [X])^{-1}[X]^T [Y] \qquad Eq.6 \]
Como essa expressão é obtida, mais detalhes sobre o método dos mínimos quadrados e exemplos vocês podem obter nos seguintes posts:
That’s all folks
Deixe um comentário