Matrizes

Uma matriz é uma representação de dados, geralmente numéricos, divididos por linhas e colunas. Costuma ser representada por uma letra maiúscula, tal como $\large A$, e tem um determinado número de linhas $\large (m)$ e de colunas $\large (n)$. Neste caso, representa-se por $\large A_{m \times n}$.

$$A = \begin{pmatrix} 1 & 2 & 3\\ 4 & 5 & 6\\ 7 & 8 & 9 \end{pmatrix}$$

A matriz $\large A$ é uma matriz 3×3, com 3 linhas e 3 colunas, portanto, $\large A_{3 \times 3}.$


Continue lendo

Dimensionamento – Normalização e Padronização

O dimensionamento (escalonamento) é uma etapa crucial no pré-processamento dos dados, pois a maioria dos modelos de Machine Learning exige que os recursos estejam na mesma escala. Para isso, é necessário utilizar a Normalização ou Padronização, que são técnicas de pré-processamento de dados amplamente utilizadas para ajustar as escalas das features (variáveis) de um conjunto de dados. Ambas têm como objetivo melhorar o desempenho de algoritmos, especialmente aqueles sensíveis à magnitude dos dados, como redes neurais e SVM, e métodos baseados no distanciamento dos dados, como k-NN e k-means.


Continue lendo

Coeficientes de Correlação e Determinação

Coeficiente de Correlação

O Coeficiente de Correlação é uma medida estatística que quantifica o grau de relacionamento linear entre duas variáveis. Ele indica se existe uma associação estatística entre as duas variáveis e a direção dessa associação (positiva ou negativa). Em outras palavras, o coeficiente de correlação descreve como as mudanças em uma variável estão relacionadas às mudanças na outra variável.


Continue lendo

Determinantes

Determinante é um conceito matemático utilizado em álgebra linear para representar certas propriedades de matrizes quadradas. O determinante é um número associado à matriz, que pode ser calculado a partir de seus elementos, e nos informa se uma matriz é invertível ou não, ou seja, se ela tem inversa ou não.


Continue lendo

Variância

A variância é uma medida estatística que quantifica o grau de dispersão ou variação dos dados em relação à média, indicando o nível de heterogeneidade no conjunto. Se os dados estiverem muito próximos à média, a variância será baixa, se estiverem espalhados, será alta. Em termos simples, a variância nos diz o quanto os valores de um conjunto de dados estão espalhados.


Continue lendo

Tolerância e Critério de Tolerância

Em Álgebra Linear, a Tolerância $\large (\epsilon)$ é um valor pequeno e positivo que define a precisão desejada para a solução aproximada de um sistema de equações lineares. Ela é usada como critério para parar as iterações em métodos iterativos como o Método de Jacobi e o Método de Gauss-Seidel. O valor de $\large (\epsilon)$ determina o quão perto da solução exata as iterações devem chegar antes de o algoritmo ser interrompido.


Continue lendo

Desvio Médio

O Desvio médio, desvio médio absoluto ou desvio absoluto de um elemento, de um conjunto de dados, é a diferença absoluta entre este elemento e um ponto dado. Comparado com o Desvio Padrão, o Desvio Médio é mais simples de calcular e menos influenciado por outliers, tornando-o útil em conjuntos de dados com valores extremos.


Continue lendo

Moda

A Moda é uma medida de tendência central que indica o valor ou valores que ocorrem com maior frequência em um conjunto de dados. Ela é particularmente útil em algumas situações em que os dados são categóricos ou possuem distribuições não simétricas.


Continue lendo