O método dos mínimos quadrados

Motivação

Começamos por considerar uma família de funções lineares da forma

f(x,y,z)=ax+by+cz

onde, para cada conjunto de parâmetros a, b, c, temos uma função diferente. Funções do género permitem, por exemplo, atribuir um valor a cada um dos pontos (x,y,z).

Suponhamos agora que conhecemos o valor da função em três pontos, \left(x_1,y_1,z_1\right)\left(x_2,y_2,z_2\right)\left(x_3,y_3,z_3\right), ou, f\left(x_1,y_1,z_1\right)=f_1f\left(x_2,y_2,z_2\right)=f_2 e f\left(x_3,y_3,z_3\right)=f_3. Se substituirmos cada um dos valores respectivos na família de funções obtemos o sistema de equações

\left\lbrace\begin{matrix}  f_1 & = & ax_1+by_1+cz_1\\  f_2 & = & ax_2+by_2+cz_2\\  f_3 & = & ax_3+by_3+cz_3  \end{matrix}  \right.

Se os três pontos forem tais que o determinante

\left | \begin{matrix}  x_1 & y_1 & z_1\\  x_2 & y_2 & z_2\\  x_3 & y_3 & z_3  \end{matrix}\right |

seja diferente de zero, se resolvermos o sistema, obtemos valores para os parâmetros a, b e c de modo que a função considerada interpole os dados existentes. Se o determinante for igual zero, não existe qualquer família de funções da forma considerada que permita iterpolar os três pontos ou existe uma infinidade delas conforme a possibilidade ou impossibilidade da resolução do sistema.

Por exemplo, se procurarmos uma função que tome os valores f(-1,1,1)=1, f(1,-1,1)=2 e f(1,1,-1)=3, resolvemos o sistema de equações

\left\lbrace\begin{matrix}  1 & = & -a+b+c\\  2 & = & a-b+c\\  3 & = & a+b-c  \end{matrix}  \right.

Como temos

\left|\begin{matrix}  -1 & 1 &1\\  1 &-1 & 1\\  1 & 1 & -1  \end{matrix}\right|=4

concluímos que existe uma solução para o sistema anterior em ordem aos parâmetros a, b e c. Esta solução é dada por

\left\lbrace\begin{matrix}  a=\frac{5}{2}\\  b=2\\  c=\frac{3}{2}  \end{matrix}\right.

Se escolhermos os valores obtidos para os parâmetros, obtemos a função

f(x,y,z)=\frac{5}{2}x+2y+\frac{3}{2}

É óbvio que esta função interpola os valores dados, isto é, f(-1,1,1)=1, f(1,-1,1)=2 e f(1,1,-1)=3 como é fácil de verificar por intermédio do cálculo directo.

O método

Imaginemos agora que pretendemos ajustar a mesma família de funções, isto é, escolher os parâmetros a, b e c de modo a verificarmos as n condições

f(x_i,y_i,z_i)=f_i

com i=1,2,\cdots n. O caso n=3 foi discutido antes. Se n<3, existe, em geral, uma infinidade de funções da família considerada que iterpolam o conjunto de pontos. Porém, se n>3, em geral não é possível encontrar uma função da família que interpole os pontos considerados. De facto, o processo anterior conduz-nos a um sistema cujo número de equações é superior ao número de variáveis e este, em geral, não tem solução, isto é, o número de casos com solução é ínfimo quando o comparamos com os restantes.

Se o sistema subsidiário não tiver solução, então não existe uma função f(x,y,z) da família considerada que interpole o conjunto de pontos. Se tivermos certos que a função de ajuste aos dados é da forma f(x,y,z)=ax+by+cz, é natural procurarmos determinar o valor dos coeficientes que descrevam a função que melhor se adequa aos dados.

Se escolhermos uma função qualquer da família considerada, isto é, se fixarmos cada um dos parâmetros a, b, c, para a escolha de parâmetros feita existe sempre um ponto \left(x_j,y_j,z_j\right) tal que f\left(x_j,y_j,z_j\right)\ne f_j. Denotamos por \delta_i à diferença

\delta_i=f\left(x_i,y_i,z_i\right)-f_i

e designamo-la por erro. Se \delta_i=0 então a função interpola o valor proveniente dos dados para aquele ponto.

Numa primeira abordagem, somos levados a crer que a função da família de funções considerada que melhor se ajusta ao conjunto de dados é aquela que minimiza a soma total dos erros. Este preceito não nos conduz a um resultado aceitável uma vez que os erros podem assumir valores negativos e, consequentemente, a soma pode não ter mínimo. Numa segunda abordagem, consideramos a função da família que permita minimizar a soma dos módulos do erros, isto é, que permita minimizar

S=\sum_{i=1}^n{\left|\delta_i\right|}

Esta abordagem, apesar de ser frutífera no que concerne ao nosso objectivo, padece de um defeito uma vez que a função módulo não é diferenciável e os conhecidos métodos de análise para a determinação dos mínimos de funções deixam de ser válidos. Numa terceira abordagem, definimos uma função positiva dos erros, \rho\left(\delta_i\right) e consideramos a função da família que minimiza a soma

S=\sum_{i=1}^n{\rho\left(\delta_i\right)}

Ora, a função positiva dos restos mais simples é precisamente \rho=\delta_i^2 e o nosso método irá consistir em determinar a função que minimize a soma

S=\sum_{i=1}^n{\left\lbrack f\left(x_i,y_i,z_i\right)-f_i\right\rbrack^2}

A este método de ajuste foi dada a designação de método dos mínimos quadrados.

Determinação do mínimo da soma dos quadrados dos erros

Se substituirmos na expressão a função pela sua forma ficamos com

S(a,b,c)=\sum_{i=1}^n{\left(ax_i+by_i+cz_i-f_i\right)^2}

De modo a determinarmos o mínimo da função, calculamos os respectivos pontos críticos, isto é, os valores de a, b e c tais que

\left\lbrace\begin{matrix}  \frac{\partial S}{\partial a}=0\\  \frac{\partial S}{\partial b}=0\\  \frac{\partial S}{\partial c}=0  \end{matrix}\right.

ou, derivando a função S,

\left\lbrace\begin{matrix}  a\sum_{i=1}^n{x_i^2}+b\sum_{i=1}^n{x_iy_i}+c\sum_{i=1}^n{x_iz_i}=\sum_{i=1}^n{x_if_i}\\  a\sum_{i=1}^n{y_ix_i}+b\sum_{i=1}^n{y_i^2}+c\sum_{i=1}^n{y_iz_i}=\sum_{i=1}^n{y_if_i}\\  a\sum_{i=1}^n{z_ix_i}+b\sum_{i=1}^n{z_iy_i}+c\sum_{i=1}^n{z_i^2}=\sum_{i=1}^n{z_if_i}  \end{matrix}\right.

Trata-se de um sistema de três equações com três incógnitas cuja solução nos permite averiguar o valor dos coeficientes procurados.

Condições para existência de uma solução do sistema de equações

O sistema possui solução caso se verifique

D=\left|A \right|=\left|\begin{matrix}  \sum_{i=1}^n{x_i^2}&\sum_{i=1}^n{x_iy_i}&\sum_{i=1}^n{x_iz_i}\\  \sum_{i=1}^n{y_ix_i}&\sum_{i=1}^n{y_i^2}&\sum_{i=1}^n{y_iz_i}\\  \sum_{i=1}^n{z_ix_i}&\sum_{i=1}^n{z_iy_i}&\sum_{i=1}^n{z_i^2}  \end{matrix}\right|\ne 0

onde A corresponde à matriz no interior do sinal de determinante. Com um pouco de perspicácia é fácil de concluir que a matriz A se pode escrever como

A=BB^T=\left\lbrack\begin{matrix}  x_1&x_2&\cdots&x_n\\  y_1&y_2&\cdots&y_n\\  z_1&z_2&\cdots&z_n  \end{matrix}\right\rbrack  \left\lbrack\begin{matrix}  x_1&y_1&z_1\\  x_2&y_2&z_2\\  \vdots&\vdots&\vdots\\  x_n&y_n&z_n  \end{matrix}\right\rbrack

isto é, a matriz quadrada A é encarável como sendo um produto de duas matrizes não necessariamente quadradas. Vamos aqui aplicar uma conhecida identidade sobre o determinante do produto de matrizes, para reduzir o nosso determinante a uma outra forma. Para o efeito, consideramos os vectores

\vec{x}=\left(x_1,x_2,\cdots,x_n\right)
\vec{y}=\left(y_1,y_2,\cdots,y_n\right)
\vec{z}=\left(z_1,z_2,\cdots,z_n\right)

Definimos ainda \vec{\theta}=\vec{x}\wedge\vec{y}\wedge\vec{z} como sendo o produto externo de todos os vectores considerados. Então, de acordo com a nossa identidade, temos

D=\left| A\right|=\vec{\theta}\cdot\vec{\theta}=\vec{\theta}^2

Concluímos portanto que o método dos mínimos quadrados conduz-nos a um sistema cuja solução existe sempre que os vectores construídos a partir dos dados de entrada \vec{x}, \vec{y} e \vec{z} forem linearmente independentes.

Suponhamos agora que um dos vectores é combinação linear dos outros dois. Sem perda de generalidade podemos considerar

\vec{z}=\mu\vec{x}+\nu\vec{y}

ou, em coordenadas,

z_i=\mu x_i+\nu y_i,\ i=1,\cdots,n

Substituindo os valores das variáveis z_i, i=1,\cdots,n no sistema

\left\lbrace\begin{matrix}  a\sum_{i=1}^n{x_i^2}+b\sum_{i=1}^n{x_iy_i}+c\sum_{i=1}^n{x_iz_i}=\sum_{i=1}^n{x_if_i}\\  a\sum_{i=1}^n{y_ix_i}+b\sum_{i=1}^n{y_i^2}+c\sum_{i=1}^n{y_iz_i}=\sum_{i=1}^n{y_if_i}\\  a\sum_{i=1}^n{z_ix_i}+b\sum_{i=1}^n{z_iy_i}+c\sum_{i=1}^n{z_i^2}=\sum_{i=1}^n{z_if_i}  \end{matrix}\right.

e reduzindo a terceira linha substituindo-a pelo resultado da diferença desta com a soma do produto de \mu pela primeira e do produto de \nu pela segunda obtemos a equação 0=0. Isto permite-nos concluir que o sistema, neste caso, possui uma infinidade de soluções. Na prática, significa que é necessário reduzir a dimensão do problema, isto é, assinalar as equações z_i=\mu x_i+\nu y_i e considerar apenas a família de funções f(x,y)=ax+by aquando da aplicação do método.

A solução resultante

Vamos supor, em primeiro lugar e sem perda de generalidade, que D\ne 0, isto é, que os vectores atrás introduzidos são linearmente independentes. Caso não o sejam, reduzimos a respectiva dimensão como foi sugerido. Em segundo lugar, definimos o vector

\vec{f}=\left(f_1,f_2,\cdots,f_n\right)

Com base neste, introduzimos os vectores

\vec{\xi}=\vec{f}\wedge\vec{y}\wedge\vec{z}
\vec{\eta}=\vec{x}\wedge\vec{f}\wedge\vec{z}
\vec{\zeta}=\vec{x}\wedge\vec{y}\wedge\vec{f}

Resolvemos o sistema de equações por intermédio de métodos conhecidos e aplicamos a identidade aferente ao determinante do produto de matrizes para ficarmos com

\left\lbrace\begin{matrix}  a=\frac{\vec{x}\cdot\vec{\xi}}{\vec{\theta}\cdot\vec{\theta}}\\  b=\frac{\vec{y}\cdot\vec{\eta}}{\vec{\theta}\cdot\vec{\theta}}\\  c=\frac{\vec{z}\cdot\vec{\zeta}}{\vec{\theta}\cdot\vec{\theta}}  \end{matrix}\right.

Então, a função candidata com o melhor ajuste é da forma

f(x,y,z)=\frac{1}{\vec{\theta}\cdot\vec{\theta}}\left\lbrack \left(\vec{x}\cdot\vec{\xi}\right)x+\left(\vec{y}\cdot\vec{\eta}\right)y+\left(\vec{z}\cdot\vec{\zeta}\right)z\right\rbrack

Convém salientar o facto de que se a função S(a,b,c) contiver um ponto extrememante então esse ponto será dado pelos parâmetros calculados. Resta ainda provar que se trata de um minimizante. Para o efeito, calculamos a matriz das segundas derivadas,

H=2\left\lbrack\begin{matrix}  \sum_{i=1}^n{x_i^2}&\sum_{i=1}^n{x_1y_i}&\sum_{i=1}^n{x_iz_i}\\  \sum_{i=1}^n{y_ix_i}&\sum_{i=1}^n{y_i^2}&\sum_{i=1}^n{y_iz_i}\\  \sum_{i=1}^n{z_ix_i}&\sum_{i=1}^n{z_iy_i}&\sum_{i=1}^n{z_i^2}  \end{matrix}\right\rbrack

isto é, H=2A. Escrevemos a matriz como

H=2\left\lbrack\begin{matrix}  \vec{x}\cdot\vec{x}&\vec{x}\cdot\vec{y}&\vec{x}\cdot\vec{z}\\  \vec{y}\cdot\vec{x}&\vec{y}\cdot\vec{y}&\vec{y}\cdot\vec{z}\\  \vec{z}\cdot\vec{x}&\vec{z}\cdot\vec{y}&\vec{z}\cdot\vec{z}  \end{matrix}\right\rbrack

Os seus menores principais são

\left|H_1\right|=2\vec{x}\cdot\vec{x}

\left|H_2\right|=2^2\left|\begin{matrix}  \vec{x}\cdot\vec{x}&\vec{x}\cdot\vec{y}\\  \vec{y}\cdot\vec{x}&\vec{y}\cdot\vec{y}  \end{matrix}\right|=\left(\vec{x}\wedge\vec{y}\right)^2

\left|H_3\right|=2^3\left|\begin{matrix}  \vec{x}\cdot\vec{x}&\vec{x}\cdot\vec{y}&\vec{x}\cdot\vec{z}\\  \vec{y}\cdot\vec{x}&\vec{y}\cdot\vec{y}&\vec{y}\cdot\vec{z}\\  \vec{z}\cdot\vec{x}&\vec{z}\cdot\vec{y}&\vec{z}\cdot\vec{z}  \end{matrix}\right|=\left(\vec{x}\wedge\vec{y}\wedge\vec{z}\right)^2

Se os vectores \vec{x}, \vec{y} e \vec{z} forem linearmente independentes como é o caso, todos os menores principais são positivos. Deste modo, o ponto crítico considerado é um ponto de mínimo local. Como o ponto crítico é único e a função se estende a todos os valores de a, b e c, então trata-se de um mínimo global.

Generalizações

Generalização a várias dimensões

Os raciocínios e definições atrás elaborados são imediatamente aplicáveis ao caso geral de uma família com um número arbitrário de variáveis, isto é, para um número arbitrário de dimensões. Se considerarmos a família de funções

f\left(x_1,x_2,\cdots,x_n\right)=\sum_{i=1}^n{a_ix_i}

e pretendermos aproximar um conjunto de m>n pontos representados, do mesmo modo, pelos n vectores m-dimensionais

\vec{x}_k=\left(x_{k1},x_{k2},\cdots x_{km}\right),\ \ k=1,\cdots,n

e pelo vector m-dimensional dos valores da função calculados para esses pontos,

\vec{f}=\left(x_{1},x_{2},\cdots x_{m}\right)

para este caso, temos

D=\left|  \begin{matrix}  \vec{x}_1\cdot\vec{x}_1&\vec{x}_1\cdot\vec{x}_2&\cdots&\vec{x}_1\cdot\vec{x}_n\\  \vec{x}_2\cdot\vec{x}_1&\vec{x}_2\cdot\vec{x}_2&\cdots&\vec{x}_2\cdot\vec{x}_n\\  \vdots&\vdots&\ddots&\vdots\\  \vec{x}_n\cdot\vec{x}_1&\vec{x}_n\cdot\vec{x}_2&\cdots&\vec{x}_n\cdot\vec{x}_n  \end{matrix}  \right|=\left(\wedge_{i=1}^n \vec{x}_i\right)^2

Se definirmos os vectores

\vec{\xi}_k=\vec{x}_1\wedge\cdots\wedge\vec{x}_{k-1}\wedge\vec{f}\wedge\vec{x}_{k+1}\wedge\cdots\vec{x}_n,\ \ k=1,\cdots,n

escrevemos a função procurada como

f\left(x_1,x_2,\cdots,x_n\right)=\frac{1}{\left(\wedge_{i=1}^n \vec{x}_i\right)^2}\sum_{i=1}^n{\left(\vec{x}_i\cdot\vec{\xi}_i\right)x_i}

Generalização a funções polinomiais ou funções transcendentes

É importante fazer notar que não necessitamos de alterar os métodos aqui expostos para fazermos aproximar um conjunto de pontos por uma família de funções do tipo

f\left(x_1,x_2,\cdots,x_n\right)=\sum_{i=1}^n{a_ig_i\left(x_1,x_2,\cdots,x_n\right)}

onde g_i\left(x_1,x_2,\cdots,x_n\right) constituem funções quaisquer dos x_i. Neste caso, ao invés dos vectores que contêm os pontos de entrada \vec{x}_k que considerámos antes, teremos de substituí-los pelos vectores

\vec{g}_k=\left(g_1,g_2,\cdots,g_n\right)

Habitualmente encontramos problemas nos quais consideramos funções g_i=t^{i-1}, onde pretendemos aproximar o conjunto de pontos \left(t_i,f_i\right) por uma função da família

f(t)=\sum_{i=1}^n{a_i }t^{i-1}

e para este efeito servem os métodos anteriores.

Nota histórica

O método dos mínimos quadrados foi publicado, pela primeira vez, por Legendre como anexo do seu trabalho Nouvelles méthodes por la détermination des orbites des comètes, publicado em 1805, o qual aplicou a um exemplo relacionado com as medições do grau de meridiano de França. Por seu turno, Gauss publica em 1809 o seu trabalho Theoria motus corporum coelestium no qual, apesar de reconhecer o trabalho de Legendre, advoga para si a prioridade sobre a utilização do método desde 1795. Este último artigo enceta uma das mais conhecidas disputas sobre a prioridade na história da Matemática que ainda hoje é submetida a análise.

Após a publicação do trabalho de Gauss, escreve Legendre (Gauss, Werke, Band 10/1, pág. 380):

Não vou esconder, senhor, que me causou algum entristecimento de ver que, citando a minha memória pág. 221 [Theoria motus corporum…], dizeis principum nostrum quo jam inde ab anno 1795 usi sumus etc. [o princípio que temos vindo a usar desde o ano de 1795]. Não há nenhuma descoberta que não possamos aclamar como sendo nossa dizendo que encontrámos a mesma coisa alguns anos antes; mas se não fornecermos a prova citando o lugar onde a publicámos, essa alegação fica desprovida de objecção e cinge-se apenas a algo depreciativo relativamente ao verdadeiro autor da descoberta. Em Matemática é frequente encontrarmos as mesmas coisas que foram encontradas por outros e que são bem conhecidas; foi o que me aconteceu numerosas vezes, mas nunca fiz menção e jamais designei por principium nostrum um princípio que outrém tenha publicado antes de mim. Vós sois assaz ricos de fundos, senhor, de modo a não invejares ninguém; e encontro-me persuadido, de resto, de que me tenho de queixar da expressão e não da intenção…

Numa carta dirigida a Laplace, queixa-se Gauss (Gauss, Werke, Band 10/1, pág. 373):

(…)Tenho utilizado o método dos mínimos quadrados desde o ano de 1795 e encontro nos meus apontamentos, que o mês de Junho de 1798 foi a época na qual o trouxe aos princípios do cálculo das probabilidades: uma nota sobre o assunto encontra-se num jornal que guardei sobre as minhas ocupações matemáticas desde o ano de 1796, o qual mostrei nestes dias ao Lindenau.
Contudo as minhas aplicações frequentes deste método datam apenas do ano 1802, após este tempo utilizei, por assim dizer, todos os dias nos meus cálculos astronómicos sobre os novos planetas. Como me tenho proposto desde esse tempo a reunir todos os métodos dos quais me servi numa obra estendida, (a qual comecei em 1805 e cujo Manuscrito, primeiro em alemão foi terminado em 1806, mas o qual, a pedido do Perthes, o traduzi depois para latim; a impressão começou em 1807 e foi finalizada em 1809), não tive pressa em publicar um extracto, assim me advertiu o Legendre. De resto, já tinha comunicado este mesmo método muito antes da publicação da obra de Legendre, a muitas pessoas, entre outras, a Olbers em 1803 que certamente se deve lembrar. Assim, pudesse eu, na minha theorie des mouvements des planetes, falar do método dos mínimos quadrados, de que tenho feito, desde há 7 anos, milhares de milhares de aplicações, do qual tenho desenvolvido a teoria, na secção 3ª do II livro desta obra, pelo menos em alemão, muito antes de ter visto a obra de Legendre – digo, pudesse eu falar deste princípio, que anunciei a muitos dos meus amigos já em 1803 como sendo parte da obra que preparava, – como advindo de um método emprestado de Legendre? Não tinha a ideia que Legendre pudesse atribuir tanto valor a uma ideia tão simples, que nos devamos supreender que a tenha tido há já 10 anos, a ponto de se irritar por eu dizer, que a utilizei antes dele? Com efeito, seria fácil de provar a toda a gente por intermédio de testemunhas que não o poderíamos recusar, se isso valesse a pena. Mas creio que todos que me conhecem acreditem na minha palavra como eu teria acredito do fundo do meu coração se Legendre tivesse avançado que tinha em sua posse o método antes de 1795. Tenho entre os meus papéis muitas coisas, das quais poderei talvez perder a prioridade da publicação: mas seja, prefiro antes deixar morrer as coisas.

Parece-me, da leitura de ambos os textos, que a discussão sobre a prioridade da descoberta não se deveu tanto aos intervenientes mas sim a todos aqueles que optaram por escolher cada um dos lados opostos. Em nada se compara, por exemplo, ao azedume que passou a condimentar a relação de Newton e Hooke a respeito da disputa sobre a prioridade na descoberta da teoria da gravitação.

Sobre Sérgio O. Marques

Licenciado em Física/Matemática Aplicada (Astronomia) pela Faculdade de Ciências da Universidade do Porto e Mestre em Matemática Aplicada pela mesma instituição, desenvolvo trabalho no PTC (Porto Technical Centre) - Yazaki como Administrador de bases-de-dados. Dentro o meu leque de interesses encontram-se todos os temas afins às disciplinas de Matemática, Física e Astronomia. Porém, como entusiasta, interesso-me por temas relacionados com electrónica, poesia, música e fotografia.
Esta entrada foi publicada em Matemática com as etiquetas , , , , . ligação permanente.

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s