História dos Símbolos Matemáticos

Já em 1489 os sinais \( + \mbox{ e } –\) aparecem em uma obra sobre aritmética comercial de João Widman d’Eger, publicada em Leipzig, Alemanha. Eles não se referiam, no entanto, às representações de soma e subtração, ou à números positivos ou negativos, mas a excessos e déficit em problemas sobre operações comerciais. Os símbolos para positivos e negativos só se difundiram na Inglaterra com o uso feito por Robert Recorde em 1557. Os mesmos sinais já eram usados anteriormente, como exemplifica o pintura destes sinais em barris para indicar se estavam ou não cheios. Os gregos antigos, como Diofanto, por exemplo, indicavam a soma por justaposição das parcelas, assim como ainda é feito no caso de frações, \(1^{1/2}\), por exemplo. Os algebristas italianos usavam a palavra latina plus, ou sua letra \(p\) inicial, para indicar a operação de soma.

O sinal \(\times\), indicador de um produto, é relativamente moderno. Oughtred foi o primeiro a usá-lo em seu livro Clavis Matematicae, publicado em 1631. No mesmo ano, Harriot usou um ponto entre os fatores. Em 1637 Descartes usou a pura justaposição dos termos para indicar seu produto. Nos textos mais antigos de Leibniz encontra-se o sinal \(\cap\) para indicar multiplicação e \(\cup\) para a divisão. Mais tarde ele introduziu o ponto como um símbolo para a multiplicação e dois pontos (\(:\)) para a divisão. O sinal \(\div\), segundo Rouse Ball, resultou de uma combinação de dois sinais existentes “-” e “:”. As formas \(a/b\) ou \(\frac{a}{b}\) são atribuídas aos árabes.

Na Idade Média a igualdade entre dois termos é indicada literalmente por aequalis, do latim, ou através da abreviatura est. Xulander, matemático alemão do século XVI indicava a igualdade por dois pequenos traços paralelos verticais, ||,

“bicauſe noe .2. thynges, can be moare equalle”.
Em seu primeiro livro, publicado em 1540, Record colocava o símbolo \(\psi\) entre duas expressões iguais. Mais tarde, em 1557, ele foi o primeiro a empregar os dois pequenos traços paralelos, o sinal \(=\) para indicar a igualdade. Os sinais \(\gt\) (maior que) e \(\lt\) (menor que) são devidos a Thomaz Harriot, que muito contribuiu com seus trabalhos para o desenvolvimento da análise algébrica.

O símbolo \(\infty\) para o infinito foi introduzido por John Wallis (1616-1703) em seu livro De sectionibus conicis (Sobre as seções cônicas, 1655 ). Wallis era um estudioso clássico com grande erudição e é possível que tenha se inspirado no sinal romano para o número 1000, escrito CD ou M. Também se cogita que ele tenha tido esta idéia a partir da última letra do alfabeto grego, o ômega grego minúsculo, \(\omega\), como uma metáfora para o limite superior, o fim.

Os símbolos para a operação de derivação, \(dx,\, dy\) e \(dx/dy\) foram propostos por Leibniz em um manuscrito de novembro de 1675. Newton usava a notação de fluxos \(\dot x, \dot y, \dot x /\dot y\). Esta notação é ainda usada amplamente em textos de mecânica quando a trajetória de uma partícula aparece sob forma paramétrica. Por exemplo, se descrevemos a trajetória de uma partícula por meio de sua posição vetorial \(\vec{r}(t)= \left(x(t), y(t), z(t)\right)\) então sua velocidade será escrita como \(\vec{v}(t)= \left(\dot x(t), \dot y(t), \dot z(t)\right)\).

Os símbolos \(f'(x)\) e \(f”(x)\) para as derivadas de primeira e segunda ordem respectivamente foram usados primeiro por Lagrange. Em Théorie des Fonctions Analytiques, 1797, se lê simplesmente \(f’x\) e \(f”x\), símbolos revisados mais tarde para incluir os parênteses que envolvem o argumento da função. Em 1770 Lagrange empregou \(\phi’=d\phi/dx\), omitindo por completo o argumento quando ele estava claro pelo contexto e, em 1772, \(u’=du/dx\) e \(du=u’dx\). O símbolo \(D_x y\) foi usado por Louis François Antoine Arbogast (1759-1803) em De Calcul des dérivations et ses usages dans la théorie des suites et dans le calcul différentiel.

Um delta grego maiúsculo, \(\Delta\), para indicar uma quantidade pequena ou a diferença entre funções foi usado em 1706 por Johann Bernoulli. O símbolo \(\partial\), “d curvo ”, apareceu em 1770 por sugestão de Antoine Nicolas Caritat (1743-1794) em um livro sobre equações diferenciais parciais para representar diferenciais parciais \(\partial f\), em oposição às diferencias totais \(df\). A forma \(\frac{\partial u}{\partial x}\) só foi empregada em 1786 por Legendre em um texto sobre máximos e mínimos associados ao cálculo das variações. Legendre abandonou o uso deste símbolo, só recuperado mais tarde por Jacobi em 1841. O símbolo \(\partial\) corresponde à letra dey cursiva no alfabeto Cirílico.

Para representar a integração Leibniz escrevia, no início de seu desenvolvimento, a palavra latina omnia (tudo) em frente à quantidade a ser integrada. Depois passou a escrever \(dx\) após a integração e, em carta de 1675 para Oldenburg, secretário da Royal Society, ele sugeriu o uso de \(\int\), uma degeneração de um S longo significando summa (soma). Em Quadratura curvarum, 1704, Newton usou uma pequena barra vertical \(\overline x\) para representar \(\int x dx\). Duas barras verticais paralelas, \(\overline {\overline x}\) indicava a integração dupla. Em outras ocasiões ele escrevia o termo a ser integrado dentro de um retângulo. As convenções de Newton, como se pode imaginar, davam margem a erros de interpretação e nunca se tornaram populares, nem mesmo entre seus seguidores diretos na Inglaterra.

Os limites de integração eram inicialmente indicados por palavras, não existindo um simbolismo para os designar. Euler foi o primeiro a sugerir o uso de uma notação específica, escrevendo os limites entre colchetes e escrevendo as palavras latinas ab e ad. Fourier deu a forma atual, escrevendo \(\int_a ^b f(x)dx\) para representar a integral definida, com \(x\) variando de \(a\) até \(b\). Este símbolo apareceu em um artigo da Memórias da Academia Francesa, 1819-20, reimpresso em Théorie analytique de la chaleur, 1822. O símbolo \(\oint\) para representar a integração sobre um caminho fechado parece ter sido usado pela primeira vez em 1917 por Arnold Sommerfeld (1868-1951) no periódico Annalen der Physik.

A notação de limites foi apresentada em 1786 por Simon Antoine Jean L’Huilier (1750-1840). Em seu Exposition élémentaire des principles des calculs superieurs ele escreveu: “… para resumir e facilitar o cálculo por meio de uma notação mais cômoda é conveniente escrever
$$\lim . \frac{\nabla P}{\nabla x}$$
o limite das variações simultâneas de \(P\) e de \(x\) em lugar de
$$\lim . \frac{dP}{dx},$$

de forma que as duas expressões significavam a mesma coisa. Observe que L’Huilier escrevia \(\lim\)., usando um ponto após o limite. Karl Weierstrass (1815-1897) adotou esta notação, abandonando o ponto.

Cauchy usou a letra grega epsilon, \(\epsilon\) ou \(\varepsilon\) em 1821 em Cours d’analyse, embora também usasse às vezes a letra delta, \(\delta\). Alguns autores sugerem que delta significa “ différence ” (diferença) enquanto epsilon significa ” erreur ” (erro). A primeira prova de Cauchy usando epsilons e deltas é basicamente o teorema do valor intermediário para as derivadas. Na demonstração ele traduz sua definição de que a derivada é um limite do quociente das diferenças, quando este limite existe, em linguagem algébrica usando epsilons e deltas. No entanto ele não estabelece uma relação entre \(\epsilon\) e \(\delta\), não fazendo portanto distinção entre convergência uniforme ou pontual.

O operador diferencial \(\nabla\) (nabla ou del) foi introduzido por William Rowan Hamilton (1805-1865). Inicialmente Hamilton usou este símbolo para representar uma função arbitrária, depois como o operador de permutações. Em 1846 Hamilton usou nabla, desenhado horizontalmente, como o operador diferencial vetorial. Maxwell e Riemann usavam a abreviatura grad para representar o gradiente. William Clifford (1845-1879) incorporou o termo divergência que denotava por \(\mbox{div }u\) ou \(\mbox{dv }u\). O símbolo \(\nabla ^2\) para representar o operador laplaciano foi proposto por Robert Murphy em 1883.

Devemos observar, como conclusão, que a notação usada para descrever um conceito em matemática é completamente arbitrária, não passando de convenções que podem, em princípio, ser totalmente alteradas. No entanto, temos que aprender com Leibniz que o estabelecimento de uma notação compacta, simples e de fácil leitura e manipulação é essencial para o desenvolvimento e uso de uma teoria. Além disto a padronização é essencial para que os conceitos sejam facilmente transmitidos e o ensino da disciplina seja simplificado. Com frequência, na história da matemática, uma nova teoria ou a demonstração de uma conjectura é proposta de forma obscura e de difícil leitura, sendo acessível apenas a um círculo restrito de especialistas na área. Mais tarde, dependendo da generalidade e aplicabilidade da inovação ela passa por uma série de alterações, encontrando formas mais didáticas e claras de exposição e reunindo argumentações de mais fácil acesso para a comunidade mais geral. Eventualmente, em geral após a depuração e aprimoramento teórico, a novidade surge nos livros textos e é incorporada nos currículos de ensino.


História do Cálculo

Porque estamos falhando no ensino de Matemática?

Neste artigo pretendo analisar os motivos pelos quais o ensino das ciências exatas, em particular a matemática, enfrenta dificuldades, propondo algumas correções e sugerindo o debate em torno do assunto.

Minha afirmação de que há um problema com o ensino destas disciplinas não é o resultado de uma pesquisa aprofundada entre professores e egressos dos bancos escolares. Ela simplesmente vem da experiência em sala de aula e da constatação da dificuldade com que os alunos de cursos superiores, especialmente nos períodos iniciais, enfrentam ao cursar disciplinas tais como matemática e física, e a claríssima falta de formação apresentada por eles. A isto acrescento o argumento de que pessoas adultas, mesmo com curso superior completo em área do conhecimento que não em ciências exatas, muito pouco ou quase nada retém como conhecimento assimilado do conteúdo supostamente ministrado durante as fases de ensino básico e médio. É comum ouvir as pessoas reclamarem de que sofreram muito em seus cursos de matemática e física e, se pouco ficou retido ou acumulado como conhecimento adquirido, resta perguntar: para que todo este sofrimento?

Esta não pretende ser uma crítica aos colegas professores, em suas abordagens particulares do tema em sala de aula, e nem ao aluno que tem dificuldades no aprendizado. Pelo contrário, acredito que existem erros estruturais na abordagem de ensino e que é possível adotar rumos mais eficientes. Defendo que é possível alcançar níveis acadêmicos muito superiores aos atuais e, por isto, proponho um debate sobre como obtê-los. Para tanto separei a discussão em tópicos, consciente de que estes são interligados e se afetam mutuamente.

  • Investimentos insuficientes na educação longo da história do pais.
  • Educação familiar deficiente e excessiva dependência da escola na educação básica das crianças.
  • Escolha infeliz de tópicos na construção de ementas para o ensino básico e médio. Abordagem incompleta da matemática moderna.
  • Gap de gerações, principalmente devido à informatização.

Investimentos na educação insuficientes ao longo da história do pais

Este tópico afeta a educação de forma abrangente e não apenas o ensino de matemática. É evidente que se gasta muito pouco com educação no Brasil. Ensino de boa qualidade custa caro principalmente com remuneração de pessoal qualificado, aquisição de boas instalações e equipamento para laboratórios, computadores, ferramentas auxiliares de exposição e material de apoio. No entanto existe boa convergência entre os analistas de que este gasto é certamente o investimento de melhor retorno que pode fazer uma nação.

Em primeiro lugar há o desestímulo que existe para que uma pessoa abrace a carreira de professor, sabendo que estará submetida a condições de trabalho impróprias e salários defasados em relação as outras profissões. Hoje é bem conhecida a recusa dos jovens em se preparar para o trabalho em sala de aula e consequente falência de inúmeros cursos de licenciatura em ciências exatas nos diversos estados. Cada vez mais os cursos de licenciatura se tornam menos atraentes para os alunos de melhor formação básica. A própria forma de se encarar um curso de licenciatura é sintomática de um problema: alunos que se preparam para o ensino são frequentemente tratados como alunos de segunda classe e recebem apoio e estímulo inferior ao que se dá a seus colegas de bacharelado. Além disso os cursos são de menor duração, sendo realizados em apenas três anos, tempo insuficiente para criar uma base sólida de conhecimento na disciplina específica escolhida e, ao mesmo tempo, em pedagogia. A maioria dos alunos de licenciatura, especialmente nas escolas particulares, frequenta cursos noturnos e trabalha durante o dia, muitas vezes em regime de tempo integral, o que torna impossível para eles uma assimilação mínima do conteúdo. São estes alunos, formados de modo mediano, que compõem o quadro do professorado brasileiro atual, sem mencionar uma grande quantidade de professores sem formação específica nas disciplinas que lecionam.

Como ilustração, considere os níveis mais básicos da escola, oferecidos para as crianças mais jovens. Neste setor do ensino estão os professores com piores remunerações e com formação mais inadequada e insuficiente. As professoras ou “tias” são quase sempre pouco mais que “babás”, à despeito de uma “proposta pedagógica” elegante e bem elaborada que a escola certamente possui e guarda orgulhosa em seus arquivos e que estas professoras desconhecem ou não compreendem. Os estudos mais modernos sobre o desenvolvimento da cognição humana mostram que os anos iniciais de uma criança são marcados por um aprendizado rápido e intenso. Esta é a fase em que toda a base educacional, além do próprio caráter do indivíduo, é construída. Não me parece portanto apropriado entregar às pessoas com menor nível de formação as crianças em sua fase de maior potencialidade.

Reconhecidas as exceções das pessoas mais dedicadas que, por gosto ao ensino ou pela disciplina que ministra, procuram complementar sua formação, pode-se constatar uma formação acadêmica insuficiente nos profissionais do ensino e um apoio à educação continuada muito reduzido. Isto torna difícil uma reformulação de currículos e conteúdos programáticos que é necessária, como pretendo enfatizar.

Muitos outros fatores contribuem para a desestruturação da escola, entre eles a imposição oficial de propostas elegantes e pouco práticas que se alternam e se substituem em ritmo demasiado rápido para que mesmo um professor mais atento se mantenha familiarizado com elas.

Há um aspecto político importante associado a este problema. É muito evidente que o Brasil representa mundialmente apenas um mercado consumidor e que não precisa fazer um grande esforço para se manter atualizado com a rápida evolução científica e tecnológica mundial. O pais produz hoje um número reduzido de artigos e registros de patentes, em comparação com outras nações do mesmo porte. Este conceito, que parece dominar a elite dirigente, infelizmente está incorporado visceralmente pelas famílias e pelos próprios alunos que não assistem de perto à evolução tecnológica e que estão habituados simplesmente a comprar tecnologia pronta, assim como faz o próprio pais. A resistência contra o atingimento ou manutenção de ensino em nível elevado parte também destes alunos que não encontram motivos para se esforçar, tendo em vista um mercado de trabalho que parece valorizar pouco o desempenho acadêmico.
sala de aula

Dentro de um panorama de multi nacionalização irreversível, o esforço para obter bom nível de ensino representa um ato de resistência política, uma luta contra a incorporação de nosso pais que, se envolto pela globalização sem o devido preparo, será engolido e destruído, simplesmente.

Educação familiar deficiente e excessiva dependência da escola na educação básica dos jovens

Outro ponto importante fica explícito na queixa frequente, por parte dos mestres, de que os alunos não recebem uma educação básica em seus núcleos familiares, enquanto os pais exigem muito da escola na reposição desta carência. A “falta de educação” se reflete em relações interpessoais difíceis em sala de aula, com alunos agredindo verbalmente e até fisicamente seus professores que não contam com o apoio da escola, da família ou da própria sociedade e, com toda razão, sentem-se acuados. Esta característica é realimentada pela deficiência técnica dos professores que acabam por não impor respeito a seus alunos por pura e simples falta de boa formação técnica. A comum identificar uma situação em sala de aula onde o professor inseguro de suas respostas prefere adotar a postura de não tratar das perguntas feitas ou respondê-las de forma incorreta. O professor que não tem uma visão ampla do tema que leciona fecha as portas da curiosidade que leva ao aprofundamento e à pesquisa e não engaja o estudante em uma relação de respeito e cordialidade.

Escolha infeliz de tópicos na construção de ementas para o ensino básico e médio. Abordagem incompleta da matemática moderna.

Um ponto que considero ser um entrave para a boa evolução do ensino das ciências exatas está na escolha de tópicos e construção de ementas e grades curriculares. Como professor do ensino superior considero necessária uma reformulação destas ementas. Muitas vezes, em minha experiência em sala de aula, ouvi alunos, pais e até mesmo professores de matemática e pedagogos atribuírem a culpa da queda na qualidade do ensino à adoção da chamada matemática moderna. Estas pessoas costumam afirmar que antigamente os alunos aprendiam a fazer contas e que podiam memorizar com mais eficiência os tópicos elaborados pelo professor. Também é comum ouvir os pais reclamarem que não conhecem esta matemática e, por isto, não podem ajudar seus filhos no processo de aprendizagem.

(1) Entre eles estavam Henry Cartan, Jean Diedonné e André Weyl, no grupo inicial, que se inspirou nos avanços da escola alemã, representada por exemplo, por David Hilbert e Emily Noether. Mais tarde verificamos entre eles a presença de Serge Lang, Laurent Schwartz e vários outros.A história do grupo é fascinante e pode ser lida com algum detalhe no artigo sobre a História do Cálculo, neste site.

Este tema exige uma consideração mais detalhada. A matemática moderna é a designação que se dá a uma reforma do ensino e da própria compreensão da matemática ocorrido na França em torno de 1935 e anos seguintes e que desembarcou no Brasil na década de 1960. Havia naquela época, em toda a Europa, uma carência de professores experientes e com maior titulação, uma vez que muitos haviam morrido durante a primeira guerra mundial. Um grupo de jovens professores se reuniu para criticar os livros didáticos existentes, iniciando pelo livro adotado para o cálculo, e resolveu reescrever textos didáticos imprimindo neles uma maior organização lógica e didática. Os textos eram publicados pelo grupo sob o pseudônimo de Nicholas Bourbaki, um personagem fictício, adotado apenas como brincadeira e para indicar que o resultado era o esforço de um grupo. Mais tarde muitos dos participantes daquela iniciativa mostraram ser grandes matemáticos(1). Estes professores se reuniam e discutiam extensamente todas as contribuições oferecidas e os textos eram reescritos diversas vezes até se encaixarem plenamente dentro da proposta do grupo. Resumidamente o grupo Borbaki considerou que a matemática deveria ser baseada sobre a teoria dos conjuntos e que deveria manter, ao longo do processo de ensino, rigor lógico e simplicidade. Para isto criaram uma nova terminologia e reformularam conceitos ao longo dos tempos.

Congresso Bourbaki em 1939: Simone Weil, Charles Pisot, Andre Weil, Jean Dieudonné, Claude Chabauty, Charles Ehresmann, Jean Delsarte.

Aos poucos a reforma proposta por Bourbaki se instalou na educação francesa e depois se espalhou para todo o mundo. Naquela época era muito comum que matemáticos brasileiros buscassem na França sua titulação mais avançada, de forma que esta reforma logo se instalou no Brasil. O grupo Bourbaki recebeu também muitas críticas, as principais se referindo à ausência de um tratamento mais completo, sob forma de algoritmos, para a solução de problemas e uma supervalorização da álgebra em detrimento do pensamento geométrico. Muito foi dito sobre a ausência de figuras nos textos do grupo.

Embora aceite a afirmação de que não podemos simplesmente copiar uma iniciativa feita há quase um século, defendo aqui que a proposta básica de Bourbaki está correta e que a matemática deve ser inteiramente construída sob a noção básica de conjuntos. Afinal, a matemática é de fato um estudo sobre conjuntos e as relações entre eles. A reforma proposta pelo grupo francês não foi inadequada mas incompleta ou implementada de modo incompleto entre nós. Os alunos modernos deveriam assimilar os conceitos lógicos da matemática e, de posse destes, aprender a resolver problemas, que podem ser de natureza pragmática e aplicada sempre que possível, sem detrimento da formação mais abstrata e teórica. Considerações geométricas podem e devem ser usadas amplamente, assim como a contextualização do conteúdo e aplicação em problemas cotidianos, sempre que aplicável. Além disto, em uma época dos computadores e calculadoras de baixo custo e alta eficiência, não faz sentido sobrecarregar os alunos com operações complicadas e sofridas embora, claro, todos necessitem conhecer os procedimentos ou algorítimos usados para realizar as operação básicas.

Considero que a escolha de tópicos e níveis de abordagens do conteúdo das séries básica e média é inapropriada e ineficaz e necessita de ampla reformulação. A consideração sobre conjuntos deve ser mantida e ampliada. Relações entre conjuntos e membros dos conjuntos devem ser exploradas a cada passo, as operações fundamentais devem ser apresentadas neste contexto. O ensino da matemática em seus níveis mais básicos e fundamentais deve buscar a construção do pensamento lógico, da construção conceitual. Sendo impossível prever quais, entre todos os alunos, buscarão os níveis superiores das ciências exatas, é necessário ter uma cobertura flexível que permita o avanço dos mais inclinados a isto, sem submeter a totalidade dos alunos à exigência da obtenção de competências inatingíveis.

Gap de gerações

A meu ver existe uma dificuldade referente ao ensino que ultrapassa de longe as barreiras nacionais e não é exclusividade de nosso pais. Ela pode ser sentida em sala de aula, quando um professor mal treinado tenta ensinar “informática” para seus alunos pedindo que cliquem em um determinado ícone, ou arrastem, ou copiem e colem textos e imagens. Enquanto o professor termina seu duplo clique os alunos já se conectaram com os amigos em salas de bate papo, já enviaram seus textos repletos de abreviações assassinas da língua portuguesa, já editaram a imagem de uma colega inserindo-a em uma foto sensual e, com um pouco de sorte (ou azar!) algum aluno mais qualificado já invadiu o site de uma grande empresa e deixou lá um recado atrevido.

Existem estudos que mostram que a distância entre gerações pode ser sentida cada vez para diferenças de idade menores. Um aluno jovem hoje se senta para fazer a lição de casa com a televisão ligada, ouvindo música e falando com os amigos em salas de relacionamentos. E ele (ou ela) consegue fazer isto! A informática e a ampliação da disponibilidade da informação por meio da internet estão transformando o mundo de uma forma difícil de assimilar para as gerações com formação consolidada, entre eles pais e professores.

Hoje faz muito pouco sentido, ou talvez nenhum, pedir um trabalho escrito para os alunos, a menos que o professor seja versado em mecanismos de buscas e esteja disposto a passar a madrugada procurando as fontes de onde foram retirados os trabalhos e verificar se eles apresentam alguma criação do aluno ou apenas demostram capacidade de “copiar e colar”. Além de tomar iniciativas primárias (como a de proibir a wikipedia) é necessário aprender a usar a informática a favor da educação. Muitos alunos conseguem adquirir habilidades novas e extraordinárias através da internet, coisas tais como usar um software de edição de imagens ou vídeos ou até mesmo aprender a tocar um instrumento musical.

(2) Por exemplo o uso de softwares algébricos, tais como Mathematica, Maple ou Sage nos cursos de Cálculo não é simples e não foi ainda satisfatoriamente elaborado.Outra escolha interessante é o site Wolfram Alpha.

É claro que o uso do computador, estando em rede ou não, será parte integrante da vida das pessoas no mundo civilizado, e cada vez mais presente. Será preciso então incorporá-lo ao dia a dia das escolas de forma efetiva. Necessário será reconhecer que a plena utilização do computador como ferramenta didática não é plenamente conhecida e muitas iniciativas não apresentaram os resultados esperados(2). Defendo que os alunos devem ter uma informação básica em computação e que deveriam, pelo menos, conhecer os fundamentos da programação. O uso de uma máquina complicada, seja o computador ou outra qualquer, sem a menor noção de seu funcionamento favorece a formação de uma visão obscurantista da sociedade em que vivemos.

Gráfico gerado pelo software algébrico Sage

Nos dias atuais um indivíduo chega em casa e acende uma lâmpada cujo funcionamento só pode ser razoavelmente compreendido em termos de física quântica. Ele uso relógios e telefones onde os elétrons tunelam (atravessam) barreiras clássicas e, se ficar doente, pode fazer uso de um PET (positron emission technology), um aparelho que usa antimatéria (no caso o pósitron ou anti-elétron) para fazer um mapeamento minucioso e em camadas de seu corpo e órgãos internos.

É evidente que não se pode esperar que todos conheçam todos os ramos do conhecimento, mas é desejável que todos tenham uma boa noção sobre o funcionamento dos aparelhos e tecnologias que usam. Caso contrário estaremos usando caixas pretas ou “mágica” no sentido proposto pela terceira lei de Clarke-Asimov: “Qualquer tecnologia suficientemente avançada é indistinguível da magia”.

Aliás, vivemos já em um momento estranho da história da civilização, em que ciência e tecnologia avançada convivem com a miséria e a ignorância. É claro que este problema tem como causa maior a desigualdade na divisão de recursos em todo o planeta, que gera bolsões de extrema pobreza e ignorância. Mas mesmo entre as pessoas e sociedades mais favorecidas persiste e até floresce o obscurantismo sob forma de conservadorismo, de religiões fundamentalistas e outras mazelas do espírito humano desinformado, e de superstição pura e simples. Já há alguns séculos na história humana é impossível que uma pessoa domine todas as áreas do conhecimento. Isto torna ainda mais relevante a escolha de tópicos essenciais que devem prevalecer no esforço educacional. Caso contrário teremos um novo período de trevas em que poucos cientistas e técnicos, geralmente sob o jugo forte do poder econômico, ditarão a forma de vida dos cidadãos comuns, meros consumidores e espectadores do progresso e da evolução.

Para que serve a Matemática?

Os professores de matemática hoje se deparam com uma tarefa difícil: a motivação de seus alunos para os tópicos mais áridos desta ciência. Este problema tem diversas causas que vão desde os problemas com a qualidade geral do ensino até, por exemplo, a crença de que “está tudo pronto”, de que nada mais resta a desenvolver ou a descobrir. É comum ouvir reclamações de que um determinado cálculo pode ser realizado rapidamente em um computador e que, portanto, não seria necessário aprender a utilizar aquela técnica. No entanto sabemos que a tecnologia progride a passos rápidos e que o volume de artigos e novas idéias científicas nunca foi tão grande como hoje. Por isto, procurando contribuir para um melhor entendimento de nosso propósito como professores e estudantes de matemática, me proponho perguntar: por que devemos estudar matemática? Para que serve, afinal, a matemática?


Em primeiro lugar a matemática serve para descrever o mundo de uma forma rigorosa e precisa. Ela é uma linguagem, uma parte essencial na formação de modelos. Um modelo é um conjunto de definições e conceitos que busca descrever de maneira tão completa e fidedigna quanto possível o mundo natural ou uma parte dele, ou ainda processos artificiais criados pela crescente complexidade dos relacionamentos humanos. Esses modelos, além de serem tão completos quanto possível e possuírem coerência lógica, devem ser testados, comparados com o sistema real que ele pretende descrever por meio da observação ou da experimentação. Em caso de disparidades entre a descrição e a observação empírica o modelo deverá ser refeito e aperfeiçoado, ou mesmo abandonado se necessário.

Modelos são representações e não o objeto ou sistema de objetos descritos. Eles podem ser muito simples, como o modelo que representa o conjunto dos números naturais, {1, 2, 3, …}. Estes números foram usados, entre outras coisas, para contar quantas cabeças de gado um homem primitivo tinha e como ele poderia troca-las por alimentos ou outros bens. Nesta contagem ele pode ter usado pedrinhas (daí a palavra cálculo) para representar seus animais, estabelecendo uma relação biunívoca entre animais e pedras. Se possuía menos que uma dezena de bois e vacas, é possível que tenha usado paenas os dedos das mãos (de onde surgiu a palavra dígito). Embora simples este modelo não é trivial. É possível representar com um número natural quantos grãos de areia existem na Terra? (A resposta é sim!) E, principalmente, este modelo é incompleto.

Se pretendermos que nossas negociações incluam dívidas (e, como consequência, o calote!) teremos que expandir o modelo de forma a abarcar os números negativos e o zero, resultando no conjunto dos inteiros. O conjunto dos inteiros é ainda menos óbvio e mais abstrato que o dos naturais pois não temos conhecimento de alguma coisa concreta que exista em quantidades negativas! E mesmo este novo conjunto não é completo e não suficiente. Se quisermos oferecer como parte dos negócios uma fração de um terreno ou um pedaço de um queijo gigante teremos que ampliar o conjunto dos inteiros para outro conjunto que contenha frações, o conjunto dos racionais.


Esse parece agora ser um conjunto bem bonito e completo, o conjunto dos racionais, não tivessem os gregos descoberto que alguns números importantes não se encaixam dentro deles. A diagonal de um quadrado cujos lados medem um (em qualquer sistema de unidades) não é um racional e nem a razão entre a circunferência e o raio de um círculo (igual a 2 pi) não são números racionais. A experiência e a necessidade de descrever coisas pedem um modelo mais amplo. Por isto surgiram os irracionais, os números que não podem ser postos sob forma de uma fração. Racionais e irracionais, juntos, formam o conjunto dos números reais.

Estamos agora, a esta altura do desenvolvimento dos modelos matemáticos, muito longe dos conceitos intuitivos e primários. O conjunto dos números reais possui propriedades intrigantes e muito pouco óbvias. Entre dois números reais quaisquer existe uma infinidade de outros reais. Sua representação gráfica, a reta real, é infinita em ambas as direções e os pontos se empacotam de forma perfeita sem deixar nenhum furo ou imperfeição. O conceito é extremamente poderoso, possui coerência lógica e serve como modelo para a descrição de grande quantidade de objetos do mundo real. No entanto, não é tão claro se existe qualquer objeto no universo real que seja um bom representante desse modelo. Ele é útil para fazer descrições aproximadas de objetos que existem: se medirmos a distância entre duas cidades ou o comprimento de um fio estaremos ignorando, de forma totalmente apropriada e válida, as imperfeições do fio e da estrada que certamente não são contínuos como a reta real. Se ampliarmos com um potente microscópio uma seção do fio, veremos que ele, sendo de metal, é feito de granulações bem organizadas apresentando grandes vãos entre os átomos de sua estrutura. Isto não nos impedirá, no entanto, de usar réguas comuns para medir seu comprimento.

Observamos aqui uma tendência. O conjunto dos reais engloba os racionais, que por sua vez engloba os inteiros, que contém os naturais. O progresso do conhecimento se dá na direção da ampliação dos conceitos e na quebra das antigas barreiras. E, diferente do que se costuma pensar, os conceitos antigos, desde que bem estabelecidos, não são revogados como se revoga uma lei caduca e sim ampliados no que diz respeito a seu domínio de aplicação. Uma observação importante deve ser acrescentada aqui. Neste ponto do desenvolvimento da matemática (e mesmo antes disto, na verdade!), e da civilização humana como um todo, já teremos a necessidade de escolas. Precisaremos tirar as crianças de seus brinquedos e colocá-las em salas de aulas para garantir que o conhecimento acumulado por gerações de estudiosos, teóricos ou pessoas pragmáticas e engenhosas, seja repassado para as novas gerações. E, na medida em que cresce o domínio da ciência e as exigências das aplicações, mais tempo as pessoas deverão se dedicar ao estudo e a preparação para seu desempenho na vida e no ambiente de trabalho. Este é o preço que pagamos por termos descido das árvores a começado a usar ossos como ferramentas, modelar pedras para servir como instrumentos e armas, aprendido a domesticar o fogo.

Os modelos, é claro, passaram a representar objetos de complexidade crescente. Na planilha do engenheiro um prédio é um modelo de equilíbrio de forças onde a matemática permite que os pesos, as tensões no concreto e nos ferros se equilibrem para deixar estável a construção. Podemos descrever como se comporta uma mola mergulhada em um meio viscoso e sujeita a impactos externos, exatamente como existe no sistema de molas e amortecedores de um automóvel. O sistema é simples mas sua descrição completa exige um tópico matemático sofisticado, o das equações diferenciais. Queremos saber como uma corrente de elétrons se move dentro de materiais semicondutores. Para isto precisamos de um modelo bastante elaborado da física, a mecânica quântica. Com ela construímos relógios digitais, computadores e discos rígidos, entre outras máquinas diversas.

Grande parte das pessoas hoje, exceto aqueles excluídos da modernidade pela pobreza, usa direta ou indiretamente um satélite artificial para telecomunicações colocado em órbita geo-estacionária. Esses satélites giram em torno de nosso planeta com uma velocidade tal que parecerá, para um observador fixo na terra ou para a antena de seu receptor de TV, como estacionário em pleno ar. Para colocar um artefato desses em órbita é necessário usar o modelo da gravitação universal criado por Newton e, em alguns casos, será até mesmo necessário fazer correções usando o modelo da relatividade de Albert Einstein. Muita matemática está envolvida e provavelmente computadores sofisticados serão empregados nessas operações.

Exemplos de modelos mais prosaicos, mas igualmente úteis, podem ser encontrados na economia, no estudo das variações de preços dos produtos oferecidos ao consumidor, da inflação, do valor de um depósito feito meses atrás na caderna de poupança ou outra aplicação mais rentável. Modelos análogos serão usados para compreender a disseminação de uma doença, o contágio por um vírus ou a divulgação de um boato. Um modelo pode ser simples, como aquele que descreve os valores disponíveis em uma aplicação bancária com rendimento fixo, ou complicado e extenso como seria o modelo, ainda não desenvolvido, que descreve as oscilações nas bolsas de valores.

Tais modelos são úteis no presente, essenciais para a manutenção da vida moderna, complexa como ela se tornou. Mas eles têm uma habilidade extra: nos permitem prever o futuro. Um bom modelo descreve o que existe hoje e aponta para o que existirá amanhã, mesmo que esta previsão só possa ocorrer em termos probabilísticos, em alguns casos.

Um astrônomo poderá ver hoje em seu telescópio uma grande pedra varrendo o espaço em grande velocidade e decidir, usando os modelos matemáticos à sua disposição, se esta pedra colidirá ou não com nosso planeta. Como exemplo, a colisão do asteróide Shoemaker-Levi com o planeta Júpiter foi prevista com grande antecedência. Um bom modelo estelar será hábil para dizer, supondo conhecidas as condições atuais da estrela, em que estágio de sua evolução ela se encontra e por que etapas passará no futuro. Podemos, é claro, optar por uma visão poética dessa mesma estrela e isto será, sem dúvida, muito bom de se fazer. Mas, teremos perdido a habilidade de descobrir que essa estrela terá um dia esgotado seu combustível nuclear, que explodirá e poderá se tornar um buraco negro.

Finalmente chegamos àquela que considero ser a utilidade mais fina e essencial da matemática. Supridas as necessidades básicas do ser humano, garantida sua sobrevivência, seu anseio pela procriação e preservação da espécie e seu nível mínimo de conforto, a mente se volta para o conhecimento pelo conhecimento. Em um nível mais refinado não tem sentido perguntar para que serve a matemática. Por um lado um teorema serve porque é correto, porque é uma verdade. Por outro lado inúmeras teorias matemáticas foram desenvolvidas de forma puramente acadêmica, ou filosóficas, e muito mais tarde foram usadas em aplicações espetaculares.

Chegamos hoje a um estado de desenvolvimento da civilização onde a diversidade parece ser essencial. Precisamos de técnicos, de mão-de-obra braçal, de teóricos e de filósofos para enfrentar os desafios múltiplos e prementes por que passamos hoje. Um exemplo simples pode ser dado para corroborar esta afirmação: um pouco de ética bastaria para resolver grande parte das mazelas em nosso pais e conflitos pelo mundo afora e, neste sentido, precisamos de cidadãos filósofos. A experiência da história mostra que os povos que fizeram uso puramente pragmático da matemática entraram, ou já estavam, em declínio, enquanto os tempos áureos de qualquer povo, como na Grécia clássica, foram sempre pontuados pela livre investigação em todas as áreas a eles acessíveis, particularmente na matemática.

Vivemos em um período extraordinário da história da civilização. Temos hoje a habilidade para construir modelos científicos que descrevem o universo globalmente, que lançam perguntas sobre sua origem e destino e apontam para suas respostas. Estamos desvendando o código primário da existência humana através do projeto Genoma. Por outro lado, possuímos armas de destruição em massa e o poder para alterar de forma radical o clima no planeta. Os meios de transporte e as telecomunicações estão destruindo as barreiras nacionais e este processo não é suave ou indolor, particularmente para as nações mais pobres e com desenvolvimento tecnológico pouco consolidado.

A inserção em um mundo sem fronteiras exige profissionais de primeira linha, com formação simultaneamente profunda e ampla. Refletir sobre o avanço da ciência e da tecnologia, sobre os problemas que ela resolve e outros que ela causa, e participar deste progresso é essencial para que a sociedade brasileira possa se inserir na cidadania global em nível de igual participação e oportunidade.

2. Funções Analíticas

Funções de uma variável complexa

Uma função \(f:\mathbb{C}\rightarrow \mathbb{C}\) é uma operação que transforma pontos do plano complexo em outros pontos. A cada função de uma variável complexa
$$
w=f\left( z\right) =u\left( x,y\right) +i\left( x,y\right)
$$
estão associadas duas funções reais: \(u\left( x,y\right) =\text{Re}f\left( z\right) \;\text{ e }\; v(x,y)=\text{Im}f\left( z\right)\). Como estas funções levam pontos do plano \(\mathbb{C}\) em pontos de \(\mathbb{C}\) há uma dificuldade natural em se visualizar geometricamente seu efeito. Em algumas situações é útil visualizar funções complexas como transformações. Neste caso se observa como um determinado conjunto de pontos de \(\mathbb{C}\) é levado no próprio \(\mathbb{C}\) pela função.

Exemplo 1: O valor absoluto é uma função que tem como argumento números complexos e retorna números reais: \(\;f:\mathbb{C}\rightarrow \mathbb{R}\). Representaremos esta função por \(\;f(z) = \left\vert z \right\vert\) e a definimos como
$$
w=f\left( z\right) =\left\vert z\right\vert =\sqrt{x^{2}+y^{2}}.
$$
A imagem desta função é \(\mathbb{R}^{+}\).

Exemplo 2: A função
$$
w=f\left( z\right) =\frac{2z-3i}{\left( z-2\right) \left( z+i\right) }
$$
é válida para todos os pontos de \(\mathbb{C}\), exceto \(z=2\) e \(z=-i\). Seu domínio é, portanto, \(D\left(f\right) =\mathbb{C}-\left\{ 2\right\} -\left\{ -i\right\}\).

Exercício Resolvido: Encontre as partes real e imaginária da função
$$
w=\frac{3}{z-5}.
$$
Em coordenadas cartesianas temos
$$
w=\frac{3}{x-5+iy}=\frac{3\left( x-5-iy\right) }{\left( x-5\right) ^{2}+y^{2}}=\frac{3x-15-3iy}{\left( x-5\right) ^{2}+y^{2}}.
$$
Portanto
$$
u\left( x,y\right) = \frac{3x-15}{\left( x-5\right) ^{2}+y^{2}} \;\;\;\;\text{ e }\;\;\;\; v\left( x,y\right) =\frac{3y}{\left( x-5\right) ^{2}+y^{2}}
$$
são as partes real e imaginária, respectivamente.

Limites e Continuidade

Algumas definições são necessárias para prosseguirmos nosso estudo.

Definição: Se \(z_{0}\) é um ponto de acumulação do domínio \(D\) de uma função \(f\) então
$$
\lim_{z\rightarrow z_{0}}f\left( z\right) =L
$$
se, dado qualquer \(\epsilon >0\) existe um \(\delta >0\) tal que
$$
z\in D,\;0<\left\vert z-z_{0}\right\vert <\delta \Rightarrow \left\vert f\left( z\right) -L\right\vert <\epsilon .
$$
Equivalentemente:
$$
z\in D\cap V_{\delta }\left( z_{0}\right) \Rightarrow f\left( z\right) \in V_{\varepsilon }\left( L\right).
$$

Definição: Se \(\lim_{z\rightarrow z_{0}}f\left( z\right) =f\left( z_{0}\right)\) então \(f\) é contínua em \(z_{0}\).

Teorema: Seja \(f=u+iv\) e \(L=U+iV\). Então
$$
\lim_{z\rightarrow z_{0}}f\left( z\right) =L\Longleftrightarrow \lim_{z\rightarrow z_{0}}u=U\text{ }\;\;\;\;\;\text{ e }\;\;\;\;\lim_{z\rightarrow z_{0}}v=V.
$$

Corolário: Uma função \(f\left(z\right) =u\left( x,y\right) +iv\left( x,y\right)\) é contínua se, e somente se, as funções \(u\) e \(v\) são contínuas.

Teorema: Se \(\lim_{z\rightarrow z_{0}}f\left( z\right) =F\) e \(\lim_{z\rightarrow z_{0}}g\left( z\right) =G\) então

(a) \(\lim_{z\rightarrow z_{0}}\left[ f\left( z\right) +g(z)\right] =F+G\)(b) \(\lim_{z\rightarrow z_{0}}\left[ f\left( z\right).g(z)\right] =F.G\)

(c) \(\lim_{z\rightarrow z_{0}}\left[ f\left( z\right) /g(z)\right] =F/G\), se \(G\neq 0\).

Teorema: Se \(\lim_{z\rightarrow z_{0}}f\left( z\right) =F\) então existe uma vizinhança \(V_{\delta }\left( z_{0}\right)\) onde \(f\left(z\right)\) é limitada.

Teorema: A soma e o produto de funções contínuas são contínuas. O quociente é contínuo se o denominador não se anula.

Analiticidade

Diferente do que acontece com as funções de uma variável real, quando se analisa o comportamento de uma função de uma variável complexa na vizinhança de um ponto \(z_{0}\) é necessário considerar os diferentes caminhos tomados para se chegar a \(z_{0}\) no plano complexo. De modo análogo ao que ocorre com funções de duas variáveis reais, diremos que uma função \(f:D\rightarrow \mathbb{C}\) é derivável em \(z_{0}\) se sua derivada não depende do caminho tomado para se chegar a \(z_{0}\).

Definição: Uma função \(f:D\rightarrow \mathbb{C}\) é derivável em \(z\in D\) se existe o limite
$$
\lim_{\Delta z\rightarrow 0}\frac{f\left( z+\Delta z\right) -f\left(
z\right) }{\Delta z}\equiv f^{\prime }\left( z\right).
$$
Este limite deve ser único, não podendo depender de como \(z+\Delta z\) se aproxima de \(z\) ou, equivalentemente, de como \(\Delta z\rightarrow 0\).

Exemplo 3: A função \(f\left( z\right) =\left\vert z\right\vert ^{2}\) não é derivável em nenhum ponto de \(\mathbb{C}\). Para ver isto fazemos \(f\left( z\right) =\left\vert z\right\vert ^{2}=z \bar{z}\) e, usando a definição,
$$
f^{\prime }\left( z\right) =\lim_{\Delta z\rightarrow 0}\frac{\left(
z+\Delta z\right) \left( \bar{z}+\Delta \bar{z}\right) -z\bar{z}}{\Delta z}
=\lim_{\Delta z\rightarrow 0}\frac{z\Delta \bar{z}}{\Delta z}+\Delta \bar{z}+
\bar{z}.
$$
Escrevendo o incremento em forma polar,
$$
\Delta z=re^{i\theta };\ \Delta \bar{z}=re^{-i\theta },
$$
e lembrando que \(\Delta z\rightarrow 0\) equivale a \(r\rightarrow 0\) temos que
$$
f^{\prime }\left( z\right) =\lim_{r\rightarrow 0}\ \left( ze^{-2i\theta
}+re^{-i\theta }+\bar{z}\right) =ze^{-2i\theta }+\bar{z}.
$$
Observe que este limite depende do ângulo \(\theta\) com que se aproxima de \(z\) e, portanto, o limite não é único. Dizemos que esta função só tem derivada no ponto \(z=0\) e, neste ponto, \(f^{\prime}\left( 0\right) =0\).

Definição: Uma função \(f:D\rightarrow \mathbb{C}\) é analítica em uma região \(R\) se é derivável em cada ponto de \(R\). \(f\) é analítica no ponto \(z_{0}\) se é analítica numa vizinhança \(V_{\delta }\left( z_{0}\right)\). Uma função é dita inteira se for analítica em todo o plano complexo. As expressões holomorfa ou regular são também empregadas.

Regras de derivação

As funções elementares, extendidas para o plano complexo, são analíticas. Veremos alguns exemplos simples deste fato.

Exemplo 4: A função contínua \(f\left( z\right)=z_0\;\) (uma constante) é analítica e sua derivada é nula em todo ponto.

Exemplo 5: Se \(f\left( z\right) =z^{2}\) então
$$
f^{\prime }\left( z\right) =\lim_{\Delta z\rightarrow 0}\frac{f\left(
z+\Delta z\right) -f\left( z\right) }{\Delta z}=\lim_{\Delta z\rightarrow 0}
\frac{\left( z+\Delta z\right) ^{2}-z^{2}}{\Delta z}=
$$
$$
= \lim_{\Delta z\rightarrow 0}\frac{2z\Delta z+\Delta z^{2}}{\Delta z}==\lim_{\Delta z\rightarrow 0}2z+\Delta z=2z.
$$
Observe que este limite não depende de como \(\Delta z\rightarrow 0\). Usando o binômio de Newton podemos generalizar este resultado para funções \(f\left( z\right) =z^{n}\), cujas derivadas são
$$
f^{\prime }\left( z\right) =nz^{n-1}.
$$

Observamos que a soma e o produto de funções analíticas são analíticas. O quociente é analítico se o denominador for não-nulo. As seguintes regras se aplicam:

a. \(\left(f+g\right)^{\prime}=f^{\prime}+g^{\prime }\)
b. \(\left(fg\right)^{\prime}=f^{\prime}g+fg^{\prime }\)
c. \(\left(\frac{f}{g}\right)^{\prime}=\frac{f^{\prime}g-fg^{\prime }}{g^{2}},\;\;\text{ se }\;\;g\neq 0\).

Além disto temos um resultado importante: se \(f\) é uma função derivável em \(z_{0}\) então ela é contínua neste ponto. Para ver isto notamos que
$$
f^{\prime }\left( z_{0}\right) =\lim_{z\rightarrow z_{0}}\frac{f\left(z\right) -f\left( z_{0}\right) }{z-z_{0}}.
$$
Definimos

(1)

$$
g\left( z\right) =\frac{f\left( z\right) -f\left( z_{0}\right) }{z-z_{0}}-f^{\prime }\left( z_{0}\right)
$$
e, portanto,
$$
\lim_{z\rightarrow z_{0}}g\left( z\right) =0.
$$
De (1) podemos escrever
$$
f\left( z\right) =f\left( z_{0}\right) +\left( z-z_{0}\right) g\left(z\right) +\left( z-z_{0}\right) f^{\prime }\left( z_{0}\right)
$$
e, desta última expressão
$$
\lim_{z\rightarrow z_{0}}f\left( z\right) =f\left( z_{0}\right).
$$
Logo ela é contínua.

Exemplo 6: A função
$$
f\left( z\right) =\frac{\left( z+i\right) \left( 3z+1\right) ^{2}}{z\left(z-i\right) \left( z+2\right) ^{2}}
$$
só deixa de ser analítica nos pontos \(z=0\), \(z=i\) e \(z=-2\).

Condições de Cauchy-Riemann

Seja \(f\left( z\right) =u+iv\) uma função derivável em \(z=x+iy\). Então o limite
$$
\lim_{\Delta z\rightarrow 0}\frac{f\left( z-\Delta z\right) -f\left(
z\right) }{\Delta z}=f^{\prime }\left( z\right)
$$
existe e independe de como \(\Delta z\rightarrow 0\). Tomamos em particular dois caminhos. Fazendo \(\Delta z=k\), que corresponde a \(z\) se aproximando de \(z_{0}\) ao longo do eixo real, temos
$$
f^{\prime }\left( z\right) =\lim_{k\rightarrow 0}\frac{1}{k}\left[ u\left(
x+k,y\right) +iv\left( x+k,y\right) -u\left( x,y\right) -iv\left( x,y\right)
\right]
$$
$$
=\lim_{k\rightarrow 0}\frac{1}{k}\left[ u\left( x+k,y\right) -u\left(
x,y\right) +iv\left( x+k,y\right) -iv\left( x,y\right) \right] =
$$
$$
=\frac{\partial u\left( x,y\right) }{\partial x}+i\frac{\partial v\left(
x,y\right) }{\partial x}.
$$
Por outro lado, fazendo \(\Delta z=it\), o que corresponde a tomar \(z\) se aproximando de \(z_{0}\) ao longo do eixo imaginário, temos
$$
f^{\prime }\left( z\right) =\lim_{t\rightarrow 0}\frac{1}{it}\left[ u\left(x,y+t\right) +iv\left( x,y+t\right) -u\left( x,y\right) -iv\left( x,y\right)
\right].
$$
Para explicitar as partes real e imaginária deste limite multiplicamos numerador e denominador por \(-i\),
$$
f^{\prime }\left( z\right) =\lim_{t\rightarrow 0}\frac{1}{t}\left[ v\left(x,y+t\right) -v\left( x,y\right) -iu\left( x,y+t\right) +iu\left( x,y\right) \right] =
$$
$$
=\frac{\partial v\left( x,y\right) }{\partial y}-i\frac{\partial u\left(x,y\right) }{\partial y}.
$$
Para que a função seja derivável os limites tomados para os dois casos devem ser iguais. Identificando as partes reais e imaginárias chegamos às equações de Cauchy-Riemann:
$$
\frac{\partial u\left( x,y\right) }{\partial x}=\frac{\partial v\left(x,y\right) }{\partial y};
$$
$$
\frac{\partial u\left( x,y\right) }{\partial y}=-\frac{\partial v\left(x,y\right) }{\partial x}.
$$
Para simplificar a notação faremos
$$
\frac{\partial u}{\partial x}=u_{x};\;\ \frac{\partial v}{\partial y}=v_{y};\ \;\frac{\partial u}{\partial y}=u_{y};\ \;\frac{\partial v}{\partial x}=v_{x},
$$
de forma que as equações de Cauchy-Riemann podem ser escritas simplesmente como
$$
u_{x}=v_{y};\;\;\ \;u_{y}=-v_{x}.
$$
Estas condições, no entanto, são necessárias mas não suficientes para que \(f=u+iv\) seja uma função analítica. O seguinte teorema exibe as condições para que isto seja verdadeiro.

Teorema: Sejam \(u\left( x,y\right)\) e \(v\left(x,y\right)\) funções reais com derivadas parciais contínuas numa região \(R\). Então as equações de Cauchy-Riemann são condições necessárias e suficientes para que \(f=u+iv\) seja analítica.

Observe que, para uma função analítica, podemos tomar\ \(\Delta z\rightarrow 0\) ao longo de qualquer caminho, em particular podemos fazer \(\Delta z=\Delta x\), como fizemos na derivação das equações de Cauchy-Riemann. Sua derivada é, portanto
$$
\frac{df\left( z\right) }{dz}=\frac{\partial f\left( z\right) }{\partial x}.
\label{dparc}
$$
Se for conveniente podemos também usar a derivada parcial em \(y\).

Exemplo 8: A função \(f\left( z\right) =\bar{z}\) não é analítica. Note que \(\bar{z}=x-iy\). Dai
$$
u\left( x,y\right) =x,\; v\left( x,y\right) =-y,\; u_{x}=1,\; v_{x}=0,\; u_{y}=0,v_{y}=-1.
$$

Exemplo 9: Como já sabemos a função \(f\left(z\right) =z^{2}\) é analítica. Observe que, em coordenadas cartesianas,
$$
f\left( z\right) =\left( x+iy\right) ^{2}=x^{2}-y^{2}+2xyi.
$$
Suas partes real e imaginária são
$$
u\left( x,y\right) =x^{2}-y^{2};\ \ v\left( x,y\right) =2xy
$$
e suas derivadas parciais

(2)

$$
\begin{array}{ll}
\frac{\partial u}{\partial x}=2x, & \frac{\partial v}{\partial y}=2x \\
\frac{\partial u}{\partial y}=-2y,\ \ \ \ & \frac{\partial v}{
\partial x}=2y.
\end{array}
$$
Como \(u_{x}=v_{y}\), \(\ u_{y}=-v_{x}\) e as derivadas parciais são contínuas então a função é analítica. Sua derivada é, usando (2),
$$
\frac{dz^{2}}{dz}=\frac{\partial z^{2}}{\partial x}=u_{x}+iv_{x}=2x+2iy=2z.
$$

Exemplo 10: Vamos verificar que se a função \(f\left(z\right) =1/z\) é analítica e encontrar sua derivada. Precisamos primeiro escrever a função de forma a explicitar sua parte real e imaginária,
$$
f\left( z\right) =\frac{1}{z}=\frac{1}{x+iy}=\frac{1}{x+iy}\frac{x-iy}{x-iy}=
\frac{x-iy}{x^{2}+y^{2}}.
$$
Portanto
$$
u\left( x,y\right) =\frac{x}{x^{2}+y^{2}},\;\;\;v\left( x,y\right) =\frac{-y}{x^{2}+y^{2}}.
$$
Lembrando que a derivada de um quociente é
$$
\left( \frac{f}{g}\right) ^{\prime }=\frac{f^{\prime }g-fg^{\prime }}{g^{2}}
$$
calculamos
$$
u_{x}=\frac{x^{2}+y^{2}-x\left( 2x\right) }{\left( x^{2}+y^{2}\right) ^{2}}=
\frac{y^{2}-x^{2}}{\left( x^{2}+y^{2}\right) ^{2}},
$$
$$
u_{y}=\partial _{y}\left[ x\left( x^{2}+y^{2}\right) ^{-1}\right] =\frac{-2xy}{\left( x^{2}+y^{2}\right) ^{2}},
$$
$$
v_{x}=\partial _{x}\left[ -y\left( x^{2}+y^{2}\right) ^{-1}\right] =\frac{2xy}{\left( x^{2}+y^{2}\right) ^{2}},
$$
$$
v_{y}=-\frac{x^{2}-y^{2}}{\left( x^{2}+y^{2}\right) ^{2}}=\frac{y^{2}-x^{2}}{\left( x^{2}+y^{2}\right) ^{2}}.
$$
Observamos que as equações de Cauchy-Riemann, \(u_{x}=v_{y},\;u_{y}=-v_{x},\;\) são satisfeitas em todo o plano complexo. No entanto as derivadas parciais de \(u\) e \(v\) não são contínuas em \(\left(x,y\right) =\left( 0,0\right)\) de onde concluímos que \(f\left(z\right)\) é analítica em \(\mathbb{C}-\left\{ 0\right\}\). Fora de \(z=0\) a função é analítica e podemos usar (2) para obter sua derivada:
$$
\frac{d}{dz}\left( \frac{1}{z}\right) =\frac{\partial }{\partial x}\left(\frac{1}{z}\right) =\frac{\partial }
{\partial x}\left( \frac{x-iy}{x^{2}+y^{2}}\right) =-\frac{1}{z^{2}}.
$$
Obtenha, como um exercício, a última igualdade.

Exercício Resolvido: Verifique se são analíticas e em que região são analíticas as funções:

a. \(f(z)=e^z\)   b. \(f(z) =z\bar{z}\)   c. \(f(z) =1\)

Encontre as derivadas das funções, quando existirem.

a. A função exponencial pode ser escrita como
$$
f\left( z\right) =e^{z}=e^{x+iy}=e^{x}e^{iy}=e^{x}\left( \cos y+i\text{sen }y\right).
$$
Portanto
$$
u\left( x,y\right) =e^{x}\cos y\;\;\;\Rightarrow \;\;\;u_{x}=e^{x}\cos y,\;\;\;u_{y}=-e^{x}\text{sen }y
$$
$$
v\left( x,y\right) =e^{x}\text{sen }y\;\;\;\Rightarrow \;\;v_{x}=e^{x}\text{sen }y,\;\;\;v_{y}=e^{x}\cos y.
$$
Como as condições de Cauchy Riemann são satisfeitas e as derivadas parciais são contínuas a função é analítica em todo o plano complexo. Além disto sua derivada é
$$
\frac{d\,e^{z}}{dz}=\frac{\partial \,e^{z}}{\partial x}=u_{x}+iv_{x}=e^{x}\cos y+ie^{x}\text{sen }y=e^{x}e^{iy}=e^{z}.
$$

b. A função \(f\left( z\right) =z\bar{z}=(x+iy)\left( x-iy\right)=x^{2}+y^{2}\) só é analítica em \(z=0\) pois
$$
u\left( x,y\right) =x^{2}+y^{2}\;\;\;\Rightarrow \;\;\;u_{x}=2x,\;\;\;u_{y}=2y
$$
$$
v\left( x,y\right) =0\;\;\;\Rightarrow \;\;v_{x}=0,\;\;\;v_{y}=0.
$$

c. Já a função constante \(f\left( z\right) =1\) é analítica em \(\mathbb{C}\) pois \(u=1,\;v=0\), e todas as derivadas são nulas, portanto contínuas. Sua derivada é
$$
\frac{d\,1}{dz}=\frac{\partial \,1}{\partial x}=0.
$$

Equações de Cauchy-Riemann em coordenadas polares

Algumas vezes é mais fácil trabalhar com as funções em coordenadas polares para testar sua analiticidade. Para obter as equações de Cauchy-Riemann nestas coordenadas partimos das relações entre as coordenadas polares e as coordenadas cartesianas,
$$
r\left( x,y\right) =\sqrt{x^{2}+y^{2}};\;\;\theta \left( x,y\right) =\arctan\left( \frac{y}{x}\right)
$$
ou, inversamente,
$$
x=r\cos \theta ,\ \ y=r\text{sen }\theta .
$$
Se \(f\) é uma função de \(x\) e \(y\), que, por sua vez, são funções de \(r\) e \(\theta\),
$$
f=f\left( x\left( r,\; \theta \right) ,\;\; y\left( r,\; \theta \right) \right)
$$
podemos relacionar as derivadas parciais calculadas nos dois sistemas de coordenadas por meio da regra da cadeia:
$$
\frac{\partial f}{\partial r}=\frac{\partial f}{\partial x}\frac{\partial x}{
\partial r}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial r},
$$
$$
\frac{\partial f}{\partial \theta }=\frac{\partial f}{\partial x}\frac{
\partial x}{\partial \theta }+\frac{\partial f}{\partial y}\frac{\partial y}{
\partial \theta }.
$$
Como estas duas relações são válidas independentemente da função \(f\) considerada podemos escrever as relações de operadores,
$$
\frac{\partial }{\partial r}=\frac{\partial }{\partial x}\frac{\partial x}{
\partial r}+\frac{\partial }{\partial y}\frac{\partial y}{\partial r},
$$
$$
\frac{\partial }{\partial \theta }=\frac{\partial }{\partial x}\frac{
\partial x}{\partial \theta }+\frac{\partial }{\partial y}\frac{\partial y}{
\partial \theta }.
$$
Precisaremos das derivadas
$$
\begin{array}{ll}
x_{r}=\cos \theta , & y_{r}=\text{sen }\theta , \\
x_{\theta }=-r\text{sen }\theta ,\ \ \ & y_{\theta }=r\cos \theta .
\end{array}
$$
Então
$$
\frac{\partial }{\partial r}=\cos \theta \frac{\partial }{\partial x}+\text{
sen}\theta \frac{\partial }{\partial y},\; \; \; \; \frac{\partial }{
\partial \theta }=-r\text{sen }\theta \frac{\partial }{\partial x}+r\cos
\theta \frac{\partial }{\partial y}.
$$
Em particular
$$
\begin{array}{ll}
u_{r}=\cos \theta ~u_{x}+\text{sen }\theta ~u_{y}, & v_{r}=\cos \theta ~v_{x}+
\text{sen }\theta ~v_{y}, \\
u_{\theta }=-r\text{sen }\theta ~u_{x}+r\cos \theta ~u_{y},\; \; \; \; &
v_{\theta }=-r\text{sen }\theta ~v_{x}+r\cos \theta ~v_{y}.
\end{array}
$$
Usando as equações de Cauchy-Riemann em coordenadas cartesianas (\(u_{x}=v_{y}\) e \(u_{y}=-v_{x}\) ) podemos escrever
$$
\begin{array}{ll}
u_{r}=\cos \theta & v_{y}-\text{sen }\theta ~v_{x}=\frac{1}{r}v_{\theta }, \\
u_{\theta }=-r\text{sen }\theta & v_{y}-r\cos \theta ~v_{x}=-rv_{r}.
\end{array}
$$
Estas são, portanto, as equações de Cauchy-Riemann em coordenadas polares:
$$
\frac{\partial u}{\partial r}=\frac{1}{r}\frac{\partial v}{\partial \theta },
$$
$$
\frac{\partial v}{\partial r}=-\frac{1}{r}\frac{\partial u}{\partial \theta}.
$$
Observe que, se a função é analítica, sua derivada é
$$
\frac{df\left( z\right) }{dz}=\frac{\partial f\left( z\right) }{\partial x}.
$$
A derivada parcial em \(x\) pode ser associada às derivadas em \(r\) e \(\theta\) da seguinte forma: primeiro calculamos as derivadas parciais
$$
\frac{\partial r}{\partial x}=\frac{\partial }{\partial x}\sqrt{x^{2}+y^{2}}=\frac{x}{\sqrt{x^{2}+y^{2}}}=\frac{x}{r}=\cos \theta,
$$
$$
\frac{\partial \theta }{\partial x}=\frac{\partial }{\partial x}\text{arctag } \left( \frac{y}{x}\right) =\frac{1}{1+\left( y/x\right) ^{2}}\frac{-y}{x^{2}}
=\frac{-y}{x^{2}+y^{2}}=\frac{-\text{sen }\theta }{r}.
$$
Em seguida, usando a regra da cadeia, temos
$$
\frac{\partial }{\partial x}=\frac{\partial }{\partial r}\frac{\partial r}{
\partial x}+\frac{\partial }{\partial \theta }\frac{\partial \theta }{
\partial x}=\cos \theta \frac{\partial }{\partial r}-\frac{\text{sen }\theta
}{r}\frac{\partial }{\partial \theta }
$$
portanto
$$
\frac{df\left( z\right) }{dz}=\cos \theta \frac{\partial f\left( z\right) }{
\partial r}-\frac{\text{sen }\theta }{r}\frac{\partial f\left( z\right) }{
\partial \theta }.
$$
Apenas como referência vamos listar a derivada parcial em \(y:\)
$$
\frac{\partial }{\partial y}=\frac{\partial }{\partial r}\frac{\partial r}{
\partial y}+\frac{\partial }{\partial \theta }\frac{\partial \theta }{
\partial y}=\text{sen }\theta \frac{\partial }{\partial r}+\frac{\cos \theta
}{r}\frac{\partial }{\partial \theta },
$$
enquanto \(r\) e \(\theta\) tem derivadas em \(y\)
$$
\frac{\partial r}{\partial y}=\frac{\partial }{\partial y}\sqrt{x^{2}+y^{2}}=
\frac{y}{\sqrt{x^{2}+y^{2}}}=\frac{r\text{sen }\theta }{r^{2}}=\text{sen }
\theta ,
$$
$$
\frac{\partial \theta }{\partial y}=\frac{\partial }{\partial y}\text{arctag}
\left( \frac{y}{x}\right) =\frac{1}{1+\left( y/x\right) ^{2}}\frac{1}{x}=
\frac{x}{x^{2}+y^{2}}=\frac{\cos \theta }{r}.
$$

Exemplo 11: Vamos verificar se a função \(f\left(z\right) =1/z\) é analítica. Já resolvemos este exercício em coordenadas cartesianas mas vale notar que a verificação fica mais simples em coordenadas polares. Para isto escrevemos

$$
f\left( z\right) =\frac{1}{z}=\frac{1}{re^{i\theta }}=\frac{e^{-i\theta }}{r}
=\frac{1}{r}\left( \cos \theta -i\text{sen }\theta \right).
$$
Portanto
$$
u\left( r,\theta \right) =\frac{1}{r}\cos \theta ,\;\;\;v\left( r,\theta
\right) =-\frac{1}{r}\text{sen }\theta .
$$
Calculamos agora
$$
u_{r}=-\frac{1}{r^{2}}\cos \theta ,\;\;\;\;\;u_{\theta }=-\frac{1}{r}
\text{sen }\theta ,
$$
$$
v_{r}=\frac{1}{r^{2}}\text{sen }\theta, \;\;\;\;\;\;v_{\theta }=-\frac{1}{r}\cos \theta.
$$
portanto \(u_{r}=\frac{1}{r}v_{\theta },\;v_{r}=-\frac{1}{r}u_{\theta }\), as equações de Cauchy-Riemann são satisfeitas. No entanto as derivadas parciais não são contínuas em \(r=0\) logo \(f\left(z\right)\) não é analítica em \(z=0,\;\) como já havíamos concluído usando a representação em coordenadas cartesianas.

Exemplo 12: Verifique se a função \(f\left( z\right) =1/z^{2}\) é analítica. Escrevemos a função em coordenadas polares,

$$
f\left( z\right) =\frac{1}{z^{2}}=\frac{1}{r^{2}e^{2i\theta }}=\frac{
e^{-2i\theta }}{r^{2}}=\frac{1}{r^{2}}\left( \cos 2\theta -i\text{sen }
2\theta \right).
$$
Portanto
$$
u\left( r,\theta \right) =\frac{1}{r^{2}}\cos 2\theta ,\;\;\;v\left(
r,\theta \right) =-\frac{1}{r^{2}}\text{sen }2\theta .
$$
As derivadas parciais de \(u\) e \(v\), em coordenadas polares, são
$$
u_{r}=-\frac{2}{r^{3}}\cos 2\theta ,\;\;\;\;\;u_{\theta }=-\frac{2}{r^{2}}\text{sen }2\theta ,
$$
$$
v_{r}=\frac{2}{r^{3}}\text{sen }2\theta ;\;\;\;\;\;\;v_{\theta }=-\frac{2}{
r^{2}}\cos 2\theta .
$$
portanto \(u_{r}=\frac{1}{r}v_{\theta },\;v_{r}=-\frac{1}{r}u_{\theta }\). As derivadas parciais não são contínuas em \(r=0\;\;\) logo \(f\left(z\right)\) não é analítica em \(r=0\).

Exercício Resolvido: Verifique se são analíticas e em que região são analíticas:
a. \(f\left( z\right) =\frac{1}{z^{3}},\;\;\;\)b.\( \; f\left( z\right) =\sqrt{z}\).

Para estas funções é mais fácil fazer o teste em coordenadas polares.

a. Escrevemos \(z=re^{i\theta }\), logo
$$
f\left( z\right) =\frac{1}{z^{3}}=\frac{1}{r^{3}e^{3\theta i}} =r^{-3}\left( \cos 3\theta -i\text{sen }3\theta \right).
$$
Foi usado aqui
$$
\frac{1}{e^{3\theta i}}=e^{-3\theta i}=\cos \left( -3\theta \right) +i \text{sen }\left( -3\theta \right) =\cos 3\theta -i\text{sen }3\theta ,
$$
pois o cosseno é uma função par enquanto o seno é impar. Temos então
$$
u=r^{-3}\cos 3\theta \;\;\;\Rightarrow \;\;\;u_{r}=-3r^{-4}\cos 3\theta ,\;\;\;u_{\theta }=-3r^{-3}\text{sen }3\theta
$$
$$
v=-r^{-3}\text{sen }3\theta \;\;\;\Rightarrow \;\;v_{r}=3r^{-4}\text{sen }3\theta ,\;\;\;v_{\theta }=-3r^{-3}\cos 3\theta .
$$
Então a função é analítica, exceto em \(z=0\), onde as derivadas parciais não são contínuas. Observe que neste ponto a função nem mesmo está definida.

b. Escrevemos \(z=re^{i\theta }\) e tomamos uma de suas raízes, observando que o mesmo resultado seria obtido com a outra raiz,
$$
f\left( z\right) =\sqrt{z}=\sqrt{re^{i\theta }}=\sqrt{r}e^{i\theta /2}=\sqrt{r}\left( \cos \frac{\theta }{2}+i\text{sen }\frac{\theta }{2}\right).
$$
Temos então
$$
u=\sqrt{r}\cos \frac{\theta }{2}\;\;\;\Rightarrow \;\;\;u_{r}=\frac{1}{2\sqrt{r}}\cos \frac{\theta }{2},\;\;\;u_{\theta }=-\frac{\sqrt{r}}{2}\text{
sen}\frac{\theta }{2},
$$
$$
v=\sqrt{r}\text{sen }\frac{\theta }{2}\;\;\;\Rightarrow \;\;v_{r}=\frac{1}{2
\sqrt{r}}\text{sen }\frac{\theta }{2},\;\;\;v_{\theta }=\frac{\sqrt{r}}{2}
\cos \frac{\theta }{2}.
$$
Então a função é analítica exceto em \(z=0\). Note que a função está definida em \(z=0\) mas suas derivadas parciais, \(u_{r}\) e \(v_{r}\), não são contínuas neste ponto.

Exercício Resolvido: Verifique se é analítica a função logaritmo, \(f\left( z\right) =\ln z=\ln \left(re^{i\theta }\right)\).

Observe que o logaritmo, que voltaremos a estudar ainda neste capítulo, pode ser escrito da seguinte forma, usando a propriedade \(\ln \left(ab\right) =\ln a+\ln b:\)
$$
\ln z=\ln \left( re^{i\theta }\right) =\ln r+\ln e^{i\theta }=\ln r+i\theta ,
$$
para \(0\leq \theta \leq 2\pi\). Nesta região temos
$$
u\left( r,\theta \right) =\ln r,\ \ v\left( r,\theta \right) =\theta .
$$
As derivadas parciais são
$$
\begin{array}{lll}
u_{r}=\frac{1}{r}, & & v_{\theta }=0, \\
v_{r}=0, & & v_{\theta }=1,
\end{array}
$$
e, portanto a função é analítica em todo o plano complexo exceto na origem, onde \(u_{r}\) não é contínua.

Interpretação geométrica da analiticidade

Para o estudo que se segue será útil fazer uma revisão dos conceitos de curva de nível e gradiente. Dada uma função de duas variáveis, \(z=u\left( x,y\right)\), então \(u\left( x,y\right) =k\), uma constante, formam famílias de curvas em \(\mathbb{R}^{2}\), cada curva correspondendo a um valor da constante \(k\). Estas são as chamadas curvas de nível de \(u\) consistindo no conjunto de pontos de \(\mathbb{R}^{2}\) que são levados no mesmo valor \(k\) pela função \(u\). Definimos o gradiente de \(u\) como o vetor
$$
\text{grad}u=\vec{\bigtriangledown}u=\left( \frac{\partial u}{\partial x},~
\frac{\partial u}{\partial y}\right)
$$
e observamos que o gradiente é perpendicular a um vetor tangente às curvas de nível, como ilustrado na figura. Para ver isto note que, sobre as curvas de nível, temos \(u\left( x,y\right) =k\) e portanto
$$
0=du=\frac{\partial u}{\partial x}dx+\frac{\partial u}{\partial y}dy=\left(
\frac{\partial u}{\partial x},~\frac{\partial u}{\partial y}\right) \cdot
\left( dx,~dy\right).
$$
Em outros termos temos
$$
\vec{\bigtriangledown}u\cdot d\vec{x}=0\Rightarrow \vec{\bigtriangledown} u\bot d\vec{x}.
$$

Podemos agora enunciar o seguinte teorema:

Teorema: Se a função \(f=u+iv\) é analítica em uma região \(R\) então as curvas de nível das famílias \(u\left( x,y\right) = \; \text{ constante e } \; v\left( x,y\right) =\) constante se cruzam em ângulo reto (são ortogonais) em todo ponto \(z_{0}\in R\) satisfazendo \(\;f^{\prime }\left( z_{0}\right) \neq 0\).

Demonstração: \(\text{grad}u=\vec{\bigtriangledown} u=\left( u_{x},~u_{y}\right)\) é normal às curvas \(u=\) cte enquanto \(\vec{\bigtriangledown}v=\left( v_{x},~v_{y}\right)\) é normal às curvas \(v=\) cte. Tomamos o produto escalar
$$
\vec{\bigtriangledown}u\cdot \vec{\bigtriangledown}v=\left(
u_{x},~u_{y}\right) \cdot \left( v_{x},~v_{y}\right) =u_{x}v_{x}+u_{y}v_{y}.
$$
Usando as condições de Cauchy-Riemann para a analiticade de \(f\) temos
$$
\vec{\bigtriangledown}u\cdot \vec{\bigtriangledown}v=-u_{x}u_{y}+u_{y}u_{x}=0,
$$
de onde concluímos que \(\vec{\bigtriangledown}u\bot \vec{\bigtriangledown}v\).

Observe que estas curvas, \(u\) e \(v\) constante, são curvas no domínio da função no plano complexo, representado pelas coordenadas \(z=x+iy\) como ilustrado na figura. As curvas \(u\) e \(v\) constante na imagem, \(w=f\left( z\right)\) são perpendiculares por definição.

Exemplo 13: Vamos verificar a perpendicularidade estudada acima para a função
$$
w=z^{2}=x^{2}-y^{2}+2ixy.
$$
As curvas \(u\left( x,y\right) =k\) são as hipérboles
$$
x^{2}-y^{2}=k_{1}\Rightarrow \frac{x^{2}}{k_{1}}-\frac{y^{2}}{k_{1}}=1,
$$
enquanto \(v\left( x,y\right) =k\) são também hipérboles, dadas por
$$
2xy=k_{2}\Rightarrow y=\frac{k_{2}}{2x}.
$$
Algumas vezes é útil considerar o último teorema sob a seguinte
forma:

Teorema: Se a função \(f=u+iv\) é analítica em uma região \(R\) então as famílias de curvas

$$
\begin{array}{ll}
F_{1}: & u\left( x,y_{0}\right) +iv\left( x,y_{0}\right) , \\
F_{2}: & u\left( x_{0},y\right) +iv\left( x_{0},y\right) ,
\end{array}
$$

parametrizadas por \(x\) e \(y\) respectivamente, são ortogonais em \(z_{0}\in R\), desde que \(f^{\prime }\left( z_{0}\right) \neq 0\).

Demonstração: Em forma vetorial as famílias \(F_{1}\) e \(F_{2}\) e suas respectivas tangentes, \(t_{1}\) e \(t_{2}\), são
$$
\begin{array}{ll}
F_{1}=\left( u\left( x,y_{0}\right) ,\ v\left( x,y_{0}\right) \right) ;\ &
t_{1}=\frac{\partial F_{1}}{\partial x}=\left. \left( u_{x},~v_{x}\right)
\right\vert _{\left( x_{0},y_{0}\right) },\; \; \\
F_{2}=\left( u\left( x_{0},y\right) ,~v\left( x_{0},y\right) \right) ;\ &
t_{2}=\frac{\partial F_{2}}{\partial y}=\left. \left( u_{y},~v_{y}\right)
\right\vert _{\left( x_{0},y_{0}\right) },
\end{array}
$$
lembrando que as tangentes são calculadas no ponto \(\left(x_{0},y_{0}\right)\). As tangentes são ortogonais, pois, tomando seu produto escalar obtemos
$$
t_{1}\cdot t_{2}=u_{x}u_{y}+v_{x}v_{y}=-u_{x}v_{x}+v_{x}u_{x}=0.
$$
Isto pode ser visualizado na figura abaixo.

Exemplo 14: Vamos visualizar a função \(w=\exp \left(z\right) =e^{z}\) como uma transformação e observar que as curvas \(\left( x_{\ },y_{0}\right)\) e \(\left( x_{0},y\right)\) no plano \(xy\) são levadas em curvas que se interceptam ortogonalmente no plano \(uv\). Notamos primeiramente que
$$
w=e^{x+iy}=e^{x}e^{iy}=e^{x}\left( \cos y+i\text{sen }y\right).
$$
As partes real e imaginária e suas derivadas são
$$
\begin{array}{lll}
u\left( x,y\right) =e^{x}\cos y, & u_{x}=e^{x}\cos y, & u_{y}=-e^{x}\text{sen }y, \\
v\left( x,y\right) =e^{x}\text{sen }y, & v_{x}=e^{x}\text{sen }y, & v_{y}=e^{x}\cos y.
\end{array}
$$
Como as condições de Cauchy-Riemann são satisfeitas e as derivadas parciais são contínuas a função é analítica. Além disto sua derivada é
$$
\frac{de^{z}}{dz}=\frac{\partial e^{z}}{\partial x}=\frac{\partial }{
\partial x}\left( e^{x+iy}\right) =e^{x+iy}=e^{z},
$$
e
$$
\vec{\nabla}u\cdot \vec{\nabla}v=u_{x}v_{x}+u_{y}v_{y}=0.
$$
A reta \(\left( x,~0\right)\) é levada em \(w=e^x\), que é a semi-reta \(u\gt 0,\; v=0\) do plano \(uv\). A reta \(\left( x,~\pi /4\right)\) é levada em \(w=e^{x}e^{i\pi /4}\), que é a semi-reta bissetriz do primeiro quadrante. A reta \(\left( 0,\ y\right)\) é levada em \(w=e^{iy}\), que é a circunferência de raio \(1\). Estas e outras retas de \(xy\) e sua imagem no plano \(uv\) estão representadas na figura. Observe que nenhum ponto de \(\mathbb{C}\) é levado na origem da imagem.

Exercícios

1. Encontre as partes real e imaginárias das seguintes funções:
$$
\begin{array}{ll}
\text{a) }\;\; w=z^{2}-5z+3 & \;\; \text{b) }\;\; w=\frac{z+2}{z-i} \\
\text{c) }\;\; w=e^{iz} & \;\; \text{d) }\;\; w=\sqrt{z}
\end{array}
$$

2. Qual é o domínio máximo de definição das seguintes funções?

$$
\begin{array}{ll}
\text{a)}\ f\left( z\right) =\frac{z}{x}-\frac{y}{z}\ \ \ \ \
& \text{b)}\ f\left( z\right) =\frac{z^{2}+\left( z-1\right) ^{3}}{\left(
e^{z}-1\right) \cos y}
\end{array}
$$

3. Mostre, usando a definição, que
$$
\frac{d}{dz}\left( \frac{1}{z}\right) =-\frac{1}{z^{2}}
$$
para \(z\neq 0\). Obtenha a mesma derivada usando
$$
\frac{d}{dz}\left( \frac{1}{z}\right) =\frac{\partial }{\partial x}\left(
\frac{1}{z}\right)
$$
na região onde \(f\) é analítica.

4. Calcule as derivadas de
$$
\begin{array}{ll}
\text{a)}\ f\left( z\right) =z^{5}+3iz^{2}-1\ \ \ \ \ & \text{b)
}\ f\left( z\right) =\left( z^{2}-1\right) ^{2}\left( iz+1\right) ^{3} \\
\text{c)}\ f\left( z\right) =\frac{z-1}{z-i} & \text{d)}\ f\left(
z\right) =ze^{iz}
\end{array}
$$

5. Mostre por indução que \(\left( z^{n}\right) ^{\prime }=nz^{n-1}\) para todo \(n\) inteiro positivo.

6. Verifique se são analíticas e, em caso afirmativo, em que região são analíticas e quais as derivadas das funções:
$$
\begin{array}{lll}
\text{a)}\;\;w=z^{3} & \text{b)}\;\;w=e^{y+ix} & \text{c)}\;\;w=\bar{z} \\
\text{d)}\;\;w=\sqrt{z} & \text{e)}\;\;w=e^{-z} & \text{f)}\;\;w=x+iy\; \text{ a identidade.}
\end{array}
$$

7. Dadas as funções
$$
\text{(a)}\;\; w=z^{2}\;\; \text{(b)}\;\; w=\frac{1}{z}
$$
faça os gráficos das famílias de curvas \(\ u\left( x,y\right)=c_{1}\) e\ \(v\left( x,y\right) =c_{2}\) e verifique se elas se cruzam ortogonalmente.

Outras funções importantes

<h3Logaritmo

Embora já tenhamos usado o logaritmo em um exercício para mostrar que é uma função analítica em \(\mathbb{C}\) será útil fazermos um estudo mais completo desta função. Como uma revisão nos lembraremos de que o logaritmo natural ou neperiano pode ser definido como a área sob a curva do hipérbole \(y=1/t\), como ilustrado na figura.

Como consequência temos as propriedades:

i) O logaritmo é a inversa da exponencial: \(y=\ln x\Leftrightarrow x=e^{y}\),
ii) a função está definida para \(x>0\) real, \(\ln 1=0 \text{ e } \ln e=1\),
iii) \(\ln \left( ab\right) =\ln a+\ln b\), \(\ln \left( a/b\right) =\ln a-\ln b\),
iv) \(\ln a^{n}=n\ln a\).
Além disto valem os limites
\(\lim_{x\rightarrow 0}\ln x=-\infty ,\ \lim_{x\rightarrow \infty }\ln x=\infty.\)

Uma das motivações que levaram ao estudo dos números complexos foi exatamente a necessidade de se atribuir algum sentido ao logaritmo de números negativos, que não está definido para os reais. Como veremos a extensão desta função para os complexos está definida em \(\mathbb{C}-\left\{ 0\right\}\). Esta extensão é obtida de modo muito natural escrevendo-se
$$
\ln z=\ln re^{i\theta }=\ln r+\ln e^{i\theta }=\ln r+i\theta ,
$$
lembrando que a parte real está bem definida se \(z\neq 0\) pois, neste caso, \(r=\left\vert z\right\vert >0\). Se \(z\) é real então \(\theta =0\) e \(\ln z=\ln r\) e o logaritmo coincide com a função real. Com esta definição podemos dar um sentido ao logaritmo de um número negativo. Um exemplo disto é a célebre identidade escrita por Euler “associando os 4 números mais importantes”,
$$
e^{i\pi }=-1\Rightarrow \ln \left( -1\right) =i\pi .
$$

Observe, no entanto, que definida desta forma a função tem um problema. Ela é uma função “multivalente” , isto é, o mesmo ponto \(z\) pode corresponder a diversos pontos na imagem, o que não é compatível com a definição usual de uma função. Isto ocorre por uma ambiguidade na forma de se expressar o ponto \(z\), no domínio da função. Um ponto pode ser escrito como
$$
z=re^{i\theta }=re^{i\left( \theta +2k\pi \right) },\ k=0,~\pm 1,~\pm 2,…
$$
que pode ser levado em diversos pontos da imagem,
$$
\ln z=\ln re^{i\left( \theta +2k\pi \right) }=\ln r+i\left( \theta +2k\pi
\right) ,\ k\in \mathbb{Z}.
$$
Para torná-la uma função “univalente” podemos proceder da seguinte forma: para qualquer valor do argumento \(\theta\) em \(z=re^{i\theta }=re^{i\left( \theta+2k\pi \right) }\) tomamos \(\theta _{0}\) como o valor do argumento no intervalo \(\left[ 0,~2\pi \right)\). Então
$$
\theta _{0}=\theta +2k\pi ,\ k\in \mathbb{Z}
$$
e definimos o ramo principal (ou determinação) do \(\ln\) como \(\ln \theta =\ln \theta _{0}\). Se restringirmos \(\arg \left( z\right)\) aos intervalos
$$
2k\pi \leq \theta \lt 2\left( k+1\right) \pi ,\ k\in \mathbb{Z}
$$
teremos para cada valor de \(k\) um ramo do \(\ln\), ou seja
$$
\ln _{k}z=\ln r+i\theta .
$$
O logaritmo fica, desta forma, univocamente determinado se informarmos o ramo que está sendo usado. Os pontos \(\theta =0\) representam uma reta de corte em \(\mathbb{C}\), representada na figura (a) e são chamados pontos de ramificação. Pode ser interessante, dependendo da aplicação, estabelecer outra reta de corte definindo ramos diferentes para o \(\ln\). Podemos tomar
$$
\alpha \leq \theta \lt \alpha +2 \pi \;\;\text{ ou }\;\; \alpha \lt \theta \leq \alpha +2\pi,
$$
como representado na figura (b). Ao tomar estas restrições dizemos que \(\mathbb{C}\) foi cortado ao longo de \(z=re^{i\alpha }\).

Como já visto o logaritmo é analítico em \(z\neq 0\) no ramo principal, conclusão que pode ser ampliada para qualquer ramo. Por outro lado, usando a regra da cadeia, obtemos sua derivada,
$$
\frac{d}{dz}\ln \left( z\right) =\frac{\partial }{\partial x}\ln \left(z\right) =\frac{\partial }{\partial x}\left( \ln r+i\theta \right)
=\left(\frac{\partial r}{\partial x}\frac{\partial }{\partial r}+\frac{\partial\theta }{\partial x}\frac{\partial }{\partial \theta }\right)
\left( \ln r+i\theta \right),
$$
e as derivadas \(r_x=\cos \theta,\;\; r_y=-\text{sen }\theta /r\)
$$
\frac{d}{dz}\ln \left( z\right) =\left( \frac{\partial r}{\partial x}\frac{\partial }{\partial r}+\frac{\partial \theta }{\partial x}\frac{\partial }{\partial \theta }\right) \left( \ln r+i\theta \right) =\left( \frac{1}{r}\frac{\partial r}{\partial x}+i\frac{\partial \theta }{\partial x}\right) =
$$
$$
=\frac{\cos \theta }{r}-i\frac{\text{sen }\theta }{r}=\frac{e^{-i\theta }}{r}=\frac{1}{re^{i\theta }}=\frac{1}{z}.
$$

Um maneira prática de se visualizar o efeito da função logaritmo, e de outras funções igualmente, é encará-la como uma transformação entre pontos de \(\mathbb{C}\). Na tabela seguinte estão listados alguns conjuntos de pontos no domínio e sua imagem pelo logaritmo.

$$
\begin{array}{lll}
\text{Imagem } & z & \text{Domínio, } f\left( z\right) \\
\text{ponto } & z=0 & \ln 0=1 \\
\text{ponto } & z=i & \ln \left( i\right) =i\pi /2 \\
\text{reta } & \theta = cte. & v=\theta \left( \text{reta}\right) \\
\text{círculo } & r=1 & u=0\; \text{ (reta)} \\
\text{círculo } & r \gt 1 & u= \text{ cte. positivo (reta.)}
\end{array}
$$

Cada ramo tem como imagem uma faixa no plano \(w\), satisfazendo \(-\infty\lt u\lt \infty,\;\; 0\leq v \lt 2\pi\). A totalidade dos ramos cobre o plano \(w\). Observe na figura que retas \(\theta =\) cte. no plano \(z\) são levadas em \(w=\ln r+i\theta\) no plano \(w\), que são retas \(u=\) cte., enquanto circunferências \(r=\) cte. são levadas nas retas \(v=\) cte.no plano \(w\). A circunferência \(r=1\) tem como imagem a reta \(u=0\) (o eixo \(\mathcal{O}v)\) enquanto circunferências com raios menores (maiores) que 1 são levadas em retas verticais à esquerda (direita) do eixo \(\mathcal{O}v\).

Observe as funções exponencial e logaritmo são inversas mútuas: tome
$$
w=\ln _{k}z=\ln r+i\left( \theta +2k\pi \right) ,\ k=0,1,2,…
$$
Então, tomando a exponencial deste último termo temos
$$
e^{w}=e^{\ln _{k}z}=e^{\left[ \ln r+i\left( \theta +2k\pi \right) \right]
}=re^{i\left( \theta +2k\pi \right) }=re^{i\theta }=z.
$$
Por outro lado
$$
\ln _{k}\left( e^{w}\right) =\ln _{k}e^{\left[ \ln r+i\left( \theta +2k\pi\right) \right] }
=\ln _{k}\left( re^{i\theta }\right) =\left[ \ln r+i\left(\theta +2k\pi \right) \right] =w,
$$
como foi afirmado. Outras propriedades adicionais do logaritmo são:

i) \(\ln \left( z_{1}.z_{2}\right) =\ln \left( z_{1}\right) +\ln \left(z_{2}\right)\)
ii) Da propriedade anterior se conclui que \(\ln \left( z^{2}\right) =2\ln z\), ou, por indução, \(\ln \left( z^{n}\right) =n\ln z\).

 

Funções trigonométricas e Hiperbólicas

A partir da equação de Euler e seu conjugado complexo
$$
\begin{array}{l}
e^{iy}=\cos y+i\text{sen }y \\
e^{-iy}=\cos y-i\text{sen }y
\end{array}
$$
podemos verificar que as funções trigonométricas seno e cosseno podem ser escritas como
$$\begin{array}{l}
\cos y=\frac{1}{2}\left( e^{iy}+e^{-iy}\right), \\
\text{sen }y=\frac{1}{2i}\left( e^{iy}-e^{-iy}\right),
\end{array}
$$
definidas apenas para valores reais de \(y\). Podemos extender as funções para ter validade sobre todo o plano complexo fazendo
$$
\cos z=\frac{1}{2}\left( e^{iz}+e^{-iz}\right) ,
$$

(3)

$$
\text{sen }z=\frac{1}{2i}\left( e^{iz}-e^{-iz}\right).
$$
De forma análoga definimos
$$
\text{tag}z=\frac{\text{sen }z}{\cos z},\ \text{cotg}z=\frac{\cos z}{\text{sen }z},\ \sec z=\frac{1}{\cos z},\ \csc z=\frac{1}{\text{sen }z},
$$
respectivamente a tangente, cotangente, secante e cossecante. As derivadas das funções continuam formalmente iguais as derivadas no eixo real:
$$
\left( \text{sen }z\right) ^{\prime }=\cos z,\ \left( \cos z\right)^{\prime }=-\text{sen }z,
$$
como pode ser facilmente verificado derivando-se as expressões em (3). Da mesma forma se verifica que
$$
\begin{array}{l}
\text{sen }\left( -z\right) =-\text{sen }z,\ \ \cos \left( -z\right) =\cos z, \\
\text{sen }^{2}z+\cos ^{2}z=1, \\
\text{sen }\left( z_{1}+z_{2}\right) =\text{sen }z_{1}\cos z_{2}+\cos z_{1}\text{sen }z_{2}, \\
\cos \left( z_{1}+z_{2}\right) =\cos z_{1}\cos z_{2}-\text{sen }z_{1}\text{sen }z_{2}, \\
\text{sen }z=\cos \left( \frac{\pi }{2}-z\right) ;\ \ \cos z=\text{sen }\left( \frac{\pi }{2}-z\right).
\end{array}
$$

As funções hiperbólicas são extendidas para o plano complexo através das definições:
$$
\text{senh}z=\frac{1}{2}\left( e^{z}-e^{-z}\right) ,
$$
$$
\cosh z=\frac{1}{2}\left( e^{z}+e^{-z}\right).
$$
Com estas definições valem
$$
\left( \text{senh }z\right) ^{\prime }=\cosh z;\ \ \left( \cosh z\right) ^{\prime }=\text{senh}z.
$$

Exercícios :

1. Mostre que \(\ln \left( -1\right) =\left( 2k+1\right) \pi i\) e \(\ln \left(i\right) =\left( \frac{4k+1}{2}\right) \pi i,~k=0,\pm 1,\pm 2,…\).

2. Mostre que, se \(x\neq 0\),
$$
\ln \left( x+iy\right) =\frac{1}{2}\ln \left( x^{2}+y^{2}\right) +i\left(
\theta _{0}+2k\pi \right) ,
$$
onde \(\theta _{0}\) é uma das determinações de \(\text{arctg}\left( y/x\right)\).

3. Determine as raízes de

$$
\begin{array}{lll}
\text{(a)}\ e^{z}=-1, & & \text{(b)}\ e^{2z}=-e, \\
\text{(c)}\ e^{z}=-\sqrt{3}+3i, & & \text{(d)}\ \ln z=\pi i/2, \\
\text{(e)}\ e^{z}+6e^{-z}=5, & & \text{(f)}\ e^{3z-4}=-1.
\end{array}
$$

4. Mostre as seguintes relações:
$$
\begin{array}{lll}
\text{(a)}\ \left( \text{sen }z\right) ^{\prime }=\cos z, & \text{(b)}\
\left( \cos z\right) ^{\prime }=-\text{sen }z, & \text{(c)}\ \text{sen }^{2}z+\cos ^{2}z=1, \\
\text{(d)}\ \left( \text{senh}z\right) ^{\prime }=\cosh z, & \text{(e)}\ \left( \cosh z\right) ^{\prime }=\text{senh}z, & \text{(f)}\ \text{sen }\left( iz\right) =i\text{senh }z, \\
\text{(g)}\ \cos \left( iz\right) =\cosh z, & \text{(h)}\ \cosh ^{2}z-\text{senh}^{2}z=1, & \text{(i)}\ \text{senh}\left( z+i\pi \right) =-
\text{senh}z, \\
\text{(j)}\ \cosh \left( z+i\pi \right) =-\cosh z, & \text{(k)}\;\; \cos \left(x+iy\right) =\cos x\cosh y-i\text{sen }x\text{ senh }y.&
\end{array}
$$

1. A Álgebra dos Complexos

Números complexos

A álgebra dos complexos

Para compreender a necessidade dos números complexos podemos considerar a solução de equações do tipo

(1)

$$
x^{2}+1=0.
$$

Para obter uma solução definimos \(\sqrt{-1}=i,\) a que damos o nome de unidade imaginária. Como consequência desta definição as raízes de (1) são \(i\) e \(-i\) pois
$$
i^{2}=\left( \sqrt{-1}\right) ^{2}=-1;\,\;\;\;\;\left( -i\right) ^{2}=-1.
$$
Um número complexo é um número na forma \(a+bi,\) possuindo, portanto, uma parte real \(a\) e uma parte imaginária \(b\). O conjunto dos complexos é
$$
\mathbb{C} =\left\{ x+iy;\;x,y\in \mathbb{R} \right\}.
$$
Um número complexo qualquer, \(z=x+iy,\) é composto de parte real e parte imaginária, respectivamente
$$
\begin{array}{ll}
\text{Re}\left( z\right) = & x, \\
\text{Im}\left( z\right) = & y.
\end{array}
$$

Dados dois complexos \(z_{1}=x_{1}+iy_{1}\;\) e \(\; z_{2}=x_{2}+iy_{2}\;\) as seguintes operações podem ser definidas:

Adição: \(z_{1}+z_{2}=\left( x_{1}+iy_{1}\right) +\left(x_{2}+iy_{2}\right) =\left( x_{1}+x_{2}\right) +i\left( y_{1}+y_{2}\right) \)Subtração: \(z_{1}-z_{2}=\left( x_{1}+iy_{1}\right) -\left(x_{2}+iy_{2}\right) =\left( x_{1}-x_{2}\right) +i\left( y_{1}-y_{2}\right) \)

Multiplicação: \(\ z_{1}\cdot z_{2}=\left( x_{1}+iy_{1}\right) \cdot\left( x_{2}+iy_{2}\right) =\left( x_{1}x_{2}-y_{1}y_{2}\right) +i\left(x_{1}y_{2}+x_{2}y_{1}\right) \)

Divisão: para \(z_{2}\) \(\neq 0:\)
$$
\frac{z_{1}}{z_{2}}=\frac{x_{1}+iy_{1}}{x_{2}+iy_{2}}=\frac{x_{1}+iy_{1}}{x_{2}+iy_{2}}\frac{x_{2}-iy_{2}}{x_{2}-iy_{2}}=\frac{\left(
x_{1}x_{2}+y_{1}y_{2}\right) +i\left( x_{2}y_{1}-x_{1}y_{2}\right) }{\left(
x_{2}\right) ^{2}+\left( y_{2}\right) ^{2}}.
$$

Observe que \(z_{1}=z_{2}\) se, e somente se, \(x_{1}=x_{2}\) e \(y_{1}=y_{2}\), de forma que uma equação complexa envolve, na verdade, duas equações reais.

Representação cartesiana e polar

Figura 1: Representaçãp cartesiana e polar

O conjunto dos complexos pode ser representado por meio do plano complexo, em sua forma cartesiana, mostrada na figura 1 (a) ou polar, figura (b).

As coordenadas cartesianas e polares se relacionam da seguinte forma:

(2)

$$
\left\{
\begin{array}{ll}
x= & r\cos \theta \\
y= & r\text{sen }\theta\end{array}\right. \Rightarrow \left\{
\begin{array}{ll}
r= & \sqrt{x^{2}+y^{2}}, \\
\theta = & \arctan \left( \frac{y}{x}\right).\end{array}\right.
$$
Podemos portanto escrever \(z=x+iy\) como
$$
z=r\left( \cos \theta +i\text{sen }\theta \right) ,
$$
onde as variáveis \(\left( r, \theta \right) \) e \(\left( x, y\right)\) se relacionam de acordo com as expressões em (2).

Definições: O valor absoluto de \(z=x+iy\) é denotado por
$$
\left\vert z\right\vert =\sqrt{x^{2}+y^{2}}=r,
$$
enquanto \(\theta \) é chamado de argumento de \(z,\; \theta =\text{Arg}\left( z\right).\) O conjugado complexo de \(z\) é denotado por \(\bar{z}\) e definido como
$$
\bar{z}=x-iy.
$$

Figura 2: Valor absoluto e complexo conjugado

Vemos na figura 2 que \(\left\vert z\right\vert \) é a distância do ponto até a origem enquanto \(\bar{z}\) é o complexo obtido de
\(z\) por reflexão no eixo real. Observe que, em termos destas definições temos:
$$
z\bar{z}=\left\vert z\right\vert ^{2},
$$
enquanto a divisão entre complexos pode ser escrita como
$$
\frac{z_{1}}{z_{2}}=\frac{z_{1}\bar{z}_{2}}{z_{2}\bar{z}_{2}}=\frac{z_{1}\bar{z}_{2}}{\left\vert z_{2}\right\vert ^{2}}.
$$

Exercícios Resolvidos:

(1) Encontre as partes reais e imaginárias dos números complexos:
$$
z_{1}=\frac{1-i\sqrt{2}}{\sqrt{2}+i};\ \;\;\;\;\;\ z_{2}=\left( 1+i\right)^{8}.
$$
Racionalizamos o primeiro:
$$
z_{1}=\frac{1-i\sqrt{2}}{\sqrt{2}+i}\frac{\sqrt{2}-i}{\sqrt{2}-i}=\frac{\sqrt{2}-i-2i-\sqrt{2}}{3}=-i,
$$
e o segundo
$$
z_{2}=\left( 1+i\right) ^{8}=\left[ \left( 1+i\right) ^{2}\right]^{4}=\left( 2i\right) ^{4}=2^{4}=16.
$$
Portanto \(\text{Re}\left( z_{1}\right) =0,\;\text{Im}\left( z_{1}\right)=-1;\;\text{Re}\left( z_{2}\right) =16,\;\text{Im}\left( z_{2}\right) =0.\)

(2) Escreva na sua forma polar e calcule os conjugados complexos de:
$$
z_{3}=i,\;\;z_{4}=\frac{i}{1-i}.
$$
O argumento de \(z_{3}\;\) pode ser visto apenas pela posição do ponto no plano complexo, \(\theta =\pi /2,\,\) enquanto seu valor absoluto é \(\left\vert z_{3}\right\vert =\sqrt{1^{2}+0}=1.\) Então
$$
z_{3}=i=\cos \frac{\pi }{2}+i\;\text{sen }\frac{\pi }{2},
$$
$$
\bar{z}_{3}=\bar{\imath}=-i\;\;\text{ ou }\;\;\bar{z}_{3}=\cos \frac{\pi }{2}-i\;\text{sen }\frac{\pi }{2}.
$$
Quanto a \(z_{4}\;\) é melhor racionalizá-lo antes
$$
z_{4}=\frac{i}{1-i}\frac{1+i}{1+i}=\frac{-1+i}{2}.
$$
Portanto \(x=-\frac{1}{2}\) e \(y=\frac{1}{2}\) e
$$
r=\sqrt{\left( \frac{1}{2}\right) ^{2}+\left( \frac{1}{2}\right) ^{2}}=\frac{1}{\sqrt{2}}=\frac{\sqrt{2}}{2},
$$
$$
\theta =\arctan \left( -1\right) =\frac{3\pi }{4}.
$$
Observe que \(\tan \left( 3\pi /4\right) =\tan \left( 7\pi /4\right) =-1.\) Sabemos no entanto que \(\theta =3\pi /4\) porque \(z_{4}\) está no segundo quadrante. Seu complexo conjugado é:
$$
z_{4}=\frac{-1-i}{2}
$$

Produto e quociente na forma polar

Algumas operações são mais simples se os números dados estão na forma cartesiana, como ocorre na adição. Outras poderão ser muito simplificadas se escrevermos os termos envolvidos em forma polar. Dados
$$
z_{1}=r_{1}\left( \cos \theta _{1}+i\text{sen }\theta _{1}\right) \;\;\text{ e }\;\;z_{2}=r_{2}\left( \cos \theta _{2}+i\text{sen }\theta_{2}\right)
$$
encontramos o produto:
$$
z_{1}z_{2}=r_{1}r_{2}\left( \cos \theta _{1}+i\text{sen }\theta _{1}\right)\left( \cos \theta _{2}+i\text{sen }\theta _{2}\right) =
$$
$$
r_{1}r_{2} \left[ \cos \theta _{1}\cos \theta _{2}-\text{sen }\theta _{1}\text{sen }\theta _{2}+i\left( \cos \theta _{1}\text{sen }\theta _{2}+\text{sen }\theta _{1}\cos \theta _{2}\right) \right].
$$
Usando as identidades trigonométricas:
$$\begin{array}{l}
\cos A\cos B-\text{sen }A\text{sen }B=\cos \left( A+B\right), \\
\cos A\text{sen }B+\text{sen }A\cos B=\text{sen }\left( A+B\right),
\end{array}
$$
obtemos
$$
z_{1}z_{2}=r_{1}r_{2}\left[ \cos \left( \theta _{1}+\theta _{2}\right) +i\text{sen }\left( \theta _{1}+\theta _{2}\right) \right] .
$$
Isto significa que, para multiplicar dois complexos, multiplicamos seus valores absolutos e somamos seus argumentos. Para efetuar a divisão observe antes que
$$
\frac{1}{\cos \theta _{1}+i\text{sen }\theta _{1}}=\frac{1}{\cos \theta _{1}+i\text{sen }\theta _{1}}\frac{\cos \theta _{1}-i\text{sen }\theta _{1}}{\cos\theta _{1}-i\text{sen }\theta _{1}}=\cos \theta _{1}-i\text{sen }\theta _{1},
$$
já que o denominador é \(\cos ^{2}\theta _{1}+\text{sen }^{2}\theta_{1}=1.\) Temos então que, se \(z_{2}\neq 0,\)
$$
\frac{z_{1}}{z_{2}}=\frac{r_{1}\left( \cos \theta _{1}+i\text{sen }\theta_{1}\right) }{r_{2}\left( \cos \theta _{2}+i\text{sen }\theta _{2}\right) }=\frac{r_{1}}{r_{2}}\left( \cos \theta _{1}+i\text{sen }\theta _{1}\right)\left( \cos \theta _{2}-i\text{sen }\theta _{2}\right) =
$$
$$
\frac{r_{1}}{r_{2}}\left[ \cos \left( \theta _{1}-\theta _{2}\right) +i\text{sen }\left( \theta _{1}-\theta _{2}\right) \right] .
$$

Fórmulas de de Moivre e de Euler

Considere \(n\) números complexos, expressos por
$$
z_{k}=r_{k}\left( \cos \theta _{k}+i\text{sen }\theta _{k}\right),\;\; k=1,..n.
$$
Para multiplicar todos estes números podemos operar dois a dois até incluir os \(n\) números, obtendo
$$
z_{1}z_{2}\ldots z_{n}=r_{1}r_{2}\ldots r_{n} \left[ \cos \left( \theta
_{1}+\theta _{2}+\ldots +\theta _{n}\right) +i\text{sen }\left( \theta
_{1}+\theta _{2}+\ldots +\theta _{n}\right) \right] .
$$
Se todos os \(n\) fatores são iguais temos
$$
z\;\; z\ldots z=z^{n}=r^{n}\left( \cos n\theta +i\text{sen }n\theta \right).
$$
Se \(\left\vert z\right\vert =1\) então \(r=1\) e obtemos a fórmula de de Moivre:
$$
\left( \cos \theta +i\text{sen }\theta \right)^{n}=\left( \cos n\theta +i\text{sen }n\theta \right).
$$
Observe que a fórmula acima vale também para expoentes negativos, pois
$$
\left( \cos \theta +i\text{sen }\theta \right) ^{-n}=\frac{1}{\cos n\theta +i\text{sen }n\theta }=\cos n\theta -i\text{sen }n\theta .
$$
Usando o fato de que o cosseno é par e o seno é ímpar, ou seja,

(3)

$$
\cos \left( -\theta \right) =\cos \theta;\;\;\text{sen }\left( -\theta\right) =-\text{sen }\theta,
$$
podemos escrever
$$
\left( \cos \theta +i\text{sen }\theta \right) ^{-n}=\cos \left( -n\theta\right) +i\text{sen }\left( -n\theta \right).
$$

Outra expressão importante foi obtida por Euler da seguinte forma: partimos das expansões em séries de potências para as funções exponencial, seno e cosseno, respectivamente
$$
e^{x}=1+x+\frac{x^{2}}{2!}+\frac{x^{3}}{3!}+\cdots +\frac{x^{n}}{n!}+\cdots ,
$$
$$
\text{sen }x=x-\frac{x^{3}}{3!}+\frac{x^{5}}{5!}-\frac{x^{7}}{7!}+\cdots
$$
$$
\cos x=1-\frac{x^{2}}{2!}+\frac{x^{4}}{4!}-\frac{x^{6}}{6!}+\cdots.
$$
Fazendo \(x=i\theta \) no argumento da exponencial obtemos
$$
e^{i\theta }=1+i\theta +\frac{\left( i\theta \right) ^{2}}{2!}+\frac{\left(i\theta \right) ^{3}}{3!}+\cdots +\frac{\left( i\theta \right) ^{n}}{n!}+\cdots =
$$
$$
=1+i\theta -\frac{\theta ^{2}}{2!}-\frac{i\theta ^{3}}{3!}+\frac{\theta ^{4}}{4!}+\frac{i\theta ^{5}}{5!}-\cdots.
$$
Agrupando os termos reais e imaginários temos
$$
e^{i\theta }=1-\frac{\theta ^{2}}{2!}+\frac{\theta ^{4}}{4!}-\cdots +i\left(
\theta -\frac{\theta ^{3}}{3!}+\frac{\theta ^{5}}{5!}-\cdots \right).
$$
Podemos agora identificar a parte real com o cosseno e a parte imaginária com o seno e, portanto,
$$
e^{i\theta }=\cos \theta +i\text{sen }\theta.
$$
Ela nos permite escrever números complexos em uma forma alternativa, muito útil para a realização de diversas operações,
$$
z=x+iy=r\left( \cos \theta +i\text{sen }\theta \right) =re^{i\theta }.
$$
Observe que, nesta representação, o complexo conjugado é
$$
\bar{z}=r\left( \cos \theta -i\text{sen }\theta \right) =re^{-i\theta },
$$
onde usamos a paridade das funções trigonométricas, descrita nas equações (3).

A multiplicação e divisão dos complexos se torna bem mais simples se eles estão escritos em sua forma exponencial. Se \(z_{1}=r_{1}e^{i\theta _{1}}\) e \(z_{2}=r_{2}e^{i\theta _{2}}\) então
$$
z_{1}z_{2}=\left( r_{1}e^{i\theta _{1}}\right) \left( r_{2}e^{i\theta
_{2}}\right) =r_{1}r_{2}e^{i\left( \theta _{1}+\theta _{2}\right) },
$$
$$
\frac{z_{1}}{z_{2}}=\frac{r_{1}e^{i\theta _{1}}}{r_{2}e^{i\theta _{2}}}=\frac{r_{1}}{r_{2}}e^{i\left( \theta _{1}-\theta _{2}\right) }.
$$
Igualmente
$$
z^{n}=\left( re^{i\theta }\right) ^{n}=r^{n}e^{in\theta },
$$
$$
z^{-n}=\frac{1}{r^{n}}e^{-in\theta }.
$$

Extração de raízes

Dados dois números complexos, \(z,\,p\in \mathbb{C}\) dizemos que \(z\) é a raíz enésima de \(p,\) \(z=\sqrt[n\,]{p},\) se \(z^{n}=p.\) Tomando \(p=r\left( \cos \theta +i\text{sen }\theta \right) \) então

(4)

$$
z=\sqrt[n\,]{p}=\sqrt[n\,]{r}\left[ \cos \left( \frac{\theta +2k\pi }{n}\right) +i\text{sen }\left( \frac{\theta +2k\pi }{n}\right) \right] ,
$$
\(k=0,1,\cdots ,n-1.\) Isto está correto porque
$$
z^{n}=r\left[ \cos \left( \theta +2k\pi \right) +i\text{sen }\left( \theta
+2k\pi \right) \right] =r\left[ \cos \theta +i\text{sen }\theta \right] =p,
$$
uma vez que o seno e o cosseno são funções periódicas de período \(2\pi .\) Temos portanto \(n\) raízes distintas,

(5)

$$
z_{k}=\sqrt[n\,]{r}\left[ \cos \left( \frac{\theta +2k\pi }{n}\right) +i\text{sen }\left( \frac{\theta +2k\pi }{n}\right) \right].
$$
Observe que se fizermos \(k=n\) então
$$
z_{n}=\sqrt[n\,]{r}\left[ \cos \left( \frac{\theta }{n}+2\pi \right) +i\text{sen }\left( \frac{\theta }{n}+2\pi \right) \right] =z_{0},
$$
ou seja, retornamos à raiz correspondente à \(k=0.\) Existem portanto \(n\) raízes \(n\)-ésimas distintas de um número complexo qualquer \(p\neq 0.\)

Exercício Resolvido: Calcule as raízes n-ésimas de 1.

Primeiro representamos \(1\) em sua forma polar, correspondendo à \(r=1,\,\theta =0.\) Logo \(1=\cos 0+i\text{sen }0.\) Agora podemos extrair as raizes
$$
w_{k}=\cos \frac{2k\pi }{n}+i\text{sen }\frac{2k\pi }{n}.
$$
Observe que, se denotarmos
$$
w=\cos \frac{2\pi }{n}+i\text{sen }\frac{2\pi }{n},
$$
podemos representar as demais raízes por meio da fórmula de de Moivre,
$$
w^{k}=\cos \left( \frac{2k\pi }{n}\right) +i\text{sen }\left( \frac{2k\pi
}{n}\right).
$$
Estas são as chamadas raízes da unidade, \(w=\sqrt[n\,]{1},\) dadas por:
$$
1,w,w^{2},\ldots ,w^{n-1}.
$$

Exercício Resolvido: Vamos encontrar as raízes quartas de da unidade, \(\sqrt[4\,]{1}\), um caso particular do exercício anterior. Estas raízes são \(1,\;w,\;w^{2},\;w^{3}\) onde
$$
w=\cos \frac{\pi }{2}+i\text{sen }\frac{\pi }{2}=i.
$$
As demais raízes são
$$
w^{2}=i^{2}=-1,\;\;\;\;\;\text{ e }\;\;\;\;w^{3}=i^{3}=-i.
$$
As raízes são, portanto: \(1,\) \(i\), \(-1,\;-i.\)

Observe que a fórmula (4) para as raízes de um número qualquer pode ser escrita como
$$
z_{k}=\sqrt[n\,]{r}\left( \cos \frac{\theta }{n}+i\text{sen }\frac{\theta
}{n}\right) \left( \cos \frac{2k\pi }{n}+i\text{sen }\frac{2k\pi }{n}\right) =\sqrt[n\,]{r}\left( \cos \frac{\theta }{n}+i\text{sen }\frac{\theta }{n}\right) w^{k}.
$$
As raízes de um número \(z\) qualquer são dadas pelo produto de uma de suas raízes com as raízes \(n-\) ésimas da unidade.

Exercício Resolvido: Calcule as raízes \(\sqrt[3\,]{27}.\)

Uma das raízes é \(3.\) As raízes cúbicas da unidade são \(1,\;w,\;\; w^{3},\) onde
$$
w=\cos \frac{2\pi }{3}+i\text{sen }\frac{2\pi }{3}=-\frac{1}{2}+i\frac{\sqrt{3}}{2}.
$$

As raízes são, portanto, \(z_{0}=3,\)
$$
z_{1}=3\left( \cos \frac{2\pi }{3}+i\text{sen }\frac{2\pi }{3}\right) =-\frac{3}{2}+i\frac{3\sqrt{3}}{2},
$$
$$
z_{2}=3\left( \cos \frac{4\pi }{3}+i\text{sen }\frac{4\pi }{3}\right) =-\frac{3}{2}-i\frac{3\sqrt{3}}{2}.
$$
As três raízes estão sobre um círculo de raio \(3\) e são representadas graficamente na figura.

 

Exercício Resolvido: Calcule as raízes cúbicas de \(-1\) e as represente graficamente no plano complexo. Começamos por escrever em forma polar:
$$
\sqrt[3]{-1}=\sqrt[3]{\cos \pi +i\text{sen }\pi }.
$$
Sabemos que temos três raíz:
$$
z_{k}=\cos \frac{\pi +2k\pi }{3}+i\text{sen }\frac{\pi +2k\pi }{3},\;\;k=0,1,2.
$$
Portanto
$$
z_{0}=\cos \frac{\pi }{3}+i\text{sen }\frac{\pi }{3}=\frac{1}{2}\left( 1+i\sqrt{3}\right) ,
$$
$$
z_{1}=\cos \pi +i\text{sen }\pi =-1,
$$
$$
z_{2}=\cos \frac{5\pi }{3}+i\text{sen }\frac{5\pi }{3}=\frac{1}{2}\left(
1-i\sqrt{3}\right).
$$
Note que, se fizermos \(k=3\) obteremos novamente a raiz \(z_{0}.\)

Exercício Resolvido: Calcule as raízes \(\sqrt{-i}\). Observe que
$$
\sqrt{-i}=\sqrt{\cos 3\pi /2+i\text{sen }3\pi /2}.
$$
As duas raízes são, portanto:
$$
z_{k}=\cos \left( \frac{3\pi }{4}+k\pi \right) +i\text{sen }\left( \frac{3\pi }{4}+k\pi \right) ,\;\;k=0,1,
$$
ou seja
$$
z_{0}=\cos \frac{3\pi }{4}+i\text{sen }\frac{3\pi }{4}=\frac{\sqrt{2}}{2}\left( -1+i\right) ,
$$
$$
z_{1}=\cos \frac{7\pi }{4}+i\text{sen }\frac{7\pi }{4}=\frac{\sqrt{2}}{2}\left( 1-i\right) ,
$$
Representamos graficamente as raízes obtidas nos dois exercícios na figura.

Exercício Resolvido: Decomponha o polinômio \(P\left( z\right)=z^{3}+1\) em um produto de fatores do \(1\)º grau. As raízes de \(P\left( z\right) \) já foram encontradas no problema 2(a). Usando o teorema fundamental da álgebra temos
$$
P\left( z\right) =\left( z-z_{0}\right) \left( z-z_{1}\right) \left(z-z_{2}\right)
$$
ou seja
$$
P\left( z\right) =\left( z+1\right) \left( z-\frac{1}{2}-\frac{i\sqrt{3}}{2}\right) \left( z-\frac{1}{2}+\frac{i\sqrt{3}}{2}\right).
$$

Subconjuntos de \(\mathbb{C}\)

Algumas definições são necessárias para a continuidade de nosso estudo e a solução dos próximos exercícios. Façamos uma lista destas definições:

  1. Um disco aberto é a região
    $$
    D_r \left( z_0 \right) =\left\{ z;\;\left\vert z-z_{0}\right\vert \lt r \right\},
    $$
    representada graficamente na figura seguinte.
  2. Uma vizinhança de \(z_{0},\) que denotaremos por \(V_{r}\left( z_{0}\right) \) é qualquer subconjunto de \(\mathbb{C}\) que contenha \(D_{r}\left( z_{0}\right).\)
  3. Dado um conjunto de \(C\subset \mathbb{C}\) chamaremos de seu complementar o conjunto \(C^{\prime }= \mathbb{C} – C,\) o conjunto dos pontos do plano complexo que não estão em \(C.\)
  4. Um ponto \(z_{0}\) qualquer é dito um ponto interior de \(C\) se existe um disco aberto centrado em \(z_{0}\) inteiramente contido em \(C.\)
  5. Um conjunto é aberto se todos os seus pontos são pontos interiores. Um conjunto é fechado se seu complementar é aberto.
  6. A fronteira de \(C\) é o conjunto de pontos \(z\) tais que qualquer vizinhança de \(z\) contém pontos de \(C\) e de seu complementar.
  7. Nenhum ponto interior de um conjunto é um ponto de fronteira.
  8. \(C\) é aberto \(\Leftrightarrow C\) não contém pontos de sua fronteira.
  9. \(C\) é fechado \(\Leftrightarrow C\) contém todos os pontos de sua fronteira.
  10. \(z_{0}\) é um ponto de acumulação de \(C\) se qualquer vizinhança de \(z_{0}\) contém infinitos ponto de \(C.\) Portanto, pontos do interior e pontos da fronteira, pertencendo ou não a \(C,\) são pontos de acumulação.
  11. Um ponto isolado de \(C\) é um ponto de \(C\) que não é ponto de acumulação.
  12. Um aberto \(C\) é conexo se dois quaisquer de seus pontos podem ser unidos por um arco inteiramente contido em \(C.\)
  13. Uma região é um conjunto aberto e conexo.
  14. \(C\) é limitado se existe um número \(k\) positivo tal que \(\left\vert z\right\vert \leq k,\) \(\forall z\in C.\) Um conjunto limitado e fechado é dito compacto.
  15. No conjunto
    $$
    V_{k}=\left\{ z\in C\ ;\ \left\vert z\right\vert >k\right\}
    $$
    incorporamos o infinito (um único ponto!) para formar o chamado plano complexo extendido.

Exemplo: No conjunto infinito
$$
C=\left\{ 0,\ \frac{1}{2},\ \frac{2}{3},\ \frac{3}{4},\ldots ,\frac{n}{n+1},\ldots \right\}
$$
\(1\) é o único ponto de acumulação, sendo todos os outros pontos isolados. Note que este único ponto de acumulção não está contido em \(C.\)

Exemplo: Vamos discutir com mais detalhes o conjunto
$$
D_r \left( z_0\right) =\left\{ z;\;\left\vert z-z_{0}\right\vert \lt r \right\}.
$$
Se denotarmos \(z=x+iy\;\) e \(\;z_{0}=x_{0}+iy_{0}\) então
$$\left\vert z-z_{0}\right\vert =\sqrt{\left( x-x_{0}\right) ^{2}+\left( y-y_{0}\right)^{2}}.$$
Portanto os pontos de \(D_r\left(z_0\right)\) satisfazem a relação
$$ \left( x-x_0\right)^{2}+\left(y-y_0\right)^{2} \lt r^{2},$$
ou seja, são os pontos interiores ao círculo de raio \(r\) e centro em \(z_0\).

Exemplo: \(\left\vert z-3i\right\vert \lt 5\) é o disco aberto interior ao círculo de raio 5 e centro em \(3i\), como na figura (a). O conjunto \(z=z_0+re^{i\theta }, 0 \leq \theta \leq 2\pi\) é a circunferência de centro em \(z_{0}\) e raio \(r\).

Exemplo: Qual é o conjunto \(\text{Re}\left(z^{2}\right) \lt 0\)? Observamos primeiro que
$$
\text{Re}\left( z^{2}\right) =\text{Re}\left( r^{2}e^{2i\theta }\right) =r^{2}\cos 2\theta .
$$
O cosseno \(\cos 2\theta\) é negativo em duas situações: \(\pi /2 \lt 2\theta \,\lt 3\pi /2 \;\;\text{ou}\;\; -3\pi /2\lt 2\theta \, \lt -\pi /2.\) O conjunto procurado é a parte do plano complexo dado por
$$
\frac{\pi }{4}<\theta \,\lt \frac{3\pi }{4}\;\; \text{ ou }\;\;\frac{-3\pi }{4}\lt \theta \,\lt \frac{-\pi }{4},
$$
as retas bissetrizes excluídas, como representado na figura.

Exercícios

1. Dados \(z_1 =\left( 3+5i\right)\;\;\text{ e } \;\; z_{2}=\left( -2+i\right)\) calcule \(z_{1}+z_{2},\;\; z_{1}-z_{2},\; z_{1}.z_{2},\; z_{1}/z_{2}.\) Represente graficamente cada um dos números complexos envolvidos.

2. Calcule:
$$
\begin{array}{llll}
\text{(a)}\frac{1}{2+3i}\ \ \ \ \ & \text{(b)}\frac{1+i}{1-i} & \text{(c)} \frac{1-i}{1+i} & \text{(d)} \frac{4-3i}{i-1} \\
\text{(e)}\frac{1}{\left( 1+i\right) ^{2}} & \text{(f)}\ \left( \frac{1+i}{1-i}\right)^{30} & \text{(g)}\ \left( 1-i\right)
\left(\sqrt{3}+i\right). &
\end{array}
$$

3. Mostre que
a.
$$
\sum\limits_{n=0}^{N}i^{n}=\left\{
\begin{array}{ll}
1, & \;\;\text{ se }\;\;r=0, \\
1+i, & \;\;\text{ se }\;\;r=1, \\
i, & \;\;\text{ se }\;\;r=2, \\
0, & \;\;\text{ se }\;\;r=3,
\end{array}\right.
$$
onde \(r\) é o resto da divisão de \(N\) por 4 seja, \(N\equiv r\text{ mod }4.\)

b. \(\left( x+iy\right) ^{2}=x^{2}-y^{2}+2ixy\)

c. \(\left( x-iy\right) ^{2}=x^{2}-y^{2}-2ixy\)

d. \(\left( x+iy\right) ^{2}\left( x-iy\right) ^{2}=\left(x^{2}+y^{2}\right) ^{2}\)

e. \(\left( x+iy\right) ^{n}\left( x-iy\right) ^{n}=\left(x^{2}+y^{2}\right) ^{n}\)

4. Mostre que

a. \(\text{Re}\left[ -i\left( 2-3i\right) ^{2}\right] =-12\)

b. \(\frac{1-i\sqrt{2}}{\sqrt{2}+i}=-i\)

c. \(\text{Im}\left[ \frac{\left( 1-i\sqrt{3}\right) ^{2}}{i-2}\right] =\frac{2}{5}\left( 1+2\sqrt{3}\right) \)

d. \(\frac{1+i\tan \theta }{1-i\tan \theta }=\cos 2\theta +i\text{sen }2\theta \)

5. Escreva na forma polar e represente graficamente:

$$
\begin{array}{llll}
\text{(a) }-2+2i & \text{(b) }1+i\sqrt{3} & \text{(c)} -\sqrt{3}+i & \text{(d)} \left( \frac{i}{1+i}\right) ^{5} \\
\text{(e) }\frac{1}{-1-i\sqrt{3}} & \text{(f)} -1-i & \text{(g)} \frac{-3+3i}{1+i\sqrt{3}}.&
\end{array}
$$

6. Mostre que \(\cos 3\theta =\cos ^{3}\theta -3\cos \theta \text{sen }^{2}\theta \;\; \text{ e } \text{sen }3\theta =-\text{sen }^{3}\theta +3\cos^{2}\theta \text{sen }\theta.\)
Sugestão: calcule as partes real e imaginária de \(\left( \cos\theta +i\text{sen }\theta \right)^{3}.\)

7. Mostre que: a. \(\left\vert \frac{2+i}{2-i\sqrt{3}}\right\vert =\frac{5}{7}\;\;\;\) b. \(\left\vert \frac{\left( \sqrt{3}+i\right)\left( 1-3i\right) }{\sqrt{5}}\right\vert =2\sqrt{2}.\)

8. Encontre as seguintes raízes e represente-as graficamente:
$$
\begin{array}{llll}
\text{(a) } \sqrt[3]{-1} \;\;\;\; & \text{(b) }\sqrt{2i} & \text{(c) } \sqrt{-2i} & \text{(d) } \sqrt[3]{i} \\
\text{(e) } \sqrt[3]{-i} & \text{(f) } \left( -1+i\sqrt{3}\right) ^{1/4}.& &
\end{array}
$$

9. Decomponha os polinômios em fatores do \(2\)º grau com coeficientes reais:

a. \(P\left( x\right) =x^{4}+1\;\;\;\;\) b. \(P\left( x\right) =x^{4}+9\)

10. Decomponha os polinômios em um produto de fatores do primeiro grau:

a. \(P(z)=z^{6}-64 \)
b. \(P(z)=z^{6}+64\)
c. \(P(z)=z^{4}-\left( 1-i\right) z^{2}-i.\)

11. Mostre que, se \(w\) é uma raíz \(n\)-ésima qualquer da unidade diferente de 1 (\(w=\sqrt{1},\) \(w\neq 1\) ) então
a. \(1+w+w^{2}+\ldots + w^{n-1}=0.\)
b. \(1+2w+3w^{2}+\ldots + nw^{n-1}=\frac{n}{w-1}.\)

12. Escreva na forma exponencial, \(z=re^{i\theta }\):
a. \(1+i,\;\;\;\) b. \(1-i,\;\;\;\) c. \(-1+i,\;\;\;\) d. \(-1-i\).

13. Mostre que:
$$
\begin{array}{ll}
\text{(a)} \exp \left( 3+7\pi i\right) =-e^{3} & \text{(b)} \exp \left( \frac{3-2\pi i}{6}\right) =\frac{\sqrt{e}\left( 1-i\sqrt{3}\right) }{2} \\
\text{(c)} \cos \theta =\frac{e^{i\theta }+e^{-i\theta }}{2} & \text{(d)}\ \text{sen }\theta =\frac{e^{i\theta }-e^{-i\theta }}{2i}
\end{array}
$$
14. Represente graficamente os conjuntos no plano complexo:
$$
\begin{array}{llll}
\text{(a) }\text{Re}\left( z\right) <-3 & \text{(b) }\left\vert z-2i\right\vert >2 & \text{(c) }\left\vert z+1\right\vert \leq 2 & \text{(d) }\left\vert z-1+i\right\vert \lt 3 \\
\text{(e) }\text{Im}\left( z^{2}\right) \lt 0 & \text{(f) }\left\vert
z-2\right\vert =\left\vert z-3i\right\vert & \text{(g) }\left\vert
z\right\vert \gt 2, \left\vert \arg \left( z\right) \right\vert <\pi
& \text{(h) }\text{Re}\left( 1-z\right) =\left\vert z\right\vert.
\end{array}
$$

Algumas Soluções

3a. Queremos mostrar que
$$
\sum\limits_{n=0}^{N}i^{n}=\left\{
\begin{array}{ll}
1, & \text{ se }\;\;r=0, \\
1+i, & \;\;\text{ se }\;\;r=1, \\
i, & \;\;\text{ se }\;\;r=2, \\
0, & \;\;\text{ se }\;\;r=3,
\end{array}
\right.
$$
onde \(r\) é o resto da divisão de \(N\) por 4 seja, \(N\equiv r\text{ mod }4\). Denotando \(N=4p+r\) observamos que

$$ i^{N}=i^{4p+r}=i^{4p}\ i^{r}=i^{r} $$
pois \(i^{4p}= (i^4)^p=1\). Este resultado é válido inclusive se \(N \lt 4\) quando \(p=0\). Vamos escrever a soma procurada como

$$ S_{N}=\sum\limits_{n=0}^{N}i^{n}=1+i+i^{2}+\ldots +i^{N} $$
e, portanto,
$$ iS_{N}=\sum\limits_{n=0}^{N}i^{n+1}=i+i^{2}+i^{3}+\ldots +i^{N+1}. $$
Subtraindo
$$ S_{N}-iS_{N}=S_{N}\left( 1-i\right) =1-i^{N+1} $$
temos uma expressão adicional para a soma procurada, ou seja
$$ S_{N}=\frac{1-i^{N+1}}{1-i}=\frac{1-i^{r+1}}{1-i}=S_{r} $$
onde a última igualdade é devida à expressão (4). Isto significa que somar os \(N\) termos equivale a somar os \(r\) primeiros termos:
$$
\begin{array}{l}
S_{0}=\sum\limits_{n=0}^{0}i^{n}=1, \\
S_{1}=\sum\limits_{n=0}^{1}i^{n}=1+i, \\
S_{2}=\sum\limits_{n=0}^{2}i^{n}=1+i+i^{2}=i, \\
S_{3}=\sum\limits_{n=0}^{3}i^{n}=1+i+i^{2}+i^{3}=0.
\end{array}
$$

Veremos que um procedimento semelhante facilitará a solução das questões 11a e 11b.

3e. \(\left(x+iy\right)^{n}\left(x-iy\right)^{n}=z^{n}\bar{z}^{n}=\left(z\bar{z}\right)^{n}=\left(\left\vert z\right\vert ^{2}\right)^{n}=\left(x^{2}+y^{2}\right)^{n}.\)

9a. Para decompor o polinômio \(P\left( x\right) =x^{4}+1\) em fatores do \(2\)º grau com coeficientes reais usaremos o produto notável \(\left( a+b\right) \left( a-b\right) =a^{2}-b^{2}.\) Escrevemos \(1=-i^{2}\) e assim
$$ P\left( x\right) =x^{4}-i^{2}=\left( x^{2}+i\right) \left( x^{2}-i\right). $$
Os dois fatores, no entanto, contém coeficientes complexos. Para obter a decomposição com coeficientes reais podemos usar a raíz de \(i\):
$$i=w^{2}\Rightarrow w=\frac{1+i}{\sqrt{2}}.$$
Tomando o conjugado complexo de \(i=w^{2}\) obtemos \(-i=\bar{w}^{2}\) e reescrevemos o polinômio
$$
P\left( x\right) =\left( x^{2}-\bar{w}^{2}\right) \left( x^{2}-w^{2}\right)=\left( x+\bar{w}\right) \left( x-\bar{w}\right) \left( x+w\right) \left(x-w\right).
$$
Reagrupando os termos de forma conveniente temos
$$
\begin{array}{rl}
P\left(x\right) = & \left[ \left( x+w\right) \left( x+\bar{w}\right) \right] \left[ \left( x-w\right) \left( x-\bar{w}\right) \right] = \\
= & \left( x^{2}+\bar{w}x+wx+w\bar{w}\right) \left( x^{2}-wx-\bar{w}x+w\bar{w}\right).
\end{array}
$$
Usamos agora as seguintes propriedades
$$w+\bar{w}=2\text{Re}\,w=\frac{2}{\sqrt{2}}=\sqrt{2}$$
$$w\bar{w}=\left\vert w\right\vert ^{2}=\left( \frac{1}{\sqrt{2}}\right)^{2}+\left( \frac{1}{\sqrt{2}}\right) ^{2}=1,$$
podemos completar o exercício:
$$P\left( x\right) =\left( x^{2}+\sqrt{2}x+1\right) \left( x^{2}-\sqrt{2}x+1\right).$$

11. Sendo \(w\) uma raíz \(n\)-ésima qualquer da unidade diferente de 1 (\(w=\sqrt{1},\;\;w\neq 1\)) então:

(a) \(1+w+w^{2}+\ldots +w^{n-1}=0.\) Escrevemos
$$ L=1+w+w^{2}+\ldots +w^{n-2}+w^{n-1} $$
$$ wL=w+w^{2}+\ldots +w^{n}=w+w^{2}+\ldots +w^{n-1}+1, $$
onde usamos \(w^{n}=1\). Observemos acima que \(wL=L\) donde
$$ wL-L = L\left(w-1\right) =0. $$
Como \(w\neq 1\) concluímos que \(L=0.\)

(b) \(1+2w+3w^{2}+\ldots + nw^{n-1}=\frac{n}{w-1}.\) Definimos
$$ S=1+2w+3w^{2}+\ldots +nw^{n-1}, $$
portanto
$$ wS=w+2w^{2}+3w^{3}+\ldots +nw^{n}=w+2w^{2}+3w^{3}+\ldots +n. $$
Dai
$$ S \left( 1-w\right) =1+w+w^{2}+\ldots + w^{n-1}-n. $$
Usando o resultado do ítem anterior \(1+w+w^{2}+\ldots + w^{n-1}=0\) e
$$ S=\frac{n}{w-1}.$$

(13a) \(\exp \left( 3+7\pi i\right) =e^{3}e^{7\pi i}=-e^{3}.\) Observe que \(e^{7\pi i}=e^{6\pi i}e^{\pi i}=\) \(-1.\)

(14h) Buscamos conjunto no plano complexo satisfazendo \(\text{Re}\left(1-z\right) =\left\vert z\right\vert .\) Escrevendo em forma cartesiana
$$ z=x+iy, z-1=x-1+iy. $$
Sua parte real é
$$ \text{Re}\left(1-z\right) =x-1 \;\; \text{ e } \text{Re}\left(1-z\right) =\left\vert z\right\vert \Rightarrow x-1=\sqrt{x^{2}+y^{2}}. $$
Elevando os dois lados ao quadrado temos
$$ x^{2}+y^{2}=\left( x-1\right) ^{2}=1-2x+x^{2} $$
que é a parábola
$$ x=\frac{1}{2}\left( 1-y^{2}\right). $$

Variáveis Complexas

Variáveis Complexas

Nestas notas apresentamos o estudo das variáveis complexas e algumas aplicações, incluindo alguns exercícios resolvidos e exercícios propostos. O resumo não é completo mas procura esclarecer apenas os aspectos da mais importantes da teoria. A leitura dos exercícios resolvidos e a solução dos exercícios propostos é essencial para a plena compreensão do assunto.

Números complexos, variáveis complexas e funções destas variáveis formam um parte da matemática extremamente importante devido à grande quantidade de suas aplicações e porque lançam um entendimento fundamental sobre a base da matemática e sobre o cálculo.

História das Variáveis Complexas

As equações do segundo grau apareceram na Matemática aproximadamente 1700 anos antes de Cristo e se encontram registradas nas tabuletas de argila da Suméria. Em alguns casos elas levavam a raízes de números negativos que, em geral, eram descartadas. O primeiro exemplo de raiz de número negativo foi encontrado em um texto atribuído a Heron de Alexandria, aproximadamente 75 d.C., em um cálculo sobre o desenho de uma pirâmide onde surge a necessidade de se calcular a raiz \(\sqrt{84-100}\). Heron, no entanto, simplesmente substituiu este número por \(\sqrt{100-84}\).

Em torno do ano de 275 d.C. Diofanto de Alexandria, resolvendo um problema geométrico, chegou à equação do segundo grau
$$
24x^2-172x+366=0
$$
cujas raízes são \(x=(\pm 43\sqrt{-167})/12\). Diofanto, no entanto, prosseguiu sem dar maiores explicações sobre o significado da raiz de um número negativo. Por volta de 850 d.C. o matemático indiano Mahavira afirmou que … como na natureza das coisas um negativo não é um quadrado ele não tem, portanto, raiz quadrada. Deve-se a Bhaskara, que viveu aproximadamente de 1114 até 1185, a afirmação: O quadrado de um afirmativo é um afirmativo; e a raiz quadrada de um afirmativo é dupla: positiva e negativa. Não há raiz quadrada de um negativo pois ele não é um quadrado.

Um grande impulso para a descoberta e aprimoramento dos números complexos se deu no início do século XVI quando os algebristas italianos reconheceram a necessidade da adoção de raízes imaginárias, na época também chamadas de raízes impossíveis, para a solução de equações do terceiro grau dos seguintes tipos:
$$
x^{3}+ax=b,\;\; x^{3}=ax+b \;\;\text{ e }\;\; x^{3}+b=ax.
$$
Também as equações do segundo grau apresentavam desafios. Luca Paccioli (1445 – 1514) observou em uma publicação datada de 1494 que a equação \(x^2+c=bx\) é solúvel se \(b^2 \geq 4c\) enquanto o francês Nicola Chuquet (1445 – 1500) fez observações semelhantes sobre soluções impossíveis em uma publicação de 1484.

Em 1545 Gerônimo Cardano publicou uma fórmula para resolver equações do terceiro grau que ficou conhecida como Fórmula de Cardano embora se saiba que foi Tartaglia quem sugeriu a ele a solução para estas equações. Em seu livro Ars Magna Cardano apresentou o que se considera ser a primeira publicação do conceito de número complexo. Cardano fez a seguinte pergunta: Se alguém pede que você divida 10 em duas partes, que multiplicadas resultariam em 30 ou 40, é evidente que este problema não tem solução. Em seguida ele faz um comentário surpreendente: No entanto, resolveremos isto da seguinte maneira, … e prossegue encontrando as raízes \(5+\sqrt{-15}\) e \(5-\sqrt{-15}\) cuja soma é \(10.\) Neste ponto ele afirmou que, … colocando de lado a tortura mental envolvida, multiplicando as duas raízes temos 25 — (–15). Portanto o produto é 40. Apesar das descobertas de Cardano mais de dois séculos se passaram até que os números complexos fossem aceitos como entidades matemáticas legítimas. Durante este intervalo muitos autores se recusaram a usar tais estranhas entidades.

Em 1572 Raphael Bombelli publicou um livro sobre o mesmo tema onde estudava as raízes da equação \(x^{3}=15x+4,\) usando a fórmula de Cardano. Ele mostrou que esta equação, além de possuir uma raiz real \(x=4,\) também admite uma raiz na forma de
$$
x=\sqrt[3]{2+\sqrt{-121}} + \sqrt[3]{2-\sqrt{-121}}
$$
que ele, assim como fez Cardano, chamou de um sofisma. Acredita-se que esta foi a primeira vez em que surgiu uma equação que admitia como solução um termo envolvendo raízes de números negativos, embora existisse também uma solução real. Motivado por este fato Bombelli procurou compreender melhor o que estava se passando, embora enfrentando grandes dificuldades, em particular devido a não possuir uma notação adequada. A partir do trabalho de Bombelli os números complexos passaram a ser usados como instrumentos auxiliares de cálculo, mesmo que se duvidasse de sua existência.

A primeira tentativa para atribuir um significado concreto aos números complexos por meio de uma interpretação geométrica é devida a John Wallis (1616 – 1703) em um trabalho onde se fazia analogias entre quantidades imaginárias e quantidades negativas, em seu livro De Algebra Tractatus.

Em 1702 Jean Bernoulli afirmou que um número e seu oposto (\(a\) e \(-a\) ) tem o mesmo logaritmo. Esse fato intrigou os matemáticos do início do século XVIII que não sabiam como atribuir um valor ao logaritmo de um número negativo. Coube a Euler explicar a questão em 1747, em uma carta dirigida a d’Alembert. Foi Euler quem empregou pela primeira vez a notação \(i=\) \(\sqrt{-1},\) embora o símbolo \(\sqrt{-1}\) já tivesse sido usado Albert Girard em 1629.

No século XVII Descartes percebeu a distinção entre raízes reais e imaginárias embora os principais progressos no estabelecimento da disciplina só foram obtidos no século XVIII, através dos trabalhos de Abraham de Moivre e Euler. Em 1707 de Moivre publicou a solução da equação de grau ímpar por um método análogo ao de Cardano. De Moivre publicou a fórmula que leva seu nome,
$$
(\cos \theta +i\text{sen }\theta )^{n}=\cos (n\theta )+i\text{sen }(n\theta ),
$$
em 1722, inicialmente apenas para alguns valores particulares do argumento \(\theta\). Em 1748 Euler mostrou que a fórmula está correta para qualquer valor do argumento, permitindo com isto o cálculo de raízes de números complexos. Neste período começou a se consolidar a representação geométrica para os complexos, o que facilitou muito a sua aceitação por parte dos matemáticos da época e fez com que muitos deles se dedicassem a este tema e contribuíssem para este campo da matemática.

No século XVIII Kuhn e Caspar Wessel apresentaram novos progressos na direção da teoria atualmente conhecida. Os escritos de Wessel foram publicados nos Anais da Academia de Copenhagen de 1799, sendo um texto extremamente claro e completo, mesmo em comparação com as obras modernas. Ele também considerou a esfera e apresentou uma teoria dos quatérnions a partir da qual desenvolveu um tratamento completo da trigonometria esférica. Em seu texto Wessel apresentou a representação geométrica para os complexos que usamos até os dias de hoje. Seu objetivo, além de justificar os complexos, era o de representar direções de forma analítica. Apesar de ter sido bem sucedido na representação geométrica dos complexos, de definir as operações de soma, subtração, multiplicação e divisão deste números, o artigo estava escrita em dinamarquês e não teve ampla divulgação nem se tornou conhecido dos matemáticos da época.

Em 1804 o abade Buée apresentou independentemente o mesmo conceito sugerido por Wallis, de que \(\sqrt{-1}\) deveria ser representado em uma reta perpendicular ao eixo real. O artigo de Buée só foi publicado em 1806, no mesmo ano em Argand produziu um panfleto sobre o mesmo assunto. O trabalho de Argand foi reconhecido como o introdutor da representação geométrica e deu origem ao termo hoje usado, plano de Argand, para representar o plano complexo.

Euler foi o primeiro a usar, em 1777, o símbolo \(i\) como a unidade imaginária, \(i=\sqrt{-1}.\) Ele observou que \(ii=-1\) o que leva à \(1/i=-i\). O símbolo, no entanto, só apareceu em uma publicação no ano de 1794 em seu livro Institutionum Calculi Integralis e só foi amplamente divulgado se tornou de uso comum quando Gauss o adotou em 1801. Embora os termos real e imaginário já tivessem sido usados René Descartes em 1637, a expressão número complexo só foi introduzida por Gauss em 1832.

Quando Gauss se interessou pela teoria dos complexos, em 1831, ele a considerou bastante incompleta e trabalhou para aperfeiçoá-la e difundi-la entre os matemáticos da época. Gauss estava interessado em descobrir as propriedades geométricas de quantidades complexas. Assim como Wessel, ele procurava entidades análogas aos complexos que pudessem ser usadas na descrição de direções no espaço tri-dimensional.

A formalização completa dos números complexos como pares ordenados de números reais foi desenvolvida em 1833 por Hamilton e em 1847 por Cauchy. Também se deve mencionar que os esforços de Cauchy e Abel foram importantes para que a teoria fosse amplamente aceita e utilizada. Vários outros matemáticos fizeram contribuições importantes: Kummer (1844), Kronecker (1845), Scheffler (1845, 1851, 1880), Bellavitis (1835, 1852), Peacock (1845), e De Morgan (1849). Também se deve lembrar os artigos de Möbius sobre aplicações geométricas dos complexos, e Dirichlet pela expansão da teoria para envolver os primos, congruências ou reciprocidade, entre outros aspectos estudados.

Além da familiar forma dos complexos, \(a+bi\), onde \(i\) é a raiz de \(x^{2}+1=0,\) outros estudos foram empreendidos. Eisenstein estudou números do tipo de \(a+bj\), onde \(j\) é a raiz complexa de \(x^{3}-1=0\). Uma generalização devida em grande parte a Kummer estuda as raízes complexas derivadas de \(x^{k}-1=0,\) onde \(k\) é um primo. Galois estudou números complexos baseadas nas raízes imaginárias de uma congruência irredutível \(F(x)\equiv 0 (\text{mod }p)\) onde \(p\) é primo. Estudos mais recentes da teoria, após o ano de 1884, foram realizados por Weierstrass, Schwarz, Dedekind, Hölder, Berloty, Poincaré, Study e Macfarlane.

A terminologia atualmente empregada na matemática em relação aos complexos é principalmente devida a seus fundadores. Argand chamava \(\cos \phi +i\text{sen }\phi \) de fator de direção, e \(r=\sqrt{a^{2}+b^{2}}\) o módulo do complexo. Cauchy (1828) denominava \(\cos \phi +i\text{sen }\phi \) a forma reduzida l’expression réduite); Gauss usou \(i\) para denotar \(\sqrt{-1}\), introduziu a expressão número complexo para se referir ao número da forma \(a+bi\), com \(a\) e \(b\) reais, e chamou \(a^{2}+b^{2}\) de a norma. A expressão coeficiente de direção, ainda hoje utilizada, é devida a Hankel (1867), e valor absoluto, para módulo, é devida a Weierstrass.

8. Autovalores e Autovetores

Introdução

Dada uma transformação linear \(T : V \rightarrow V\) buscamos descobrir quais são os vetores fixos de \(V\) sob esta transformação, ou seja, que vetores satisfazem a expressão \(T (v) = v\). Em seguida procuraremos quais são as direções fixas ou invariantes sob esta transformação, sendo estas as direções dos vetores \(v\) que satisfazem a expressão \(T (v) = \lambda v\), \(\lambda\) um escalar. No primeiro caso dizemos que \(v\) fica invariante sob \(T\) ; no segundo caso a direção de \(v\) é invariante.

Exemplo 1. Considere as transformações
$$
\begin{array}{r}
I : \mathbb{R}^2 \rightarrow \mathbb{R}^2\\
v \mapsto v
\end{array} \begin{array}{r}
N : \mathbb{R}^2 \rightarrow \mathbb{R}^2\\
(x, y) \mapsto (0, 0)
\end{array} \begin{array}{r}
r_x : \mathbb{R}^2 \rightarrow \mathbb{R}^2\\
(x, y) \mapsto (x, – y)
\end{array}
$$

A primeira delas é a identidade que deixa todos os vetores fixos. O plano \(\mathbb{R}^2\) é invariante sob esta transformação. A segunda é a aplicação nula, que só deixa invariante o próprio vetor nulo, a oriegm de de \(\mathbb{R}^2\). A terceira transformação consiste em uma reflexão em torno do eixo \(\mathcal{O}x\). Não é difícil perceber que todos os vetores da forma \((x, 0)\) são fixos pois \(r_x (x, 0) = (x, 0)\). Isto significa que o eixo \(\mathcal{O}x\) é refletido nele mesmo. Para verificar se existem outros vetores fixos vamos procurar soluções da equação \(r_x (x, y) = (x, y)\) ou, em forma matricial,
$$
\left. \left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x\\
y
\end{array} \right] \Rightarrow \begin{array}{r}
x = x\\
y = – y
\end{array} \right\} \Rightarrow y = 0.
$$

Portanto os vetores \((x, 0)\) são os únicos deixados fixos por esta reflexão.

Queremos agora encontrar direções fixas. Sempre que não houver ambiguidade na notação entre transformações e vetores omitiremos os parênteses. Na expressão
$$ T \mathbf{v} = \lambda \mathbf{v} $$
dizemos que \(\mathbf{v}\) é um autovetor de \(T\), e \(\lambda \) é um autovalor de \(T\).

Observe que o vetor nulo \(\mathbf{0} \in V\) sempre é um autovetor de qualquer transformação linear correspondendo ao autovalor nulo. Procuramos autovetores não-nulos, também chamados de não triviais.

Exemplo 2. Vamos encontrar os autovetores e autovalores da reflexão em \(\mathbb{R}^2, r_x (x, y) = (x, – y)\). A equação de autovalores é
$$ r_x (x, y) = \lambda (x, y) \Rightarrow (x, – y) = \lambda (x, y) $$
que corresponde ao seguinte sistema e sua solução
$$
\left\{ \begin{array}{r}
x = \lambda x\\
– y = \lambda y
\end{array} \Rightarrow \left\{ \begin{array}{r}
\lambda = 1, y = 0 \;\;\text{ e }\;\; x \;\;\text{ qualquer, }\;\; \\
\lambda = – 1, x = 0 \;\;\text{ e } y \;\; \text{ qualquer.}
\end{array} \right. \right.
$$

Descobrimos portanto que, \(\lambda = 1\) é um autovalor, correspondente aos autovetores \((x, 0)\), enquanto \(\lambda = – 1\) é outro autovalor, correspondente aos autovetores \((0, y)\). Isto está correto pois, como podemos verificar diretamente,
$$ r_x (x, 0) = 1 (x, 0) ; r_x (0, y) = (0, – y) = – 1 (0, y). $$

O procedimento de busca de autovetores e autovalores é muito importante em diversas aplicações à engenharia, física, computação e outras áreas, e uma técnica mais eficaz foi desenvolvida para isto.

Para entender este procedimento vamos encontrar autovetores e autovalores da mesma reflexão em \(\mathbb{R}^2, r_x (x, y) = (x, – y)\). Escrevemos a transformação em forma matricial,
$$
r_x \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x\\
– y
\end{array} \right].
$$

Com isto a equação de autovetores fica
$$
\left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \lambda \left[ \begin{array}{r}
x\\
y
\end{array} \right] \Rightarrow \left( \left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] – \lambda \mathbb{I} \right) \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0,
$$

onde a identidade \(2 \times 2\) foi inserida para deixar o vetor das incógnitas em evidência. A operação dentro de parênteses pode ser efetuada e o sistema de devemos resolver é
$$
\left[ \begin{array}{rr}
1 – \lambda & 0\\
0 & – 1 – \lambda
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0.
$$
Para que exista uma solução não trivial para este sistema é necessário que o determinante da primeira matriz seja nulo (ou seja, que ela seja não invertível),
$$
\det \left[ \begin{array}{rr}
1 – \lambda & 0\\
0 & – 1 – \lambda
\end{array} \right] = 0 \Rightarrow (1 – \lambda) (- 1 – \lambda) = 0.
$$

A solução do polinômio acima fornece os autovalores procurados, \(\lambda = 1\) e \(\lambda = – 1\). De posse dos autovalores retornamos à equação (1) para encontrar os autovetores: Se \(\lambda = 1\) temos
$$
\left[ \begin{array}{rr}
0 & 0\\
0 & – 2
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0 \Rightarrow y = 0, x \;\; \text{qualquer} .
$$

Se \(\lambda = – 1\) temos
$$
\left[ \begin{array}{rr}
– 2 & 0\\
0 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0 \Rightarrow x = 0, y \;\; \text{qualquer} .
$$

Chegamos ao resultado já obtido: \(\lambda = 1\) é autovalor correspondente aos autovetores \((x, 0)\), enquanto \(\lambda = – 1\) é autovalor correspondente aos autovetores \((0, y)\).

Recapitulando a situação: Para toda matriz quadrada \(A\) a condição \(A \mathbf{v} = 0\) (eq. *) sempre pode ser conseguida com o vetor \(\mathbf{v} = 0\), a chamada solução trivial. Além disso, se \(A\) é invertível, multiplicamos a equação * por sua inversa para verificar que \(A^{-1} A \mathbf{v} = 0 \Rightarrow \mathbf{v} = 0\), o que significa que a solução trivial é a única solução. Portanto, para que existam outras soluções que não a trivial é necessário que \(\det A = 0\). No problema de autovetores e autovalores a exigência de que \(\det (A – \lambda \mathbb{I}) = 0\) resulta em um polinômio de grau \(n\) chamado de polinômio característico.

Generalizando este procedimento, para resolver a equação de autovetores \(T \mathbf{v} = \lambda \mathbf{v}\) fazemos o seguinte:

  1. encontramos a matriz \(A_{n \times n}\) associada à transformação \(T\),
  2. escrevemos \(A \mathbf{v} = \lambda \mathbf{v}\) como \((A – \lambda \mathbb{I}) \mathbf{v} = 0\),
  3. encontramos as raízes \(\lambda_1, \ldots, \lambda_n\) do polinômio característico \(det(A – \lambda \mathbb{I})=0\). \(\lambda_i\) são os autovalores.
  4. para cada autovalor \(\lambda_k\) encontramos o autovetor que satisfaz a expressão \((A – \lambda_k \mathbb{I}) \mathbf{v}_k = 0\).

Exemplo 3. Vamos encontrar autovetores e autovalores da transformação \(R : \mathbb{R}^2 \rightarrow \mathbb{R}^2\), dada por \((x, y) \mapsto (- y, x)\), que consiste em uma rotação de \(90^o\) em torno da origem, sentido antihorário. Em notação,
$$
R \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
0 & – 1\\
1 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
– y\\
x
\end{array} \right].
$$

A equação de autovetores é
$$
\left[ \begin{array}{rr}
0 & – 1\\
1 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \lambda \left[ \begin{array}{r}
x\\
y
\end{array} \right] \Rightarrow \left( \left[ \begin{array}{rr}
0 & – 1\\
1 & 0
\end{array} \right] – \lambda \mathbb{I} \right) \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0.
$$

A matriz entre parênteses tem determinante que não se anula para [/latex] \lambda[/latex] real, pois
$$
\det \left[ \begin{array}{rr}
– \lambda & – 1\\
1 & – \lambda
\end{array} \right] = 0 \Rightarrow \lambda^2 + 1 = 0.
$$
Portanto esta equação de autovetores não admite solução para autovalores reais. (Ela pode ser resolvida, no entanto, para autovalores complexos.)

Exemplo 4. Vamos encontrar autovetores e autovalores da matriz
$$
A = \left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right].
$$

A equação de autovetores é
$$
\left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \lambda \left[ \begin{array}{r}
x\\
y
\end{array} \right] \Rightarrow \left( \left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right] – \lambda \left[ \begin{array}{rr}
1 & 0\\
0 & 1
\end{array} \right] \right) \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
2 – \lambda & 2\\
0 & 1 – \lambda
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0.
$$

Para que existam soluções não triviais é necessário que
$$
\det \left[ \begin{array}{rr}
2 – \lambda & 2\\
0 & 1 – \lambda
\end{array} \right] = 0,
$$

de onde obtemos o polinômio característico e suas raízes,
$$ (2 – \lambda) (1 – \lambda) = 0 \Rightarrow \lambda_1 = 1 ; \lambda_2 = 2. $$

Para \(\lambda_1 = 1\) temos
$$
\left[ \begin{array}{rr}
1 & 2\\
0 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0 \Rightarrow x + 2 y = 0 \Rightarrow y = –
\frac{x}{2},
$$

e os autovetores correspondentes são \(\mathbf{v}_1 = (x, – x / 2)\). Para
[/latex] \lambda_2 = 2[/latex] temos
$$
\left[ \begin{array}{rr}
0 & 2\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0 \Rightarrow y = 0
$$
e os autovetores correspondentes são \(\mathbf{v}_2 = (x, 0)\). De fato, observamos que
$$
A \mathbf{v}_1 = \left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
– x / 2
\end{array} \right] = \left[ \begin{array}{r}
x\\
– x / 2
\end{array} \right] = \lambda_1 \mathbf{v}_1,
$$

$$
A \mathbf{v}_2 = \left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
0
\end{array} \right] = 2 \left[ \begin{array}{r}
x\\
0
\end{array} \right] = \lambda_2 \mathbf{v}_2 .
$$

Teorema: Se \(T : V \rightarrow V\) é uma transformação linear e \(\mathbf{v} \in V\) um autovetor associado ao autovalor \(\lambda\) então \(\mathbf{w} = \rho \mathbf{v}\) onde \(\rho \in \mathbb{R}\) (um escalar), também é um autovetor associado à mesmo autovalor \(\lambda\).

Demonstração: Se \(T (\mathbf{v}) = \lambda \mathbf{v}\) então

$$ T (\mathbf{w}) = T (\rho \mathbf{v}) = \rho T (\mathbf{v}) = \rho \lambda \mathbf{v} = \lambda (\rho \mathbf{v}) = \lambda \mathbf{w}. $$

Este teorema signica que a equação de autovetores permite, como proposto no início desta seção, encontrar apenas direções. Qualquer vetor com a mesma direção de um autovetor é também autovetor, correspondendo ao mesmo autovalor. Observe que em todos os exemplos resolvidos, para cada autovalor, encontramos infinitos autovetores correspondentes. Em algumas aplicações se busca encontrar autovetores \(v\) normalizadas (ou seja \(|v| = 1\) ). Com esta exigência encontramos um número finito de soluções, desde que \(V\) seja finito.

Definição: Dada a transformação linear \(T : V \rightarrow V\) o subespaço \(V_{\lambda} = \{ \mathbf{v} \in V ; T (\mathbf{v}) = \lambda \mathbf{v} \}\) é denominado subespaço associado ao autovalor \(\lambda . V_{\lambda} \) é, portanto, o conjunto dos autovetores de \(T\) correspondentes ao mesmo autovalor \(\lambda\).

Exercício: Lembrando que \(\mathbf{0} \in V_{\lambda}\), o vetor nulo, mostre que \(V_{\lambda}\) é um subespaço vetorial de \(V\).

7. Aplicações Lineares e Matrizes

Aplicações Lineares e Matrizes

Como vimos na seção anterior, toda matriz \(m \times n\) corresponde a uma aplicação linear \(T : \mathbb{R}^n \rightarrow \mathbb{R}^m .\) A afirmação recíproca também é verdadeira: fixadas as bases de \(V\) e \(W\), toda aplicação linear \(T : V \rightarrow W\) está associada à uma única matriz \(m \times n\), desde que se escolha as bases de ambos os espaços. Vamos começar revendo a primeira parte deste conceito através de um exemplo para depois generalizá-lo.

Dados dois espaços vetoriais \(V\) e \(W\), com bases \(\beta\) e \(\beta’\), respectivamente, e uma matriz \(A_{m \times n}\), sendo \(n = \dim V\) e \(m = \dim
W\), então esta matriz corresponde a uma única aplicação linear.

Exemplo 1. Tome \(V = W =\mathbb{R}^2,\;\; \beta = \{(1, 0), (0, 1)\}, \;\;\beta’ = \{(1, 1), (- 1, 1)\},\) e a matriz
$$
A = \left[ \begin{array}{rr}
2 & 0\\
0 & 1
\end{array} \right],
$$

buscamos \(T_A\), a aplicação associada a esta matriz, lembrando que \(T_A\) depende das bases \(\beta\) e \(\beta’\). Se \(\vec{v} \in V\), escrevemos \(\vec{v} = (x, y)\) e o escrevemos na base \(\beta\) (que é a base canônica) como
$$ [\vec{v}]_{\beta} = \left[ \begin{array}{r} x\\ y \end{array} \right]. $$

O efeito da transformação sobre sobre este vetor é
$$
A \vec{v} = \left[ \begin{array}{rr}
2 & 0\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
2 x\\
y
\end{array} \right] = \left[T_A (\vec{v})\right]_{\beta’},
$$

onde pretendemos que o vetor de chegada seja descrito na base \(\beta’\). Nesta base temos
$$ T_A (\vec{v}) = 2 x (1, 1) – y (- 1, 1) = (2 x – y, 2 x + y), $$

que é a aplicação procurada. Por exemplo, a imagem do vetor \(\vec{v} = (2, 3)\) é \(T_A (2, 3) = (1, 7)\).

Generalizando o procedimento acima, sejam \(V\) e \(W\) dois espaços vetoriais com suas respectivas bases, \(\beta = \{v_1, \ldots, v_n \}\) e \(\beta’ = \{w_1, \ldots, w_m \}\) e \(A\) uma matriz \(m \times n\),
$$
A = \left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n}\\
a_{21} & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right].
$$

Podemos então associar a esta matriz a aplicação \(T_A : V \rightarrow W\) da seguinte forma: escrevemos \(v\) na base \(\beta\),
$$ [v]_{\beta} = \vec{X} = \left[ \begin{array}{r} x_1 \\ x_2\\ \vdots\\ x_n \end{array} \right] $$

e a ação da aplicação sobre este vetor, \(T_A (v)\), descrita em termos da base \(\beta’\),
$$
[A \cdot \vec{X}]_{\beta’} = \left[ \begin{array}{r}
y_1\\
y_2\\
\vdots\\
y_n
\end{array} \right]_{\beta’} \;\; \text{ onde } \;\; \left[
\begin{array}{r}
y_1\\
y_2\\
\vdots\\
y_n
\end{array} \right] = \left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n}\\
a_{21} & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right] \left[ \begin{array}{r}
x_1\\
x_2\\
\vdots\\
x_n
\end{array} \right].
$$

Como queremos obter o vetor de chegada na base \(\beta’\) temos \(T_A (v) = y_{1} w_1 + y_{2} w_2 + \ldots + y_{m} w_m\). Se nenhuma base for explicitada usaremos, por convenção, as bases canônicas.

Exemplo 2. Queremos encontrar a transformação \(T_A : \mathbb{R}^3 \rightarrow \mathbb{R}^2\), associada à matriz
$$ A = \left[ \begin{array}{rrr} 1 & – 3 & 5 \\ 2 & 4 & – 1 \end{array} \right]. $$

Como as bases não são mencionadas, usamos as bases canônicas de \(\mathbb{R}^3\) e \(\mathbb{R}^2\), respectivamente
$$
\beta = \{(1, 0, 0), (0, 1, 0), (0, 0, 1)\} \;\; \text{ e } \;\; \beta’ = \{(1, 0),
(0, 1)\} .
$$

Tome \(\vec{v} = (x, y, z)\), ou, na base canônica
$$
[\vec{v}]_{\beta} = \vec{X} = \left[ \begin{array}{r}
x\\
y\\
z
\end{array} \right].
$$

A matriz \(A\) transforma este vetor em
$$
A \vec{X} = \left[ \begin{array}{rrr}
1 & – 3 & 5 \\
2 & 4 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y\\
z
\end{array} \right] = \left[ \begin{array}{r}
x – 3 y + 5 z\\
2 x + 4 y – z
\end{array} \right].
$$

Como queremos a transformação descrita nas bases canônicas dos dois espaços, que é, portanto
$$ T_A (\vec{v}) = (x – 3 y + 5 z, 2 x + 4 y – z). $$

Exemplo 3. Vamos procurar pela transformação \(F_A : P_2 (t) \rightarrow P_1 (t)\) (lembrando que \(P_n\) é o espaço dos polinômios em \(t\) de grau menor ou igual a \(n\) ) com as respectivas bases \(\beta = \{1, t, t^2 \}\) e \(\beta’ = \{1, t + 1\}\), associada à matriz
$$
A = \left[ \begin{array}{lll}
1 & 0 & 1\\
2 & 1 & 2
\end{array} \right].
$$

Se \(f \in P_2 (t)\) então \(f = a + bt + ct^2\) e podemos escrever, na base \(\beta\)
$$
[f]_{\beta} = \vec{X} = \left[ \begin{array}{r}
a\\
b\\
c
\end{array} \right].
$$

Transformado pela matriz \(A\) este vetor se torna
$$
A \vec{X} = \left[ \begin{array}{lll}
1 & 0 & 1\\
2 & 1 & 2
\end{array} \right] \left[ \begin{array}{r}
a\\
b\\
c
\end{array} \right] = \left[ \begin{array}{c}
a + c\\
2 a + b + 2 c
\end{array} \right] = [F_A (f)]_{\beta’} .
$$

O vetor transformado aparece na base \(\beta’\) por definição. A transformação procurada é
$$
F_A (f) = (a + c) 1 + (2 a + b + 2 c) (t + 1) = 3 a + b + 3 c + (2 a + b +
2 c) t.
$$

Como foi afirmado antes, toda transformação linear corresponde a uma única matriz se as bases de ambos os espaços forem especificadas. Considere transformação linear \(T : V \rightarrow W\), com bases \(\beta = \{v_1, \ldots, v_n \}\) e \(\beta’ = \{w_1, \ldots, w_m \}\), respectivamente. Os vetores de \(\beta\) transformados por \(T\) são vetores de \(W\), ou seja \(T (v_k) \in W\) e, portanto, podem ser decompostos na base \(\beta’\)
$$\begin{array}{cc}
T (v_1) = & a_{11} w_1 + a_{21} w_1 + \ldots + a_{m 1} w_m, \\
\vdots & \vdots \\
T (v_n) = & a_{1 n} w_1 + a_{2 n} w_2 + \ldots + a_{mn} w_m,
\end{array}
$$

onde, mais uma vez, a escolha dos índices fica explicada a seguir. A transposta da matriz dos coeficientes é a matriz que corresponde a \(T\) nas bases escolhidas,
$$
\left[T\right]^{\beta}_{\beta’} = \left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n}\\
a_{21} & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right].
$$

Novamente, escreveremos apenas \(\left[T\right]\) quando as bases envolvidas forem ambas canônicas.

Formalizando a afirmação acima temos:

Teorema: Dados os espaços vetoriais \(V\) e \(W\), com bases \(\alpha\) e \(\beta\) respectivamente, toda transformação linear \(T : V \rightarrow W\) corresponde a uma matriz \(A_{m \times n}\), onde \(n\) é a dimensão de \(V\) e \(m\) a dimensão de \(W\). Além disto, denotando esta matriz \(A = \left[T\right]_{\beta}^{\alpha}\) vale a relação
$$
\left[T(v)\right]_{\beta} = \left[T\right]_{\beta}^{\alpha} [v]_{\alpha} .
$$

Demonstração: Considere que \(\beta = \{v_1, \ldots, v_n\}\) e \(\beta’ = \{w_1, \ldots, w_m \}\) são, respectivamente, bases de \(V\) e \(W\). Escrevemos \(v \in V\) na base \(\alpha\) e \(T (v) \in W\) na base \(\beta\),
$$
[v]_{\alpha} = \left[ \begin{array}{r}
x_1\\
\vdots\\
x_n
\end{array} \right], \left[T(v)\right]_{\beta} = \left[ \begin{array}{r}
y_1\\
\vdots\\
y_m
\end{array} \right].
$$

A matriz procurada, correspondente a \(T\), é tal que \(A [v]_{\alpha} = [T(v)]_{\beta}\), ou seja,
$$
\left[
\begin{array}{lll}
a_{11} & \cdots & a_{1 n} \\
\vdots & & \vdots \\
a_{m 1} & \cdots & a_{m n}
\end{array}
\right]
\left[
\begin{array}{r}
x_1 \\
\vdots \\
x_n
\end{array}
\right] =
\left[
\begin{array}{r}
y_1 \\
\vdots \\
y_m
\end{array}
\right],
$$

onde denotamos \(A = \{a_{ij} \}\). Resta apenas encontrar as entradas \(a_{ij}\) da matriz. Para fazer isto tomamos \(v_1 \in \alpha\), o primeiro vetor desta base. Sendo um vetor de \(V\) ele pode ser escrito na própria base \(\alpha\) como
$$
[v_1]_{\alpha} = \left[ \begin{array}{r}
1\\
\vdots\\
0
\end{array} \right].
$$

Por efeito da transformação acima ele é levado em um vetor \(T(v_1) \in W\), que pode, portanto, ser escrito na base \(\beta\) como
$$
\left[T (v_1)\right]_{\beta} = \left[ \begin{array}{r}
y_1\\
\vdots\\
y_m
\end{array} \right] = \left[ \begin{array}{lll}
a_{11} & \cdots & a_{1 n}\\
\vdots & & \vdots\\
a_{m 1} & \cdots & a_{m n}
\end{array} \right] \left[ \begin{array}{r}
1\\
\vdots\\
0
\end{array} \right] = \left[ \begin{array}{r}
a_{11}\\
\vdots\\
a_{m 1}
\end{array} \right].
$$

Dai podemos concluir que
$$
\left[ \begin{array}{c}
y_1\\
\vdots\\
y_m
\end{array} \right] = \left[ \begin{array}{c}
a_{11}\\
\vdots\\
a_{m 1}
\end{array} \right] \Rightarrow \left\{ \begin{array}{c}
y_1 = a_{11},\\
\vdots\\
y_m = a_{m 1} .
\end{array} \right.
$$

Isto equivale a escrever
$$ T(v_1) = y_1 w_1 + \ldots + y_m w_m = a_{11} w_1 + \ldots + a_{m 1} w_m .$$

Pelo mesmo procedimento podemos mostrar que para qualquer vetor \(v_k \in \beta\) temos
$$ T (v_k) = a_{1 k} w_1 + \ldots + a_{mk} w_m, k = 1, \ldots, n. $$

Observe que, denotando \(A = \left[T\right]_{\beta}^{\alpha}\), podemos escrever
$$
\left[T(v)\right]_{\beta} = \left[T\right]_{\beta}^{\alpha} [v]_{\beta},
$$

o que representa uma forma de fácil memorização para representar todo o processo adotado. O símbolo \(\left[T\right]_{\beta}^{\alpha}\) significa a matriz associada a transformação \(T\) que leva vetores de \(V\), escritos na base \(\alpha\) para vetores de \(W\) escritos na base \(\beta\).

Resumindo: para encontrar os coeficientes da matriz associada a \(T\) nas bases dadas procedemos da seguinte forma:

  1. Tomamos os vetores \(v_k \in \alpha\) e os escrevemos na base \(\beta\).
  2. A matriz \(\left[T\right]_{\beta}^{\alpha}\) tem como componentes os termos \(a_{ik}\) da decomposição \(T (v_k) = \sum a_{ik} w_i\).
Exemplo 4. Dada uma transformação \(T : \mathbb{R}^3 \rightarrow \mathbb{R}^2\) dada por
$$ T (x, y, z) = (2 x + y – z, 3 x – 2 y + 4 z) $$

e considerando as bases \(\beta = \{(1, 1, 1), (1, 1, 0), (1, 0, 0)\}\) e \(\beta’ = \{(1, 3), (1, 4)\}\) vamos encontrar a matriz \(\left[T\right]_{\beta’}^{\beta}\) associada a esta transformação.

Primeiro calculamos o efeito de \(T\) sobre as vetores de \(\beta\) e escrevemos as imagens na base \(\beta’\):
$$ \begin{array}{rl}
T (1, 1, 1) = & (2, 5) = a (1, 3) + b (1, 4) = 3 (1, 3) – 1 (1, 4), \\
T (1, 1, 0) = & (3, 1) = c (1, 3) + d (1, 4) = 11 (1, 3) – 8 (1, 4), \\
T (1, 0, 0) = & (2, 3) = e (1, 3) + f (1, 4) = 5 (1, 3) – 3 (1, 4).
\end{array}
$$

As constantes \(a, b, \ldots, f\) foram calculadas como solução de sistemas. Por exemplo, na primeira equação temos
$$
\left. \begin{array}{l} a + b = 2 \\ 3 a + 4 b = 5 \end{array} \right\} \Rightarrow a = 3, \;\; b = – 1.$$

A matriz procurada é a transposta da matriz dos coeficientes, ou seja,
$$
\left[T\right]^{\beta}_{\beta’} = \left[ \begin{array}{rrr}
a & c & e\\
b & d & f
\end{array} \right] = \left[ \begin{array}{rrr}
3 & 11 & 5\\
– 1 & – 8 & – 3
\end{array} \right].
$$

Exemplo 5. Dada a mesma transformação \(T : \mathbb{R}^3 \rightarrow \mathbb{R}^2\) do exemplo anterior
$$ T (x, y, z) = (2 x + y – z, 3 x – 2 y + 4 z) $$

com as bases canônicas \(\beta = \{(1, 0, 0), (0, 1, 0), (0, 0, 1)\}\) e \(\beta’ = \{(1, 0), (0, 1)\}\) veremos que a matriz \(\left[T\right]\) associada a esta transformação será diferente da anterior. Listamos a seguir a transformação sobre os vetores de \(\beta\) e escrevemos as imagens na base \(\beta’\) :
$$ \begin{array}{rl}
T (1, 0, 0) = & (2, 3) = a (1, 0) + b (0, 1) = 2 (1, 0) + 3 (01, 1), \\
T (0, 1, 0) = & (1, – 2) = c (1, 0) + d (0, 1) = 1 (1, 0) – 2 (0, 1),\\
T (0, 0, 1) = & (- 1, 4) = e (1, 0) + f (0, 1) = – 1 (1, 0) + 4 (0, 1) .
\end{array}
$$

A transposta da matriz dos coeficientes é a matriz procurada,
$$
\left[T\right] = \left[ \begin{array}{lll}
2 & 1 & – 1\\
3 & – 2 & 4
\end{array} \right].
$$

Exemplo 6. Considere a transformação identidade, \(T : V \rightarrow V\), \(T (v) = v\), realizada entre as bases \(\beta = \{v_1, \ldots, v_n \}\) de \(V\) e \(\beta’ = \{w_1, \ldots, w_m \}\) de \(W\). Repetimos o procedimento, encontrando a imagem dos vetores de \(\beta\) e os escrevendo em \(\beta’\),
$$ \begin{array}{cc}
T (v_1) = & v_1 = a_{11} w_1 + a_{21} w_1 + \ldots + a_{m 1} w_m, \\
\vdots & \vdots \\
T (v_n) = & v_n = a_{1 n} w_1 + a_{2 n} w_2 + \ldots + a_{mn} w_m.
\end{array} $$

A representação matricial desta transformação é
$$
\left[T\right]_{\beta’}^{\beta} = \left[ \begin{array}{ccc}
a_{11} & \cdots & a_{1 n}\\
\vdots & & \vdots\\
a_{m 1} & \cdots & a_{m n}
\end{array} \right] = I_{\beta’}^{\beta},
$$

que é, simplesmente, a matriz mudança de base, partindo da base \(\beta\) para \(\beta’\).

Exemplo 7. Dadas as bases \(\beta = \{(1, 1), (0, 1)\}\) \(\beta’ = \{(0, 3, 0), (- 1, 0, 0), (0, 1, 1) \}\), de \(\mathbb{R}^2\) e \(\mathbb{R}^3\) respectivamente, procuramos a transformação linear \(T : \mathbb{R}^2 \rightarrow \mathbb{R}^3\) correspondente à matriz associada
$$
\left[T\right]_{\beta’}^{\beta} = \left[ \begin{array}{rr}
0 & 2\\
– 1 & 0\\
– 1 & 3
\end{array} \right].
$$

Fazemos o processo inverso, pois os coeficientes da expansão de \(T (1, 1)\) e \(T (0, 1)\) na base \(\beta’\) são conhecidos,
$$ \begin{array}{rl}
T (1, 1) = & 0 (0, 3, 0) – 1 (- 1, 0, 0) – 1 (0, 1, 1) = (1, – 1, – 1), \\
T (0, 1) = & 2 (0, 3, 0) + 0 (- 1, 0, 0) + 3 (0, 1, 1) = (0, 9, 3).
\end{array} $$

Como conhecemos o efeito desta transformação sobre os vetores da base \(\beta\), sabemos seu efeito sobre qualquer vetor \((x, y) \in \mathbb{R}^2\). Nesta base
$$ (x, y) = x (1, 1) + (y – x) (0, 1) $$
e, portanto,
$$ \begin{array}{rl}
T (x, y) = & T [x (1, 1) + (y – x) (0, 1)] = xT (1, 1) + (y – x) T (0, 1) \\
= & x (1, – 1, – 1) + (y – x) (0, 9, 3) = (x, 9 y – 10 x, 3 y – 4 x).
\end{array}$$

Portanto a transformação procurada é \(T (x, y, z,) = (x, 9 y – 10 x, 3 y – 4 x)\).

6. Transformações Lineares

Dados dois espaços vetoriais, \(V\) e \(W\), uma transformação entre eles é uma função que associa vetores de \(V\) em vetores de \(W\). Ela pode ser uma rotação de \(\mathbb{R}^2\) como as que foram estudadas na seção anterior, que associa vetores do plano em outros vetores do plano, girados de um ângulo \(\theta\). Outro exemplo seria a associação de um vetor do espaço em um vetor do plano que corresponde a uma projeção do primeiro vetor neste plano. Esta última transformação poderia, por exemplo, ser usada em uma aplicação gráfica para desenhar a sombra de um objeto tridimensional. Denotaremos por \(F : V \rightarrow W\) uma transformação que leva vetores de \(V\) em vetores de \(W\). Os termos transformação, aplicação e função são equivalentes e serão usados livremente neste texto.

Definição: Se \(V\) e \(W\) são dois espaços vetoriais, uma transformação \(F : V \rightarrow W\) é uma regra que associa a vetores de \(V\) um único vetor de \(W\).

Definição: Dados os espaços vetoriais \(U, V\) e \(W\), se \(F : U \rightarrow V\) e \(G : V \rightarrow W\), a transformação composta \(G \circ F : U \rightarrow W\) é definida da seguinte forma: se \(u \in U\) então
$$ G \circ F (u) = w = G (F (u)) \in W, $$

desde que \(F (u)\) esteja no domínio de \(G\).

Definição: Dada uma transformação \(F : V \rightarrow W\) entre dois espaços vetoriais a transformação inversa, quando existir, é uma transformação \(F^{-1} : W \rightarrow V\) tal que se
$$ F (v) = w \Rightarrow F^{-1}(w) = v. $$

Observe que, se \(F^{-1}\) é a inversa de \(F\), então \(F^{-1} \circ F : V \rightarrow V\) é a aplicação identidade, \(F^{-1} \circ F (v) = v, \forall v \in V\) (ela deixa inalterado qualquer vetor \(v)\).

Figura *

Exemplo . A composição de funções é uma prática rotineira em aplicações da matemática desde os estágios iniciais de seu estudo. Por exemplo, se \(f : \mathbb{R} \rightarrow \mathbb{R}\) dada por \(f (x) = x + 1\) e \(g : \mathbb{R} \rightarrow \mathbb{R}\) dada por \(g (x) = \sqrt{x}\) então a composta \(g \circ f : \mathbb{R} \rightarrow \mathbb{R}\) é a função \(g (f(x)) = g (x + 1) = \sqrt{x + 1}\).

As transformações lineares representam um caso particular das transformações me geral, de grande importância no estudo da matemática e aplicações. Elas são importantes porque muitos objetos e fenômenos que se pretende descrever ocorrem de forma linear, entre eles o estudo de circuitos passivos (contendo apenas resistores), o cálculo de estruturas de concreto, a manipulação computadorizada de imagens, etc. Além disto, mesmo objetos e fenômenos que não ocorrem de forma linear admitem, em seu tratamento, uma primeira aproximação linear, a partir da qual se procura fazer correções e aperfeiçoamentos.

Definição: Dados dois espaços vetoriais, \(V\) e \(W\), uma transformação linear entre eles é uma função de \(V\) em \(W\), \(F : V \rightarrow W\), satisfazendo:

  1. \(F (u + v) = F (u) + F (v), \forall u, v \in V\),
  2. \(F (k u) = k F (u), \forall u \in V, k\) um escalar qualquer.

Exemplo . A transformação de \(\mathbb{R}^2\) em \(\mathbb{R}^2\)
$$ \begin{array}{rl}
F : \mathbb{R}^2 \mapsto & \mathbb{R}^2 \\
(x, y) \mapsto & (x+y, x-y)
\end{array} $$
é uma transformação linear. Antes de mostrar isto, como ilustração do significado de uma transformação, observe que \(F\) tem o seguinte efeito sobre os vetores abaixo:
$$ \begin{array}{rrr}
F (1, 1) = (2, 0), & F (1, 0) = (1, 1), &\\
F (0, 0) = (0, 0), & F (3, 2) = (5, 1), & \text{etc..}
\end{array}
$$

Dados dois vetores de \(\mathbb{R}^2\), \(\vec{u} = (u_x, u_y)\) e \(\vec{v} = (v_x, v_y)\) então
$$ \begin{array}{rl}
F (\vec{u} + \vec{v}) = & F[(u_x + v_x, u_y + v_y)]=(u_x + v_x + u_y + v_y, u_x + v_x – u_y – v_y) = \\
& (u_x + u_y, u_x – u_y) + (v_x + v_y, v_x – v_y) = F (\vec{u}) + F (\vec{v}).
\end{array}
$$

Além disto, se \(k\) é um escalar temos
$$ F (k \vec{u}) = F [(k u_x, k u_y)] = (k u_x + k u_y, k u_x – k u_y) = k(u_x + u_y, u_x – u_y) = k F (\vec{u}).$$

Portanto a aplicação \(F\) satisfaz as duas condições e é, portanto, uma transformação linear. Vale a pena notar que \(F (\vec{0}) = \vec{0}\), i. e. ela leva o vetor nulo no vetor nulo, o que é, como veremos em breve, uma característica de todas as transformações lineares.

Exemplo . A transformação \(G : \mathbb{R} \rightarrow \mathbb{R}\) dada por \(G (u) = \alpha u\), (a multiplicação de um vetor por um fator \(\alpha\) ) é linear, pois:
$$ \begin{array}{rl}
G(u+v)= & \alpha (u + v)=\alpha u + \alpha v = G(u)+G(v), \\
G(ku)= & \alpha (ku)=k(\alpha u) = k\,G(u).
\end{array}
$$

Observamos novamente que \(G (0) = 0\).

Exemplo . A transformação
$$ \begin{array}{r}
H : \mathbb{R} \rightarrow \mathbb{R}\\
x \mapsto x^2
\end{array}
$$
não é linear. Qualquer uma das duas propriedades (i) e (ii) não são satisfeitas pois
$$ \begin{array}{rl}
H (u + v) = & (u + v)^2 = u^2 + v^2 + 2 u v \neq H (u) + H (v) ; \\
H (k u + v) = & (k u)^2 = k^2 u^2 \neq k H (u).
\end{array}
$$

Embora esta não seja uma transformação linear é verdade que \(H (0) = 0\).

Exemplo . A transformação
$$ \begin{array}{r}
J : \mathbb{R}^2 \rightarrow \mathbb{R}^3\\
(x, y) \mapsto (2 x, 0, x + y)
\end{array}
$$
é linear. Dados o vetores de \(\mathbb{R}^2\), \(\vec{u} = (x_1, y_1)\) e \(\vec{v} = (x_2, y_2)\) então
$$ \begin{array}{rl}
J (\vec{u}+\vec{v})= & J [(x_1 + x_2, y_1 + y_2)] = (2 x_1 + 2 x_2, 0, x_1 + y_1 + x_2 + y_2) = \\
& (2 x_1, 0, x_1 + y_1) + (2 x_2, 0, x_2 + y_2) = F (\vec{u}) + F (\vec{v}).
\end{array}
$$

Sendo \(k\) um escalar
$$ J (k \vec{u}) = J [(k x_1, k y_1)] = (2 k x_1, 0, k x_1 + k y_1) = k (2x_1, 0, x_1 + y_1) = k J (\vec{u}) . $$

Afirmação: Se \(F : V \rightarrow W\) é uma transformação linear, então \(F (0_V) = 0_W,\) onde \(0_V \;\text{ e }\; 0_W\) são, respectivamente, os vetores nulos de \(V\) e de \(W\).

Demonstração: Podemos escrever o vetor nulo como \(W \ni 0 = u – u\). Se \(F\) é linear então,
$$ F (0) = F (u – u) = F (u) – F (u) = 0 \in W. $$

No último exemplo, \(J (x, y) = (2 x, 0, x + y)\) temos que \(J (0, 0) = (0, 0, 0)\), ou seja, \(J\) leva o vetor nulo de \(\mathbb{R}^2\) no vetor nulo de \( \mathbb{R}^3\). Vimos também que a transformação \(H : \mathbb{R} \rightarrow \mathbb{R}; H (x) = x^2\) não é linear mas \(H(0) = 0\). Esta é, portanto, uma condição necessária mas não suficiente para que a transformação seja linear.

Exemplo . A transformação \(L : \mathbb{R}^3 \rightarrow \mathbb{R}^3\), dada por
$$ \text{ } L (x, y, z) = (x + 1, y, z) $$

não é linear pois \(L (0, 0, 0) = (1, 0, 0) \neq 0\). As condições (i) e (ii) não precisam ser testadas, nesta caso.

Exemplo . A transformação \(M : \mathbb{R}^3 \rightarrow \mathbb{R}\), dada por
$$ \text{ } M (\vec{v}) = \vec{v} \cdot \vec{v} \;\;\; \text{(o produto escalar)} $$

não é linear, embora \(M (\vec{0})=0.\;\;\) Apesar disto, se \(\vec{u}\), \(\vec{v} \in \mathbb{R}^3\) então
$$ \begin{array}{rl}
M(\vec{u}+\vec{v})= & (\vec{u}+\vec{v})\cdot(\vec{u}+\vec{v})=\vec{u}\cdot\vec{u}+\vec{v}\cdot\vec{v}+2\vec{u}\cdot \vec{v}\neq M(\vec{u})+M(\vec{v}), \\
M(k\vec{u})= & (k \vec{u}) \cdot (k \vec{u}) = k^2 \vec{u} \cdot \vec{u}\neq k M (\vec{u}).
\end{array}$$

Naturalmente, se uma das condições não é satisfeita já sabemos que a transformação não é linear. Nos exemplos sempre testamos as duas condições, para efeito de exercício.

Exemplo . A operação derivada \(D : P_n \rightarrow P_n\) (que leva polinômios em polinômios, ambos de grau menor ou igual a \(n\) ) é uma transformação linear. Se \(f, g \in P_n\) (são polinômios), e \(k\) é um escalar então
$$ \begin{array}{l} D (f + g) = D (f) + D (g), \\ D (k f) = k D (f). \end{array} $$

Exemplo . \(N : V \rightarrow W\), \(N (u) = 0, \forall u \in V\), é uma transformação linear pois
$$ \begin{array}{l} N (u + v) = 0 = N (u) + N (v); \\ N (k u) = k N (u) = 0. \end{array} $$

Exemplo . Toda matriz \(m \times n\) esta associada a uma transformação linear \(A : \mathbb{R}^n \rightarrow \mathbb{R}^m\):
$$
\left[ \begin{array}{rrrr}
a_{11} & a_{12} & \cdots & a_{1 n} \\
a_{21} & a_{22} & \cdots & a_{2 n} \\
\vdots & & & \vdots \\
a_{m1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right]
\left[ \begin{array}{r} x_1\\ x_2\\ \vdots\\ x_n \end{array} \right] =
\left[ \begin{array}{r} y_1\\ y_2\\ \vdots\\ y_m\end{array} \right].
$$

Denotando a operação acima por \(A \vec{x} = \vec{y}\), sabemos da álgebra das matrizes que
$$ \begin{array}{l}
A (\overrightarrow{x_1} + \overrightarrow{x_2}) = A (\overrightarrow{x_1}) + A (\overrightarrow{x_2}); \\
A (k \vec{x}) = k A (\vec{x}).
\end{array}
$$

Veremos mais tarde que a afirmação inversa também é verdadeira, ou seja, que toda a transformação linear \(T : V \rightarrow W\) (dois espaços vetorais) pode ser representada por uma matriz \(m \times n\) onde \(n\) é a dimensão de \(V\) e \(m\) a dimensão de \(W\).

Exemplo . Dada a matriz \(3 \times 2\)
$$
A = \left[ \begin{array}{rr}
2 & 0\\
0 & 0\\
1 & 1
\end{array} \right]
$$

existe a aplicação linear \(L_A : \mathbb{R}^2 \rightarrow \mathbb{R}^3\),
$$ \left[ \begin{array}{r}
x\\
y
\end{array} \right] \mapsto \left[ \begin{array}{rr}
2 & 0\\
0 & 0\\
1 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{c}
x \\ 0 \\ x + y
\end{array} \right] .
$$

Esta transformação é idêntica à \(J (x, y) = (2 x, 0, x + y)\), usada anteriormente em um exemplo.

Afirmação: Se \(F : V \rightarrow W\) é uma transformação linear, então \(F\) leva retas de \(V\) em retas de \(W\).

Demonstração: Uma reta de \(V\) é um espaço gerado por um único vetor. Vamos aqui denotar esta reta por \(\alpha = [v] = \{t v\},\) onde \(v \in V\) é um vetor fixo, \(t\) uma variável. A imagem desta reta, sob a acão de \(F\) é \(F \{tv\} = \{tF (v)\} = [F (v)]\), que é uma reta de \(W\).

Observação: Esta é, aliás, o motivo do nome, transformação linear.

Figura *

Transformações do plano no plano

De particular importância entre as transformações lineares entre espaços vetoriais estão as transformações \(T : \mathbb{R}^2 \rightarrow \mathbb{R}^2\). Grande parte das operações em computação gráfica pertencem a este tipo de transformações, em particular as expansões e contrações (para aumentar ou diminuir o tamanho de uma figura na tela do computador), as reflexões, projeções e rotações.

Expansão e contração uniforme

Uma transformação
$$ \begin{array}{lll}
T : & \mathbb{R}^2 \rightarrow \mathbb{R}^2 & \\
& \vec{v} \mapsto \alpha \vec{v}, & \alpha \in \mathbb{R}
\end{array}
$$

é uma expansão ou dilatação se \(\alpha \gt 1\), ou uma contração se \(\alpha \lt 1\). Vale aqui nos lembrarmos de que a multiplicação de um vetor por um escalar \(\alpha\) tem o efeito de multiplicar seu comprimento por \(| \alpha |\) pois
$$ |T (\vec{v}) | = | \alpha \vec{v} | = \sqrt[]{\alpha^2 \vec{v} . \vec{v} } = | \alpha | | \vec{v} |. $$

Exemplo . A seguinte transformação é uma dilatação,
$$ \begin{array}{rr}
T : & \mathbb{R}^2 \rightarrow \mathbb{R}^2\\
& \vec{v} \mapsto 2 \vec{v},
\end{array}
$$
que dobra o comprimento do vetor, conforme a figura *a. Em termos matriciais ela pode ser expressa por
$$ T \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
2 & 0\\
0 & 2
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
2 x\\
2 y
\end{array} \right] .
$$

Por outro lado a aplicação \(F (x, y) = \frac{1}{2} (x, y)\) é uma contração, mostrada na figura *b.

figura

Reflexão em torno do eixo \(\mathcal{O}x\)

A transformação
$$ \begin{array}{rl}
R_x : & \mathbb{R}^2 \rightarrow \mathbb{R}^2 \\
& (x, y) \mapsto (x,- y),
\end{array} $$
representa uma reflexão em torno do eixo \(\mathcal{O}x\), ilustrada na figura *. Em notação matricial
$$ \left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x\\
– y
\end{array} \right], \;\;\;\text{ onde }\;\;\; \left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = T \left[ \begin{array}{r}
x\\
y
\end{array} \right] .
$$

Rotação de um ângulo \(\theta\)

Dado um vetor \(\vec{v} \in \mathbb{R}^2\) queremos conhecer a transformação \(R_{\theta} : \mathbb{R}^2 \rightarrow \mathbb{R}^2\) tal que \(\vec{v}’ = R_{\theta} (\vec{v})\) tem o mesmo comprimento que \(\vec{v}\) mas está girado de um ângulo \(\theta\) no sentido antihorário, como mostrado na figura *. Vamos começar denotando por \(r = | \vec{v} |\) o módulo deste vetor, e \(\alpha\) o ângulo que ele faz com o eixo \(\mathcal{O}x\). Nesta notação, se \(\vec{v} = (x, y)\) temos
$$ \left. \begin{array}{r} x = r \cos \theta \\ y = r \text{sen } \theta\end{array} \right\} \Rightarrow \vec{v} = r (\cos \theta, \text{sen }\theta). $$

O novo vetor \(\vec{v}’\) obtido de \(\vec{v}\) por meio de um giro de ângulo \(\theta\) será escrito por
$$ \begin{array}{r} x’ = r \cos (\alpha + \theta),\\ y’ = r \text{sen } (\alpha + \theta). \end{array} $$

Podemos aqui usar as identidades trigonométricas para a soma de ângulos,
$$ \begin{array}
\cos (\alpha + \theta) = \cos \alpha \cos \theta – \text{sen } \alpha \text{sen } \theta, \\
\text{sen } (\alpha + \theta) = \text{sen } \alpha \cos \theta + \cos \alpha \text{sen } \theta.
\end{array} $$

Por conseguinte as coordenadas de \(\vec{v}’\) serão
$$ \begin{array} {l}
x’ = r \cos \alpha \cos \theta – r \text{sen } \alpha \text{sen } \theta = x \cos \theta – y \text{sen } \theta, \\
y’ = r \text{sen } \alpha \cos \theta + r \cos \alpha \text{sen } \theta = x \text{sen } \theta + y \text{sen } \theta.
\end{array} $$

Temos portanto, a transformação procurada,
$$ R_{\theta} \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = \left[ \begin{array}{rr}
\cos \theta & – \text{sen } \theta\\
\text{sen } \theta & \cos \theta
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] .
$$

Exemplo . No caso particular de uma rotação de \(\theta = \pi / 2\) temos
$$ R_{\pi / 2} \left[ \begin{array}{r}
x\\ y
\end{array} \right] = \left[ \begin{array}{rr}
0 & – 1\\ 1 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\ y
\end{array} \right] = \left[ \begin{array}{r}
– y\\ x
\end{array} \right].
$$

Exercício: Denotando por \(R_{\theta}\) a rotação antihorário de um ângulo \(\theta\) mostre que
$$ R_{\theta 1} \cdot R_{\theta_2} = R_{(\theta_1 + \theta_2)}.$$

Extra: Um conceito importante em álgebra moderna é o de um grupo. Um grupo é um conjunto \(G \neq \emptyset\), dotado de uma operação binária \(\ast\), satisfazendo as seguintes propriedades:

  1. Se \(a,\, b,\, c \in G \Rightarrow (a \ast b) \ast c = a \ast (b \ast c)\) (associatividade).
  2. \(\exists \, e \, \in G\) tal que \(e \ast a = a \ast e = a, \forall a \in G\) (existência do elemento neutro).
  3. \(\forall a \in G \; \exists b \; \in G\) tal que \(a \ast b = b \ast a = e\) (existência do elemento inverso).

Estas propriedades significam que um grupo é um conjunto com uma operação \(\ast\) associativa, onde existe um elemento neutro \(e\) (com relação àquela operação) e que para cada elemento \(a\) de \(G\) existe um inverso \(b\) (algumas vezes denotado por \(a^{-1}\)).

Mostre que o conjunto \(G = (R_{\theta}, \ast)\) onde \( \ast\) é a multiplição usual de matrizes, é um grupo. Quem são, neste grupo, os elementos \(e\) (a identidade) e \( [R_{\theta}]^{-1}\), o inverso de \(R_{\theta}\)?

Translações

Exemplos de transformações importantes no plano são as translações
$$ T (x, y) = (x + a, y + b) $$

ou
$$ T \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] + \left[ \begin{array}{r}
a\\
b
\end{array} \right] .
$$

Estas não são, no entanto, transformações lineares, como se pode mostrar facilmente.

O teorema seguinte seguinte mostra que, para conhecer o efeito de uma transformação linear sobre os vetores de um espaço vetorial, basta conhecer o efeito desta transformação sobre todos os vetores de uma de suas bases.

Teorema: Uma transformação linear \(T : V \rightarrow W\) fica inteiramente determinada por sua ação sobre os vetores de uma base de \(V\).

Demonstração: Seja \(\beta = \{v_1, \ldots, v_n \}\) uma base de \(V\) e suponha conhecidos \(T (v_1) = w_1, \ldots, T (v_n) = w_n\). Então, qualquer \(v \in V\) e sua transformação \(T(v)\) podem ser escritos respectivamente como
$$ \begin{array}{rl}
v = & a_1 v_1 + \ldots + a_n v_n \;\;\; \text{e} \\
T(v)= & T(a_1 v_1+\ldots +a_n v_n)=a_1 T(v_1)+ \ldots + a_n T(v_n) \\
= & a_1 w_1 + \ldots + a_n w_n,
\end{array} $$
como foi afirmado.

Exemplo . Qual é a transformação linear \(T : \mathbb{R}^2 \rightarrow \mathbb{R}^3\) satisfazendo
$$ T (1, 0) = (2, – 1, 0) \text{ e } T (0, 1) = (0, 0, 1) ? $$

Qualquer vetor \(\vec{v} \in \mathbb{R}^2\) pode ser escrito na base canônica
$$ \vec{v} = (x, y) = x (1, 0) + y (0, 1) . $$
Então
$$ T (\vec{v}) = xT (1, 0) + yT (0, 1) = x (2, – 1, 0) + y (0, 0, 1) = (2 x, – x, y) . $$
Em termos matriciais
$$ T \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
2 & 0\\
– 1 & 0\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
2 x\\
– x\\
y
\end{array} \right] .
$$

Relembramos aqui que uma matriz \(3 \times 2\) corresponde a uma transformação de \(\mathbb{R}^2\) em \(\mathbb{R}^3\).

Exemplo . Queremos encontrar a transformação linear \(T : \mathbb{R}^2 \rightarrow \mathbb{R}^3\) satisfazendo
$$ T (1, 1) = (3, 2, 1) \text{ e } T (0, – 2) = (0, 1, 0) . $$

Neste caso, \(\{(1, 1), (0, – 2)\}\) não é a base canônica de \(\mathbb{R}^2\). Temos então que encontrar a decomposição de um vetor qualquer nesta base. O \(\vec{v} = (x, y) \in \mathbb{R}^2\) pode ser escrito nesta base como
$$
\vec{v} = (x, y) = a (1, 1) + b (0, – 2) \Rightarrow \left\{
\begin{array}{r}
(a, a – 2 b) = (x, y), \\
a = x, \\
b = \frac{1}{2} (x – y).
\end{array} \right.
$$

Dai
$$ (x, y) = x (1, 1) + \frac{1}{2} (x – y) (0, – 2) $$
e o vetor transformado é
$$ T (x, y) = xT (1, 1) + \frac{1}{2} (x – y) T (0, – 2) = $$

$$ = x (3, 2, 1)+\frac{1}{2}(x-y)(0, 1, 0)=\left(3x,\frac{5 x-y}{2},x\right).$$

Em termos matriciais
$$ T \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
3 & 0\\
5 / 2 & – 1 / 2\\
1 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] .
$$

Vimos que uma transformação linear \(T : V \rightarrow W\) transforma vetores de um espaço vetorial \(V\) em vetores de outro, \(W\). Algumas definições serão necessárias para prosseguirmos.

Definição: Seja \(T : V \rightarrow W\) uma transformação linear. A imagem de \(T\) é o conjunto
$$ \text{Im} (T) = \{w \in W ; T (v) = w \text{ para algum } v \in V\} . $$

A imagem é, portanto, o conjunto de todos os vetores de \(W\) que são imagem de algum vetor de \(V\) pela transformação \(T\). Podemos denotar a imagem por \(\text{Im} (T)\) ou por \(T (V)\).

Definição: Seja \(T : V \rightarrow W\) uma transformação linear. O núcleo da transformação \(T\) é o conjunto
$$ \text{Nuc } (T) = \{v \in V ; T (v) = 0\} . $$

O núcleo é, portanto, o conjunto de todos os vetores de \(V\) que são levados no vetor nulo de \(W\). Observe que \(\text{Nuc } (T) \neq \emptyset\) pois se \(0_V\) é o vetor nulo de \(V\) então \(T (0_V) = 0_W\) (i.e. pelo menos o vetor nulo de \(V\) está no núcleo).

Obs. Em alguns textos o núcleo é denotado por \(\text{Ker} (T)\) (do inglês, kernel).

Exercício importante: Mostre que \(T (V)\) é um subespaço vetorial de \(W\) e \(\text{Nuc }(V)\) é um subespaço vetorial de \(V\).

Figura: Imagem e núcleo (feita)

Exemplo . Considere a transformação linear
$$ \begin{array}{rl}
T : & \mathbb{R}^2 \mapsto \mathbb{R} \\
& (x, y) \mapsto x + y.
\end{array}
$$

O núcleo desta transformação é \(\text{Nuc } (T) = \{(x, y) \in \mathbb{R}^2 ; x + y = 0\}\). Portanto o núcleo desta transformação é a reta \(y = – x\), exibida na figura *. A imagem de \(T\) é \(\text{Im} (T) =\mathbb{R}\), (toda a reta real) pois qualquer ponto \(r\) desta reta pode ser obtido pela expressão \(r = x + y\), escolhndo-se \(x, y\) adequadamente.

figura *

Exemplo . A transformação linear \(T : \mathbb{R}^3 \rightarrow \mathbb{R}^3\) dada por \(T (x, y, z) = (x, 2 y, 0)\) tem como imagem o conjunto
$$ \text{Im} (T) = \{(x, 2 y, 0) | x, y \in \mathbb{R}\} . $$

Observe que esta imagem é o plano \([(1, 0, 0), (0, 1, 0)]\), isto é, o plano gerado por \(\hat{\imath}\) e \(\hat{\jmath}\) ou ainda o plano \(x\mathcal{O}y\) \((z = 0)\). A dimensão da imagem é \(\dim \text{Im} (T) = 2\), pois existem 2 vetores em sua base. O núcleo desta transformação é
$$ \text{Nuc } (T) = \{(x, y, z) \in \mathbb{R}^3 ; (x, 2 y, 0) = 0\}, $$

ou seja, \(x = 0, y = 0\). Não há qualquer restrição sobre o valor de \(z\), portanto
$$ \text{Nuc } (T) = \{(0, 0, z) ; z \in \mathbb{R}\} . $$

Isto significa que \(\text{Nuc } (T) = [(0, 0, 1)]\), o eixo \(\mathcal{O}z\) e \(\dim \text{Nuc } (T) = 1\). Observe que
$$ \dim \text{Im} (T) + \dim \text{Nuc } (T) = 3 = \dim V. $$

Este resultado será explorado em breve.

Definição: Uma aplicação \(T : V \rightarrow W\) é injetora se, dados \(u, v \in V\), com \(T (u) = T (v)\), então \(u = v\). Equivalentemente, se \(u \neq v\) então \(T (u) \neq T (v)\).

figura

Uma aplicação injetora é aquela que tem imagens distintas para vetores distintos.

Definição: Uma aplicação \(T : V \rightarrow W\) é sobrejetora se \(T (V) = W\), ou seja, a imagem de \(V\) por \(T\) é todo o espaço \(W\). Isto significa que todo vetor de \(W\) é imagem de algum vetor de \(V\) por \(T\).

figura *

Definição: Uma aplicação que é simultaneamente injetora e sobrejetora é uma aplicação bijetora (ou uma bijeção).

Exemplo . A aplicação \(T : \mathbb{R} \rightarrow \mathbb{R}^2\), dada por \(T (x) = (x, 0)\) é injetora pois, se \(x \neq y\) temos \(T (x) \neq T (y)\). No entanto ela não é sobrejetora pois sua imagem é apenas o eixo \(\mathcal{O}x\) de \(\mathbb{R}^2\).

Teorema: Uma aplicação linear \(T : V \rightarrow W\) é injetora se, e somente se, \(\text{Nuc } (T) = \{0\}\).

Demonstração: Suponha que \(\text{Nuc } (T) = \{ \vec{0} \}\). Tome dois vetores \(u, v \in V\) tal que \(T (u) = T (v)\). Então \(T (u) – T (v) = 0 \Rightarrow T (u – v) = 0\), já que a aplicação é linear. Isto indica que \(u – v \in \text{Nuc } (T)\) logo \(u – v = 0\) (pois o núcleo contém apenas o vetor nulo). Resumindo, se \(T (u) = T (v)\) temos, obrigatoriamente que \(u = v\), logo \(T\) é injetora.

Por outro lado, suponha \(T\) injetora e tome um vetor \(v \in \text{Nuc } (T) \Rightarrow\) \(T (v) = 0\). Mas \(T (0) = 0\) para qualquer aplicação linear logo \(T (v) = T (0)\) ou seja \(v = 0\) (pois \(T\) é injetora) de onde se conclui que \(\text{Nuc } (T) = \{0\}\).

Exemplo . Queremos descobrir se a aplicação
$$ \begin{array}{rl}
T : & \mathbb{R}^2 \rightarrow \mathbb{R}^3 \\
& (x, y) \mapsto (x + y, x, x – y),
\end{array}
$$
é injetora. Sem usar a definição do que é uma aplicação injetora procuramos por núcleo,
$$ \begin{array}{r}
\text{Nuc }(T)=\{(x, y) \in \mathbb{R}^2 ; T (x, y) = 0 \} \Rightarrow \\
(x + y, x, x – y) = 0 \Rightarrow x = 0, y = 0.
\end{array}
$$
portanto \(\text{Nuc } (T) = \{0\}\), logo \(T\) é injetora.

Teorema: Seja \(T : V \rightarrow W\) uma aplicação linear. Então
$$ \dim \text{Nuc } (T) + \dim \text{Im} (T) = \dim V. $$

Demonstração: Considere que \(\beta_N = \{v_1, \ldots, v_n \}\) é uma base de \(\text{Nuc } (T)\) à qual adicionamos o conjunto de vetores \(w_k\) necessários para que \(\beta_V = \{v_1, \ldots, v_n, w_1, \ldots, w_m \}\) seja uma base de \(V\). Com estas definições temos que \(\dim \text{Nuc } (T) = n\) e \(\dim V = n + m\). Qualquer vetor \(v \in V\) pode ser decomposto na base \(\beta_V \) como
$$ v = a_1 v_1 + \ldots + a_n v_n + b_1 w_1 + \ldots + b_m w_m . $$

O efeito da transformação \(T\) sobre este vetor é dada por
$$ \begin{array}{rl}
T(v) = & a_1 T (v_1) + \ldots + a_n T (v_n) + b_1 T (w_1) + \ldots + b_m T(w_m) = \\ & b_1 T (w_1) + \ldots + b_m T (w_m),
\end{array} $$

onde a última igualdade se deve a que os vetores \(v_k, k = 1, \ldots, n\) estão no núcleo, logo \(T (v_k) = 0\). A imagem de \(T\) é, portanto
$$ \text{Im} (T) = \{b_1 T (w_1) + \ldots + b_m T (w_m) ; b_k \in \mathbb{R}, k = 1, \ldots, m\} $$

ou ainda
$$ \text{Im} (T) = [T (w_1), \ldots, T (w_m)]. $$

Resta mostrar que os vetores \(T (w_i)\) são l.i.. Procedemos, como de costume, verificando se a combinação linear
$$ c_1 T (w_1) + \ldots + c_m T (w_m) = 0 $$

só pode ser obtida com todos os coeficientes \(c_k = 0\). Como \(T\) é linear podemos escrever
$$ T (c_1 w_1 + \ldots + c_m w_m) = 0, $$

concluindo que o vetor entre parênteses está no núcleo e pode, portanto, ser decomposto na base \(\beta_N\) como
$$ c_1 w_1 + \ldots + c_m w_m = d_1 u_1 + \ldots + d_n u_n . $$

A seguinte combinação linear é, por isto, nula,
$$ c_1 w_1 + \ldots + c_m w_m – d_1 u_1 – \ldots – d_n u_n = 0, $$

o que só pode ser conseguido com todos os coeficientes constantes nulos, \(c_k = 0\) e \(d_l = 0\), pois esta é uma combinação linear entre os vetores da base \(\beta_V\) de \(V\) (que são, por definição, l.i.). Isto mostra que o conjunto \(\beta_I = \{T (w_1), \ldots, T (w_m)\}\) é l.i. e gera \(\text{Im} (V)\), portanto é uma base da imagem. Dai se conclui que \(\dim \text{Im} (V) = m\) e o teorema fica provado.

Corolário: Se \(T : V \rightarrow W\) é uma aplicação linear e injetora, e \(\dim V = \dim W\) então \(T\) transforma bases de \(V\) em bases de \(W\).

Observação: Em outras palavras, o corolário afirma que, se \(\beta_V = \{v_1, \ldots, v_n \}\) é uma base de \(V\) então \(\beta_W = \{T (v_1), \ldots, T (v_n)\}\) é uma base de \(W\).

Demonstração: Tome \(\beta_V = \{v_1, \ldots, v_n \}\),uma base de \(V\). Queremos saber se \(\beta_W = \{T (v_1), \ldots, T (v_n)\}\) é l.i.. Para isto tornamos nula a combinação linear
$$ k_1 T (v_1) + \ldots + k_n T (v_n) = 0 \Rightarrow T (k_1 v_1 + \ldots + k_n v_n) = 0, $$

a última afirmação decorrendo de ser \(T\) linear. Como \(T\) é injetora então \(\text{Nuc } (T) = \{0\}\) e, portanto, \(k_1 v_1 + \ldots + k_n v_n = 0\), o que só pode ser obtido se todos os coeficientes constantes forem nulos, \(k_i = 0, i = 1, \ldots, n\). Dai se conclui que \(\beta_W\) é um conjunto de vetores l.i.. Como \(\dim V = \dim W = n\) então, como queríamos mostrar, \(\beta_W\) é uma base de \(W\).

Definição (isomorfismo): Se a aplicação linear \(T : V \rightarrow W\) é simultaneamente injetora e sobrejetora então dizemos que ela é um isomorfismo. Dizemos que os espaços vetoriais \(V\) e \(W\) são isomorfos.

Convém aqui enfatizar, apesar da repetição, alguns pontos importantes. Espaços isomorfos tem a mesma dimensão: como \(T\) é injetora temos que \(\dim \text{Nuc } (T) = 0\) e \(\dim \text{Im} (T) = \dim V\). Mas \(T\) é também sobrejetora, o que significa que sua imagem cobre todo o espaço \(W\), \(\text{Im} (T) = W\) logo \(\dim W = \dim V\). Além disto um isomorfismo leva bases de \(V\) em bases de \(W\). Como existe uma correspondência biunívoca entre vetores dos dois espaços e todos os vetores de \(W\) correspondem a algum vetor de \(V\), então é possível encontrar a aplicação inversa \(T^{-1} : W \rightarrow V\) e ela é também um isomorfismo.

Exemplo . Seja \(T : \mathbb{R}^3 \rightarrow \mathbb{R}^3\) dada por \(T (x, y, z) = (x – 2 y, z, x + y)\). Vamos mostrar que \(T\) é um isomorfismo e encontrar sua inversa, \(T^{-1}\).

Pelo corolário, como a dimensão do espaço de partida e de chegada são as mesmas (pois são o mesmo espaço) se \(T\) é injetora então \(\dim \text{Nuc }(T)=0\) e \(\dim \text{Im}(T)=3\), o que significa que a imagem é o próprio \(\mathbb{R}^3\) (\( T\) é sobrejetora). Basta portanto verificar que a transformação é injetora. Para isto procuramos pelo núcleo de \(T\),
$$ \text{Nuc } (T) = \{(x, y, z) ; T (x, y, z) = 0\}$$
o que significa que vetores do núcleo devem satisfazer
$$ (x – 2 y, z, x + y) = 0 \Rightarrow \left\{ \begin{array}{r}
x – 2 y = 0\\
z = 0\\
x + y = 0
\end{array} \Rightarrow (x, y, z) = (0, 0, 0) . \right. $$

Como \(\text{Nuc } (T) = \{0\}\), \(T\) é injetora e, sendo sobrejetora, é um isomorfismo e existe a transformação inversa. Para achar a transformação inversa encontramos sua ação sobre 3 vetores l.i. de \(\mathbb{R}^3\). Em geral é mais simples usar a base canônica, embora qualquer base possa ser usada. Listamos abaixo a ação da transformação sobre a base canonônica e a ação de sua inversa sobre os vetores:
$$ \left\{ \begin{array}{rr}
T (1, 0, 0) = & (1, 0, 1) \\
T (0, 1, 0) = & (- 2, 0, 1) \\
T (0, 0, 1) = & (0, 1, 0)
\end{array} \right. \Rightarrow \left\{ \begin{array}{rr}
T^{-1} (1, 0, 1) = & (1, 0, 0), \\
T^{-1} (- 2, 0, 1) = & (0, 1, 0), \\
T^{-1} (0, 1, 0) = & (0, 0, 1).
\end{array} \right.
$$

Sabemos que \(\{(1, 0, 1), (- 2, 0, 1), (0, 1, 0) \}\) é uma base de \(\mathbb{R}^3\) pois isomorfismos transformam bases em bases. Qualquer vetor deste espaço pode ser escrito nesta base como
$$ (x, y, z) = a (1, 0, 1) + b (- 2, 0, 1) + c (0, 1, 0) $$

o que representa o sistema listado abaixo, com sua solução,
$$ \left. \begin{array}{r}
x = a – 2 b\\
y = c\\
z = a + b
\end{array} \;\;\right\} \Rightarrow \begin{array}{l}
a = \frac{1}{3} (x + 2 z),\\
b = \frac{1}{3} (z – x),\\
c = y.
\end{array}
$$

Podemos escrever qualquer vetor de \(\mathbb{R}^3\) nesta base como
$$(x,y,z)=\frac{1}{3} (x + 2 z) (1, 0, 1) + \frac{1}{3} (z – x) (- 2, 0, 1) + y (0, 1, 0) $$

enquanto a ação de \(T^{-1}\) sobre este vetor arbitrário é
$$ T^{-1} (x, y, z) = \frac{1}{3} (x + 2 z) T^{-1} (1, 0, 1) + \frac{1}{3} (z – x) T^{-1} (- 2, 0, 1) + yT^{-1} (0, 1, 0), $$

onde usamos o fato de que \(T\) é linear. Já conhecemos o efeito de \( T^{-1}\) sobre os vetores envolvidos, portanto encontramos **
$$ \begin{array}{rl}
T^{-1}(x, y, z)= & \frac{1}{3}(x + 2 z)(1, 0, 0)+\frac{1}{3}(z-x) (0, 1, 0)+y (0, 0, 1)= \\
& \left(\frac{x + 2 z}{3},\frac{z – x}{3}, y \right).
\end{array} $$

Esta é a transformação inversa procurada.

Segue um resumo dos resultados sobre as transformações lineares

• Uma transformação \(T : V \rightarrow W\) é linear se \(T (\alpha u + \beta v) = \alpha T (u) + \beta T (v)\)

• A transformação fica totalmente determinada por meio de sua ação sobre uma base de \(V\).

• Def.: \(\text{Im} (T) = T (V) ; \text{Nuc } (T) = \{v \in V ; T (v) = 0_W \}\).

• \(T\) é injetora se \(T (u) = T (v) \Rightarrow u = v\), ou, se \(u \neq v \Rightarrow T (u) \neq T (v)\).

• \(T\) é sobrejetora se \(\text{Im} (T) = W\). Se \(T\) é injetora e sobre então é um isomorfismo.

• \(T\) linear é injetora \( \Leftrightarrow \text{Nuc } (T) = \{0_V \}\).

• \(\dim \text{Nuc } (T) + \dim \text{Im} (T) = \dim V\).

• Se \(\dim V = \dim W\), T é injetora \(\Leftrightarrow T\) é sobrejetora.

• \(T\) injetora: Se \(\dim V = \dim W\) então \(T\) leva bases de \(V\) em bases de \(W\).

• Se \(T\) é um isomorfismo então \(\exists \; T^{-1} : W \rightarrow V\), (existe a inversa de \(T\) ).

5. Mudanças de Bases

Vimos que uma base de um espaço vetorial \(V\) é um conjunto de vetores de \(V\) que são linearmente independentes que geram este espaço vetorial. Vimos ainda que, escolhida uma base \(\alpha = \{v_1, v_2, \ldots, v_n \}\) então todo vetor de \(V\) pode ser escrito de forma única como combinação linear dos vetores desta base, \(v = a_1 v_1 + a_2 v_2 + \ldots + a_n v_n\).

Em muitas situações pode ser interessante descrever um vetor, ou outro objeto formado por vetores, em mais de uma base, lembrando que, alterada a base alteram-se também os coeficientes do vetor naquela base. é possível, em muitos casos, que a descrição se torne muito simplificada com a escolha mais adequada da base a ser usada. Um exemplo ilustrará a importância desta operação de mudança de bases.

Exemplo: A relação \(x^2 + x y + y^2 – 3 = 0\) descreve uma elipse no plano, como está ilustrado na figura 1.

Figura 1: Rotação de eixos

Em um novo sistema de coordenadas \((x’, y’)\) obtido por rotação dos eixos de coordenadas de um ângulo de \(45^0\) antihorário. Por meio de uma mudança adequada de base, que pode ser vista como a introdução de um novo sistema de coordenadas, a mesma elipse fica expressa como \(3 x^{\prime 2} + 2 y^{\prime 2}\) =6, onde os sistemas \((x, y)\) e \((x’, y’)\) se relacionam de uma forma que ficará clara em breve.

Considere que em um dado espaço vetorial \(V\) temos duas bases, \(\beta = \{u_1, \ldots, u_n \}\) e \(\beta’ = \{w_1, \ldots, w_n \}\). Então, se \(v\) é um vetor deste espaço, podemos escrevê-lo nas duas bases, respectivamente como
$$ v = x_1 u_1 + \ldots + x_n u_n, $$
$$ v = y_1 w_1 + \ldots + y_n w_n. $$

Queremos relacionar os dois grupos de coordenadas
$$
[v]_{\beta} = \left[ \begin{array}{r}
x_1\\
\ldots\\
x_n
\end{array} \right], [v]_{\beta’} = \left[ \begin{array}{r}
y_1\\
\ldots\\
y_n
\end{array} \right] .
$$

é importante observar que \(v\) é um objeto geométrico, independente do sistema de coordenadas usado ou, o que é equivalente, independente da base usada para este espaço vetorial. A transformação pode ser conseguida da seguinte forma: cada um dos vetores da base \(\beta’\) pode ser escrito como combinação dos vetores da base \(\beta\), uma vez que também são vetores de \(V\), portanto
$$
\begin{array}{lr}
w_1 = & a_{11} u_1 + \ldots + a_{n 1} u_n,\\
w_2 = & a_{12} u_1 + \ldots + a_{n 2} u_n,\\
\vdots & \vdots\\
w_n = & a_{1 n} u_1 + \ldots + a_{n n} u_n .
\end{array}
$$

A escolha de índices das constantes \(a_{i j}\) acima ficará clara a seguir. Substituindo os vetores acima em \(v = y_1 w_1 + \ldots + y_n w_n\) temos
$$
\begin{array}{rll}
v = & y_1 (a_{11} u_1 + \ldots + a_{n 1} u_n) + & \ldots & + y_n (a_{1n} u_1 + \ldots + a_{n n} u_n) = \\
& (a_{11} y_1 + \ldots + a_{1 n} y_n) u_1 + & \ldots & + (a_{n 1} y_1+ \ldots + a_{n n} y_n) u_n .
\end{array}
$$

Na última linha foram colocados em evidência os vetores \(u_k\). Como podemos escrever \(v = x_1 u_1 + \ldots + x_n u_n\) (usando a base \(\beta\) ) e, lembrando que existe uma única combinação linear para descrever um vetor em cada base, podemos identificar os termos
$$ \begin{array}{r}
x_1 = a_{11} y_1 + \ldots + a_{1 n} y_n, \\
\vdots \\
x_n = a_{n 1} y_1 + \ldots + a_{n n} y_n,
\end{array} $$
que é exatamente a regra de transformação entre as coordenadas \(\{y_k \}\) na base \(\beta’\) para as coordenadas \(\{x_k \}\) na base \(\beta\). Podemos escrever a mesma expressão acima em forma matricial como
$$
\left[ \begin{array}{r}
x_1\\
\vdots\\
x_n
\end{array} \right] = \left[ \begin{array}{lll}
a_{11} & \ldots & a_{1 n}\\
\vdots & & \vdots\\
a_{n 1} & \ldots & a_{n n}
\end{array} \right] \left[ \begin{array}{r}
y_1\\
\vdots\\
y_n
\end{array} \right],
$$
onde se observa que a escolha dos índices, citada acima, leva a uma disposição natural dos elementos formadores da matriz de transformação. Denotaremos por
$$
I^{\beta’}_{\beta} = \left[ \begin{array}{rrr}
a_{11} & \ldots & a_{1 n}\\
\vdots & & \vdots\\
a_{n 1} & \ldots & a_{n \, n}
\end{array} \right]
$$

esta matriz, a chamada matriz mudança de base de \(\beta’\) para \(\beta\), onde os coeficientes \(a_{i j}\) são as coordenadas dos vetores \(w_k\) (os elementos do base \(\beta’\) ) na base \(\beta\). Com esta notação a transformação entre uma base e outra fica descrita por
$$ [v]_{\beta} = I^{\beta’}_{\beta} [v]_{\beta’}, $$
lembrando que os coeficientes de \(I^{\beta’}_{\beta} = \{a_{i j} \} \) são as coordenadas dos vetores da base \(\beta’\) \((w_j)\) desenvolvidos na base \(\beta = \{u_j \}\).

Repetindo de forma compacta: Considere que em um dado espaço vetorial \(V\) temos duas bases, \(\beta = \{u_i \}\) e \(\beta’ = \{w_j \}\). Se \(v \in V\), podemos escrevê-lo nas duas bases, como
$$ v = \sum_{i = 1}^n x_i u_i, \;\; \text{e} \;\; v = \sum_{j = 1}^n y_j w_j.$$
Queremos relacionar os dois conjuntos de coordenadas \(\{x_i \}\) e \(\{y_j \}\). Lembrando que cada um dos \(w_j \in V\) temos que
$$ w_i = \sum_{k = 1}^n a_{k i} u_k, i = 1, \ldots, n.$$
Substituindo na expressão para \(v\)
$$ v = \sum_{i = 1}^n y_i w_i = \sum_{i = 1}^n y_i \left( \sum_{k = 1}^n a_{k i} u_k \right) = $$
$$ = \sum_{k = 1}^n \left( \sum_{i = 1}^n a_{k i} y_i \right) u_k = \sum_{k = 1}^n x_k u_k.$$
Como os dois termos na expressão acima correspondem à decomposição do vetor \(v\) na base \(\beta\), e esta decomposição é única, podemos identificar
$$ x_k = \sum_{i = 1}^n a_{k i} y_i $$
ou seja
$$ [v]_{\beta} = I^{\beta’}_{\beta} [v]_{\beta’}, $$
onde os coeficientes de \(I^{\beta’}_{\beta} = \{a_{i j} \} \) são as coordenadas dos vetores da base \(\beta’\) \((w_j)\) desenvolvidos na base \(\beta
= \{u_j \}\).

Exemplo: Dadas duas bases de \(\mathbb{R}^2,\;\; \beta = \{(2, – 1), (3, 4)\}\) e \(\beta’ = \{(1, 0) (0, 1)\}\) procuramos a matriz \(I_{\beta}^{\beta’}\), a matriz de mudança de base de \(\beta’\) para \(\beta\). Primeiro encontramos a decomposição dos vetores de \(\beta’\) na base \(\beta\) (dos vetores da base de partida descritos na base de chegada):
$$
(1, 0) = a_{11} (2, – 1) + a_{21} (0, 1),
$$

$$
(0, 1) = a_{12} (2, – 1) + a_{22} (0, 1),
$$

o que nos leva a dois sistemas, e suas respectivas soluções
$$
\left\{ \begin{array}{r}
2 a_{11} + 3 a_{21} = 1\\
– a_{11} + 4 a_{21} = 0
\end{array} \Rightarrow \left\{ \begin{array}{r}
a_{11} = 4 / 11,\\
a_{21} = 1 / 11,
\end{array} \right. \right.
$$

$$
\left\{ \begin{array}{r}
2 a_{12} + 3 a_{22} = 0\\
– a_{12} + 4 a_{22} = 1
\end{array} \Rightarrow \left\{ \begin{array}{r}
a_{12} = – 3 / 11,\\
a_{22} = 2 / 11.
\end{array} \right. \right.
$$

Portanto, a matriz mudança de base de \(\beta’\) para \(\beta\) é
$$
I_{\beta}^{\beta’} = \left[ \begin{array}{rr}
4 / 11 & – 3 / 11\\
1 / 11 & 2 / 11
\end{array} \right] = \frac{1}{11} \left[ \begin{array}{rr}
4 & – 3\\
1 & 2
\end{array} \right] .
$$

Vamos prosseguir um pouco mais com este mesmo exemplo para compreender como se dá esta mudança de base. Dado o vetor \(v = (5, – 8)\) ele pode ser imediatamente escrito na base \(\beta’\) (que é a base canônica) como
$$
[v]_{\beta’} = \left[ \begin{array}{r}
5\\
– 8
\end{array} \right] .
$$

As coordenadas deste vetor na base \(\beta’\) são
$$
[v]_{\beta} = \frac{1}{11} \left[ \begin{array}{rr}
4 & – 3\\
1 & 2
\end{array} \right] \left[ \begin{array}{r}
5\\
– 8
\end{array} \right] = \left[ \begin{array}{r}
4\\
– 1
\end{array} \right] .
$$
Podemos verificar diretamente que isto está correto pois \((5, – 8) = 4 (2, – 1) – 1 (3, 4)\).

Além de converter um vetor de uma base para outra, é interessante conhecer um procedimento para obter a operação inversa, ou seja, retornar da base nova para a base antiga. Isto nos leva a considerar a inversa da matriz mudança de base.

Vimos que a mudança de base de \(\beta’\) para \(\beta\) pode ser realizada por meio da operação
$$
[v]_{\beta} = I^{\beta’}_{\beta} [v]_{\beta’} .
$$

Denotamos por \( [I^{\beta’}_{\beta}]^{- 1}\) a inversa da matriz acima, e multiplicando à esquerda temos
$$ [I^{\beta’}_{\beta}]^{- 1} [v]_{\beta} = [I^{\beta’}_{\beta}]^{- 1} I^{\beta’}_{\beta} [v]_{\beta’} = [v]_{\beta’}. $$
Isto significa que
$$ [v]_{\beta’} = I^{\beta}_{\beta’} [v]_{\beta} = [I^{\beta’}_{\beta}]^{- 1} [v]_{\beta}, $$
ou seja, a matriz \(I_{\beta’}^{\beta}\) (a mudança de base de \(\beta\) para \( \beta’\) ) é a inversa de \(I_{\beta}^{\beta’}\),
$$ I^{\beta}_{\beta’} = [I^{\beta’}_{\beta}]^{- 1}. $$

Exemplo: No exemplo anterior, vamos procurar a matriz mudança de base de \(\beta\) para \(\beta’\), onde \(\beta = \{(2, – 1), (3, 4)\}\) e \(\beta’ = \{(1, 0) (0, 1)\}\). Os vetores de \(\beta\) na base \(\beta’\) tem coordenadas
$$ (2, – 1) = 2 (1, 0) – 1 (0, 1), $$
$$ (3, 4) = 3 (1, 0) + 4 (0, 1), $$

e, portanto
$$
I_{\beta’}^{\beta} = \left[ \begin{array}{rr}
2 & 3\\
– 1 & 4
\end{array} \right]
$$

Podemos verificar que esta é, de fato, a inversa de \(I_{\beta}^{\beta’}\) obtida acima, pois
$$
I_{\beta’}^{\beta} I_{\beta}^{\beta’} = \frac{1}{11} \left[
\begin{array}{rr}
2 & 3\\
– 1 & 4
\end{array} \right] \left[ \begin{array}{rr}
4 & – 3\\
1 & 2
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & 1
\end{array} \right] .
$$

Exemplo: Uma mudança de base importante está associada a uma rotação dos eixos de coordenadas. Em \(\mathbb{R}^2\) considere que \(\beta = (\hat{e}_1, \hat{e}_2)\) é a base canônica e \(\beta’ = (\hat{f}_1, \hat{f}_2)\) a base obtida de \(\beta\) por meio de uma rotação antihorária de um ângulo \(\theta\), como indicado na figura 2.

Figura 2: Rotaçao dos Eixos

Analisando a figura podemos ver que
$$ \hat{e}_1 = \cos \theta \hat{f}_1 – \text{sen } \theta \hat{f}_2, $$

$$ \hat{e}_2 = \text{sen } \theta \hat{f}_1 + \cos \theta \hat{f}_2, $$

e, portanto, temos a matriz mudança de base,
$$
I_{\beta’}^{\beta} = \left[ \begin{array}{rr}
\cos \theta & \text{sen } \theta\\
– \text{sen } \theta & \cos \theta
\end{array} \right] .
$$

Se descrevermos um vetor (pode ser, por exemplo, uma posição) com relação ao sistema de eixos originais por meio de suas coordenadas usuais \((x, y)\) podemos obter as coordenadas \((x’, y’)\) no sistema após a rotação como
$$
\left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = \left[ \begin{array}{rr}
\cos \theta & \text{sen } \theta\\
– \text{sen } \theta & \cos \theta
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] .
$$

Como um caso particular, se \(\theta = \pi / 3\) temos \(\text{sen } (\pi / 3) =\sqrt{3} / 2\) e \(\cos (\pi / 3) = 1 / 2\) e
$$
I_{\beta’}^{\beta} = \frac{1}{2} \left[ \begin{array}{rr}
1 & \sqrt{3}\\
– \sqrt{3} & 1
\end{array} \right] .
$$

Um vetor \(\vec{v} = (- 2, 3)\) tem coordenadas
$$
[\vec{v}]_{\beta’} = \frac{1}{2} \left[ \begin{array}{rr}
1 & \sqrt{3}\\
– \sqrt{3} & 1
\end{array} \right] \left[ \begin{array}{r}
– 2\\
3
\end{array} \right] = \frac{1}{2} \left[ \begin{array}{r}
– 2 + 3 \sqrt{3}\\
2 \sqrt{3} + 3
\end{array} \right],
$$

ou seja,
$$
\vec{v} = \left( \frac{- 2 + 3 \sqrt{3}}{2} \right) \widehat{f_1} + \left(
\frac{2 \sqrt{3} + 3}{2} \right) \widehat{f_2} .
$$

Por outro lado, escrevendo os vetores de \(\beta’\) na base \(\beta\) temos
$$
\hat{f}_1 = \cos \theta \hat{e}_1 + \text{sen } \theta \hat{e}_2,
$$

$$
\hat{f}_2 = – \text{sen } \theta \hat{e}_1 + \cos \theta \hat{e}_2,
$$

e a matriz mudança de base \(\beta’ \rightarrow \beta\) é
$$
I_{\beta}^{\beta’} = \left[ \begin{array}{rr}
\cos \theta & – \text{sen } \theta\\
\text{sen } \theta & \cos \theta
\end{array} \right],
$$

que consiste na matriz de rotação de um ângulo de \(– \theta\) (ou \(\theta\), no sentido horário). Se fizermos uma rotação de um ângulo \(\theta\), seguida de uma rotação de ângulo \(– \theta\), voltaremos à posição original, equivalente a fazer uma rotação de ângulo nulo ou deixar inalterado o vetor a ser girado,
$$
\left[ \begin{array}{rr}
\cos \theta & – \text{sen } \theta \\
\text{sen } \theta & \cos \theta
\end{array} \right]
\left[ \begin{array}{rr}
\cos \theta & \text{sen } \theta\\
– \text{sen } \theta & \cos \theta
\end{array}\right] = \left[ \begin{array}{rr}
1 & 0\\
0 & 1
\end{array} \right].
$$