Agora é hora de coisa avançada de verdade. Como dissemos anteriormente, o maior problema da análise de dados é o tratamento de dados, por isso temos um tópico próprio para esse assunto.
Antes de qualquer análise matemática, precisamos preparar os dados para consumo em algoritmos ou para criar dashboard. Um exemplo típico de erro associado ao tratamento de dados são as unidades de medidas. Em alguns países, usa-se a unidade km/h para velocidade, enquanto em outros usa-se milhas/h. Em nossa tabela, vemos diferenças nas unidades de consumo: alguns carros usam l/km enquanto outros usam g/km. Pela didática, não nos preocuparemos com a conversão dos dados, mas sim em limpá-los para consumo.
Para começar nossa aula, abra um novo arquivo Excel e insira os dados do arquivo CSV deste módulo, mas sem importá-lo.
Nesse menu, clique em Transformar Dados para acessar uma das ferramentas mais poderosas atualmente: o Power Query. Ele é um recurso nativo em alguns software da Microsoft, como é o caso do Excel. Portanto, você pode usá-lo sem precisar fazer download adicional.
Vale lembrar que essa ferramenta é separada do Excel, por isso tem seus processos próprios. A primeira coisa que vamos fazer é excluir a primeira coluna, posto que não tem finalidade alguma. Para isso, basta clicar na coluna e apertar DEL no teclado, ou então clicar com o botão direito no título da coluna e depois em Remover.
A primeira diferença entre esse software e o Excel é que o CTRL+Z não funciona. Tente usar esse atalho e sinta o desespero de não ver a coluna retornar ao documento. Em troca do atalho, podemos usar o menu do lado direito, bastando clicar no xis vermelho para desfazer uma alteração.
Pronto, agora você está vacinado quanto ao atalho “desfazer” no Power Query. Mantenha a primeira coluna apagada. Vamos iniciar nosso tratamento convertendo as unidades de acordo com o contexto. O preço, por exemplo, é a moeda Euro. Vamos deixá-lo com esse tipo de dado.
Para isso, clique com o botão direito do mouse no título da coluna, depois em Alterar Tipo > Moeda.
Na coluna transmission_type vamos tirar o Unknown.
Na coluna fuel_consumption_g_km, não podemos deixar as unidades junto aos números, posto que pode causar problemas no futuro, como tirar a raiz quadrada de uma letra. Para isso, temos diversas alternativas para tratar esses dados; nós aproveitamos o espaço entre o número e a unidade para limpar os dados. Clique com o botão direito no nome da coluna e vá em Dividir Coluna > Por Delimitador, selecione a opção Espaço e Delimitador de extrema direita e clique em OK. Faça isso mais uma vez para a coluna original. Retire qualquer número adicional do nome da coluna para evitar erros.
Apague as colunas com as unidades. Além disso, filtre os valores com “-” da coluna e tire o valor 0.
Usaremos outra estratégia para limpar a coluna fuel_consumption_l_100km. Dessa vez substituiremos a unidade por nada. Para isso, clique com o botão direito no nome da coluna e em Substituir Valores.
Coloque “l/100 km” em Valor a ser Localizado e deixe em branco o campo Substituir por. Clique em OK.
Basta clicar em Fechar e Carregar e todas as atualizações serão mantidas.
Bem interessante, não é verdade? Com alguns poucos cliques você consegue limpar planilhas enormes com dados.
Parabéns por concluir esta aula!