Neste módulo daremos continuidade em seus estudos de Excel de maneira 100% prática. A ideia é que você consiga trabalhar com um “banco de dados” real no Excel, fornecendo insights e tratando dados brutos.
Para isso, escolhemos um banco de dados bastante interessante fornecido pelo Kaggle chamado German Car Insights, composto por diversas informações de veículos encontrados no mercado alemão. Você pode consultar a fonte original pelo link (https://www.kaggle.com/datasets/yaminh/german-car-insights) ou fazer o download do material gcar_data.csv presente neste curso ao CLICAR AQUI.
Seu primeiro desafio é abrir o documento CSV, algo que está um pouco além de nossa experiência cotidiana de uso do Excel. Antes disso, devemos especificar o que é um arquivo CSV: basicamente, é um documento onde as informações estão separadas por vírgulas. Portanto, se você tentar abrir o arquivo CSV direto, terá um problema enorme de formatação.
Vejamos como o arquivo está organizado pelo site do Kaggle.
Ao fazer o download do arquivo e dar dois cliques para abri-lo, nos deparamos com isso.
Vamos abrir o arquivo CSV usando os recursos adequados do Excel. Para isso, abra um novo documento Excel em branco, vá na aba Dados e clique em Obter Dados > De Arquivo > De Texto/CSV.
Selecione o arquivo com as informações do carros e clique em Importar.
Por agora clicamos em Carregar, embora faremos um tratamento de dados no futuro usando as ferramentas de transformação do Excel.
Nesta etapa de exploração, queremos entender como o banco de dados está estruturado e quais informações ele possui. Além disso, é o primeiro passo para localizarmos problemas nos dados e começarmos a pensar em tratamento de informação, embora não faremos nada disso por enquanto.
Uma ótima ideia é expandir o menu de filtro de cada coluna e analisar as informações contidas na coluna. Vamos fazer isso com a coluna transmission_type.
Podemos perceber que existem quatro tipos de transmissão: automático, semiautomático, manual e desconhecido. O quarto tipo é muito estranho e sugere uma inconsistência no banco de dados, pois todos os veículos possuem transmissão, e todas as transmissões possuem patente — até o momento nenhuma montadora usa peças alienígenas em seus veículos. Desmarque todas as opções e remarque apenas a opção Unknown.
O primeiro veículo com transmissão desconhecida é o Ford Fiesta 2018. No Brasil, esse carro pode ser tanto automático quanto manual, mas não vamos alterar essa informação, pois estamos tratando do mercado de veículos da Alemanha. Nessa situação, marcaremos todas as opções exceto a transmissão Unknown.
Olhando para os dados da coluna fuel_consumption_l_100km, vemos que existem espaços em branco. Já deu para entender o maior problema de trabalhar com análise de dados? A limpeza das informações! Além disso, o segundo maior problema da análise de dados é a veracidade das informações que temos. Quem pode garantir que o Ford Kuga, o primeiro da minha planilha, realmente é híbrido? Temos que confiar nas informações obtidas e fazer nosso melhor para extrair insights dos dados.
Continuando com nossa exploração, vamos analisar a coluna price_in_euro de nossa tabela. A forma mais rápida de fazer isso é clicar na letra da coluna e consultar algumas estatísticas na parte inferior da planilha.
Em média, os carros na Alemanha estão na faixa dos 30 mil euros. Podemos clicar com o botão direito nessa barra e adicionar mais informações. Colocaremos as informações Máximo e Mínimo.
Para encerrar nossa análise exploratória, criaremos um histograma com os valores dos preços. Nós fizemos isso em treinamentos anteriores, mas é bom revisar posto a importância dos gráficos para quem usa Excel.
Comece selecionando a coluna com os preços. Em seguida, vá em Inserir > Gráficos > Gráficos Estatísticos (com ícone de histograma azul) e clique em Histograma.
Sim, o gráfico automático é sempre horrível mesmo, vá se acostumando. Altere o título do gráfico para “Preços em Euros”.
Clique nos números do eixo horizontal para abrir um menu de personalização, vá em Opções de Eixo (ícone de um gráfico) e expanda Opções de Eixo.
Selecione Largura do compartimento e altere o valor para 10000. Selecione a opção Compartimento de estouro e analise o gráfico obtido.
Expanda o menu Número e altere de Geral para Moeda. Selecione a moeda Euro e deixe o número de casas decimais em zero. Isso vai ajudar a formatar o gráfico.
Por fim, use as bolinhas brancas ao redor do gráfico para esticá-lo e melhorar a apresentação dos números no eixo horizontal.
Pronto, acabamos de extrair uma informação valiosa: a maioria dos veículos do mercado Alemão está na entre 10 mil e 20 mil euros. Isso contradiz a média calculada anteriormente, mas devemos lembrar que a média leva em conta todos os veículos, e temos carros que custam mais de 5 milhões de euros na planilha.
Parabéns por concluir esta aula. Continue se esforçando!