1 Prefácio

Existem várias linguagens de programação e cada uma delas tem seus pontos fortes e fracos. Algumas linguagens são mais rápidas, mas bastante verbosas. Outras linguagens são fáceis de codificar, mas são lentas. Isso é conhecido como o problema das duas linguagens e Julia busca eliminar esse problema. Mesmo que nós três somos de áreas distintas, todos acreditamos que Julia é mais efetiva para nossas pesquisas que as outras linguagens que usamos antes. Discorremos sobre esse ponto de vista em Section 2. Contudo, comparada a outras linguagens de programação, Julia é uma das mais recentes. Isso significa que o ecossistema em torno da liguagem é, por vezes, de difícil navegação. É difícil descobrir por onde começar e como todos os diferentes pacotes se encaixam. Por isso decidimos escrever este livro! Desejamos tornar mais acessível para pesquisadores, em especial para nossos colegas, essa linguagem incrível.

Como pontuado anteriormente, cada linguagem de programação tem seus pontos fortes e fracos. Para nós, a ciência de dados é, definitivamente, um ponto forte de Julia. Ao mesmo tempo, nós três usamos ferramentas de ciência de dados no nosso dia a dia. E provavelmente você também quer trabalhar com ciência de dados! Por isso, nosso livro é focado em ciência de dados.

Na próxima etapa dessa seção daremos uma ênfase maior na importância dos “dados” em ciência de dados e mostraremos porque a habilidade em manipulação de dados é, e continuará sendo, a maior demanda do mercado e da academia. Argumentamos que incorporar as práticas da engenharia de software à ciência de dados reduzirá o atrito na atualização e no compartilhamento de códigos entre colaboradores. Grande parte da análise de dados vem de um esforço colaborativo, por isso as práticas de desenvolvimento de software são de grande ajuda.

1.0.1 Dados estão em todos os lugares

Dados são abundantes e serão ainda mais em um futuro próximo. Um relatório do final do ano de 2012, concluiu que, entre 2005 e 2020, a quantidade de dados armazenados digitalmente cresceria em um fator de 300, partindo de 130 exabytes1 para impressionantes 40,000 exabytes (Gantz & Reinsel, 2012). Isso equivale a 40 trilhões de gigabytes: para colocarmos em perspectiva, são mais de 5.2 terabytes para cada ser humano que vive neste planeta! Em 2020, em média, cada pessoa criou 1.7 MB de dados por segundo (Domo, 2018). Um relatório recente previu que quase dois terços (65%) dos PIBs nacionais estarão digitalizados até 2022 (Fitzgerald et al., 2020).

Todas as profissões serão impactadas pelo aumento e disponibilidade cada vez maior de dados (Chen et al., 2014; Khan et al., 2014) e pela crescente importância que os dados têm tomado. Dados são usados para comunicar e construir conhecimento, assim como na tomada de decisões. É por isso que habilidade com dados é tão importante. Estar confortável ao lidar com dados fará de você um pesquisador e/ou profissional valioso. Em outras palavras, você se tornará alfabetizado em dados.


  1. 1. 1 exabyte (EB) = 1,000,000 terabyte (TB).↩︎



CC BY-NC-SA 4.0 Jose Storopoli, Rik Huijzer, Lazaro Alonso