A imagem principal foi gerada com Midjourney Diffusion com o prompt “A python prevalece, digital fantasy art”.
Sobre ciência de dados
A ciência de dados é onde estatísticas, programação e comunicação se cruzam. Um cientista de dados faz uma pergunta e usa dados para respondê-la por meio de mecanismos de complexidade variada. Eles têm o conhecimento e o kit de ferramentas para saber quais testes e métodos aplicar a cada tipo de dados. E eles têm a capacidade de extrair respostas dos dados e retransmitir essas respostas em uma forma geral de comunicação cotidiana.
Os dados podem variar de simples a altamente complexos. Pode ser “limpo” e pode ser “bagunçado”. Às vezes temos uma pergunta, mas não temos os dados. Um cientista e/ou analista de dados deve transformar dados confusos em dados limpos usando ferramentas especializadas. Eles também podem desenvolver '
Leitores do HackerNoon
As enquetes semanais do HackerNoon (10/4/2023 a 16/4/2023) foram usadas para avaliar onde nossos leitores se enquadram neste tópico. A comunidade HackerNoon foi questionada sobre qual é sua ferramenta de ciência de dados de trabalho, dadas algumas das opções mais populares e 374 pessoas responderam. Os resultados podem ser vistos na imagem abaixo:
- [ ] Mais de 50% dos leitores do HackerNoon, que são em grande parte da comunidade de tecnologia, escolheram o Python como sua principal ferramenta de ciência de dados. Isso não é tão surpreendente.
Pitão é de código aberto, o que o torna acessível a todos 🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃
- [ ] 18% selecionado
excel como sua ferramenta de ciência de dados de primeira escolha. - [ ] O Power BI foi selecionado apenas por 9% dos entrevistados**.**
- [ ] Também uma ferramenta de código aberto,
RStudioGenericName levou apenas 9% dos votos. - [ ] Finalmente, apenas 5% escolheram
Quadro como sua principal ferramenta para ciência de dados
Ferramentas
Por que existem tantas ferramentas para escolher?
Vamos ver alguns destaques de cada ferramenta da enquete. Claro, existem mais ferramentas não discutidas aqui 😆
excel
❌ Código aberto.
✅ É amigável ao estilo da Microsoft!
❌ Não é avançado o suficiente para projetos complexos de ciência de dados.
✅ Gera tabelas e gráficos elegantes que podem ser facilmente exportados.
Estamos todos familiarizados com o Excel. Claro, é ótimo para tarefas diárias, como manipulação de dados, limpeza e visualizações, mas não é suficiente para projetos mais avançados. Você pode ser habilidoso com a criação de painéis e relatórios e pode até configurar APIs especializadas no Excel.
Rstudio
✅ Código aberto.
❌ Tem uma curva de aprendizado significativa.
✅ Pode gerar gráficos, tabelas e resultados organizados e personalizáveis.
❌ Pode ser limitado em algumas das ferramentas de aprendizado de máquina mais avançadas.
✅ Especializado em problemas de base estatística.
Um programa de código aberto versátil que é excelente para análise de dados e ciência de dados é
** “Nossa missão é criar software de código aberto para ciência de dados, pesquisa científica e comunicação técnica. Fazemos isso para potencializar a produção e o consumo de conhecimento por todos, independentemente dos meios econômicos”. -- Positivo \ Semelhante ao Python, a versatilidade da linguagem de programação R é vasta, permitindo que os cientistas de dados executem tarefas complexas usando várias abordagens. Bibliotecas e pacotes estão sendo constantemente desenvolvidos para assumir tarefas especializadas das quais os programadores podem tirar proveito. E se eles não tiverem o pacote que você está procurando, desenvolva um você mesmo !
Você podeusar R e Python em conjunto . Verifique isso se estiver trabalhando em um projeto colaborativo com programadores de R e Python.
Power BI
❌ Código aberto.
✅ Cria belos relatórios.
❌ Pode parecer fácil de usar, mas tem complexidade oculta.
✅ Ótimo para disputa e manipulação de dados.
❌ Habilidades limitadas para projetos complexos de ciência de dados.
✅ Pode coletar dados de várias fontes.
O Power BI realmente se destaca como um
Pitão
✅ Código aberto.
❌ Tem uma curva de aprendizado significativa.
✅ Pode criar gráficos, tabelas e resultados organizados.
✅ Tem inúmeras bibliotecas de ciência de dados como TensorFlow, Scikit-learn, NumPy, Pandas, PyTorch, etc.
✅ É uma linguagem de programação multifuncional que faz com que seus esforços de aprendizado cheguem mais longe.
Para trabalhar com Python, você vai querer aprender como configurar um ambiente virtual e provavelmente vai querer escolher uma plataforma de computação como o Jupyter Notebook para realizar seu trabalho.
Quadro
❌ código aberto.
✅ Cria belos painéis.
❌ Habilidades limitadas de pré-processamento de dados, como limpeza e disputa.
✅ Ótimo para análise de dados.
❌ Habilidades limitadas para projetos complexos de ciência de dados.
✅ Relatórios e painéis são facilmente compartilháveis com outras pessoas.
Pensamentos finais
Nossa pesquisa mostrou que o Python subiu para o topo das opções dadas para ferramentas de ciência de dados. Dada a sua versatilidade, dentro e fora do campo da ciência de dados, isso não foi surpresa. Python é apresentado como uma linguagem de programação fácil de aprender. Vamos ser honestos, se você for um completo iniciante em codificação de computador, não será “ fácil ” no começo, mas com a prática, acabará se tornando uma segunda natureza para você.
Por favor, compartilhe seus pensamentos nos comentários e fique de olho em outras enquetes do HackerNoon para participar.