paint-brush
Que tipo de cientista você é?por@alvations
1,183 leituras
1,183 leituras

Que tipo de cientista você é?

por Liling Tan8m2022/08/29
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

Que tipo de cientista você é? Como redator de tecnologia, adoro compartilhar as tecnologias emergentes em aprendizado de máquina e tenho um ponto fraco particular em tecnologias relacionadas a idiomas e tradução. Para comemorar a indicação, estou escrevendo este artigo no formato de perguntas e respostas “Pergunte-me qualquer coisa”.
featured image - Que tipo de cientista você é?
Liling Tan HackerNoon profile picture



A ciência de dados percorreu um longo caminho desde os primeiros dias das conferências Knowledge Discovery in Databases (KDD) e Very Large Data Bases (VLDB) . Os engenheiros de software dos anos 1980-90 que lidavam com bancos de dados evoluíram para engenheiros de banco de dados especializados nos anos 2000 . Enquanto isso, grupos de cientistas da computação em laboratórios de pesquisa menores experimentam aprendizado de máquina e inteligência artificial . O big data e o algoritmo inteligente colidiram em uma explosão cambriana na década de 2010 , criando “ Cientista de Dados: O Trabalho Mais Sexy do Século XXI ”. Isso nos leva a uma década depois, pós-pandemia de 2022, fazendo a pergunta: “ O cientista de dados ainda é o trabalho mais sexy do século XXI? ”.


Por que você está escrevendo este artigo?


Perdoe o atalho, mas este artigo foi escrito em conjunto com o Prêmio Noonies de 2022. O Noonie Awards 2002 do HackerNoon celebra os escritores técnicos que compartilham seus melhores e mais brilhantes insights em todas as coisas de tecnologia.


Uma introdução formal:


Olá, sou a Liling. Durante o dia, sou um cientista aplicado na Amazon e, depois do trabalho, codifico código aberto e escrevo artigos de tecnologia sobre processo de linguagem natural e, às vezes, artigos sobre cultura pop de jogos.


É uma alegria e uma honra ser indicado na categoria de Colaborador do Ano do Hackernoon para Processamento de Linguagem Natural (NLP) e se você gostou do conteúdo de NLP ou Tradução Automática que venho compartilhando, ajude a esmagar o botão de votação em https: //www.noonies.tech/2022/programming/2022-hackernoon-contributor-of-the-year-natural-language-processing



Para comemorar a indicação, estou escrevendo este artigo no formato de perguntas e respostas do tipo “Pergunte-me qualquer coisa”.


Como redator de tecnologia, adoro compartilhar as tecnologias emergentes em aprendizado de máquina e tenho um ponto fraco particular em tecnologias relacionadas a linguagem e tradução. Para comemorar a indicação, estou escrevendo este artigo no formato de perguntas e respostas do tipo “Pergunte-me qualquer coisa”. Saiba mais sobre meus pensamentos e opiniões sobre “ que tipo de cientista eu sou? ” na indústria de tecnologia nas seções a seguir.

De volta ao “Trabalho mais sexy do século 21”


Hoje em dia, a descrição do trabalho para “ cientistas de dados ” vem em diferentes formas e cai amplamente nessas categorias:


  • cientista de dados
  • Pesquisa científica
  • Cientista Aplicado
  • Engenheiro de dados
  • Engenheiro de pesquisa
  • Engenheiro de Machine Learning (ML)


Se você perguntar a alguém sobre a diferença entre o papel e as responsabilidades dos diferentes cargos, provavelmente terminará com uma linha vaga que delineou cada um deles.


Se você perguntar a alguém sobre a diferença entre o papel e as responsabilidades dos diferentes cargos, provavelmente terminará com uma linha vaga que delineou cada um deles. Na realidade, geralmente é um escopo de trabalho confuso e sobreposto que difere com base nas definições de função da empresa e da equipe. A principal diferença geralmente vem entre as funções de “Cientista” e “Engenheiro”, onde geralmente se espera que o cientista se concentre mais nos dados e no lado da qualidade do modelo, enquanto o engenheiro se concentra mais na integridade do modelo e na confiabilidade do serviço.


P: Quais dados ou qualidade do modelo?

Isso geralmente é responsabilidade dos “ cientistas ”. Na indústria, isso é específico para as diferentes tarefas e aplicações que a equipe suporta e/ou desenvolve. É semelhante aos pesquisadores acadêmicos que constroem o modelo de aprendizado de máquina, mas a praticidade de saber se o modelo final é utilizável geralmente supera a necessidade de superar os resultados de ponta do setor.


(Imagem de Mika Baumeister do Unsplash)


  • As tarefas de qualidade de dados geralmente envolvem:
    • Quais dados de código aberto você pode usar para treinar/melhorar o modelo?
    • Quem possui fontes de dados internas que você pode usar para treinar/melhorar o modelo?
    • Como extrair, transformar, armazenar e carregar os dados para caber no modelo?
    • Como melhorar a qualidade e o tamanho dos dados?


  • As tarefas de qualidade do modelo geralmente envolvem:
    • Encontrar o algoritmo certo ou a arquitetura de rede a ser usada para resolver a tarefa
    • Definir/refinar o uso da estrutura de avaliação para avaliar a tarefa/aplicativo
    • Melhorar o desempenho do modelo com base em uma métrica/estrutura de avaliação definida
    • Otimizando a compensação de velocidade e desempenho para o algoritmo para tornar o modelo utilizável na produção


P: O que é integridade do modelo e confiabilidade do serviço?

Isso geralmente é responsabilidade dos “ engenheiros ”. A confiabilidade é fundamental para qualquer aplicativo moderno de aprendizado de máquina hoje. É importante certificar-se de que os esforços de emissões de carbono dos cientistas para produzir o melhor modelo para os clientes/usuários produzam o desempenho esperado na produção.


A declaração de um cientista “ funciona no meu laptop ” é inaceitável na indústria e os engenheiros ajudam a tornar “ funciona em qualquer lugar ” um sonho tornado realidade.



(Imagem de Ilya Pavlov do Unsplash)


  • As tarefas de integridade do modelo geralmente envolvem:
    • Construir e manter a estrutura para automatizar o treinamento e a implantação do modelo

    • Garantir que recursos/melhorias feitas em projetos experimentais estejam disponíveis em modelos de produção

    • Melhorias incrementais para automatizar as configurações experimentais para reduzir/eliminar as etapas manuais ao trazer o modelo dos cientistas para a produção.


  • As tarefas de confiabilidade do serviço geralmente envolvem:
    • Configurar alertas e monitorar o uso de aplicativos dos usuários e se/quando o modelo de aprendizado de máquina falhar/interromper
    • Especificar e limitar o acesso dos usuários ao modelo para cumprir os regulamentos internos/nacionais/regionais
    • Tornar o serviço acessível a usuários e cargas crescentes


Nos dias modernos, às vezes essas responsabilidades de engenharia são conhecidas como Operações de aprendizado de máquina (MLOps). Chip Huyen tem uma boa postagem no blog que fornece uma visão geral sobre MLOps para aspirantes a engenheiros de ML/Dados/Pesquisa.


Existem muitas outras definições do que cientistas/engenheiros de aprendizado de máquina, dados, aplicados e pesquisadores fazem, mas o que foi dito acima é de minha experiência pessoal no setor.

P: Devo escolher Cientista ou Engenheiro?

Depende! E como discutido anteriormente, varia de empresa para equipe e todos devem sempre perguntar ao gerente de contratação sobre as responsabilidades esperadas durante o processo de candidatura.


Um bom cientista deve ser capaz de realizar algumas tarefas de engenharia. Vice-versa, um bom engenheiro deve ser capaz de construir alguns modelos de aprendizado de máquina.


Pessoalmente, como cientista, estes são os conselhos que dou aos aspirantes/novos cientistas:

  • Conhecer um pouco de engenharia de back-end/front-end ajuda
  • Saiba o que é possível, o que é fácil, o que é difícil para os engenheiros
  • Aprenda com engenheiros (dockers, bancos de dados, nuvem, design/desenvolvimento de aplicativos)
  • E deixe os engenheiros aprenderem o que você faz


E uma nota final que sempre tento me lembrar,


P/S: Um engenheiro pode treinar um modelo melhor do que um cientista.



P: Vamos falar de forma prática, existe uma diferença entre Dados, Pesquisa ou Cientista Aplicado?


As funções e responsabilidades são semelhantes, mas em termos práticos algumas empresas podem ter uma demarcação clara entre as diferentes posições de cientistas, portanto, sempre como o pessoal de recursos humanos (RH) ou gerente de contratação, se for possível compartilhar as " diretrizes de função " específicas para o posição para a qual você está se candidatando e especialmente importante entender as expectativas de sua função depois de ingressar na empresa e na equipe .


P: Sim, isso é muito bom sobre tecnologia, carreira, conte-me mais sobre a massa ($$$ diferença em termos práticos) para dados, pesquisa ou cientista aplicado!


Pessoalmente, sou um “ prático ” na maioria dos casos, mas quando se trata de “a massa”, https://www.levels.fyi/ e perguntar a amigos/idosos nas empresas é sua melhor aposta para saber mais sobre a empresa e suas compensações.


Minha opinião pessoal:


“Não faça isso pelo dinheiro” é superestimado. Faça pelo amor de fazer. Eu gosto de olhar para números e dados de linguagem, portanto, PNL. Mas lembre-se de ser pago o suficiente para fazer isso =)



Da discussão de carreira, agora a parte técnica!

Discuti as diferenças entre cientistas e engenheiros no campo de aprendizado de máquina e agora tentarei responder a uma pergunta urgente que quase todos os cientistas fariam:


P: Tenho um problema X, qual ferramenta/método Y para resolvê-lo?


Esta é geralmente a pior forma de perguntas do StackOverflow de acordo com o guia “ Como fazer uma boa pergunta ”, mas acho que é algo que a comunidade deve tentar responder sempre que puder.


Minha opinião pessoal:


Não há pergunta “ruim” ou “precisa de mais foco” para essas questões práticas. Mas, às vezes, inevitavelmente atrai publicidade maliciosa de produto/tecnologia.



Aqui está minha abordagem de 10 passos para responder ao problema X, abordagem Y, como um “ cientista ”, …


(Imagem de Jukan Tateisi no Unsplash)


  1. Revisão da literatura

    1. Quanto mais você lê, mais ferramentas você tem em mãos
    2. Mas limite seu tempo para evitar buracos de coelho, talvez tente “ Paper-Blitzing ” =)
  2. Saiba quais são os conjuntos de dados disponíveis e o que há neles (ruído, peculiaridades, etc.)

  3. Encontre em qual métrica de avaliação a tarefa X geralmente é avaliada

  4. Rastreie a citação relevante mais antiga da tarefa , leia o artigo

  5. Encontre o artigo mais citado para a tarefa , use-o como sua linha de base

    1. Sempre que possível, procure os conjuntos de dados no artigo mais citado e no último artigo mais brilhante
  6. Defina seus critérios de sucesso para a tarefa industrialmente (pode não ser a métrica de avaliação padrão para a tarefa)

  7. Tente replicar ou reimplementar a linha de base

  8. Comunique seu modelo/bibliotecas aos engenheiros . Seu engenheiro pode produzi-lo?

  9. A linha de base atendeu aos critérios de sucesso? Pergunte à parte interessada do negócio/projeto se é suficiente

  10. Construa, teste, quebre, repita!



P: Espere um minuto, isso significa que não há “um verdadeiro algoritmo/ferramenta Y” que eu possa aprender para resolver a tarefa X?

Sim, não há.

Por experiência pessoal, a ferramenta/modelo que chega às mãos de seus clientes geralmente depende muito da Etapa 6 a 9 da abordagem descrita acima.


P: O que vem a seguir em Aprendizado de Máquina e PNL (que o deixa pessoalmente empolgado)?


(Modelos disponíveis no Huggingface)


No momento, estou gastando meu tempo livre aprendendo sobre o Huggingface 🤗 e não apenas sobre como usar os diferentes componentes da biblioteca, mas mais ainda para entender quais recursos o tornam um sucesso e qual é o fator X que o fez ganhar força na comunidade de aprendizado de máquina.



E a próxima coisa em que eu investiria meu tempo é ML quântico, se eu tiver ainda mais tempo =)



Adeus e obrigado pelo peixe!


Espero que as perguntas e respostas acima lhe dêem alguns insights sobre “ que tipo de cientista eu sou ”. E se houver mais perguntas urgentes que você queira fazer, sinta-se à vontade para deixar o comentário abaixo da postagem.


Por fim, quero agradecer imensamente à comunidade, equipes e patrocinadores do HackerNoon pela indicação ao Noonie Awards e, se você gostar deste artigo, ajude a esmagar o botão de votação em https://www.noonies.tech/2022/programming/2022- hackernoon-colaborador-do-ano-processamento-de-linguagem-natural