- Michel
Perfil de um Cientista de Dados
O Cientista de Dados é um profissional multidisciplinar, com conhecimentos em ciência da computação, matemática, estatística e, principalmente, conhecimentos do negócio onde está inserido.

Durante os anos 80 e início dos 90, uma parte dos jovens formados em ciências com engenharia, física e matemática voltaram-se para oportunidades de empregos em bancos de investimento, uma vez que as qualificações analíticas começaram a preponderar neste campo, e a remuneração era muito atraente. No final dos anos 90 e início dos anos 2000, ficou claro que a Internet logo mudaria o mundo e muitos especialistas em tecnologia começaram a se especializar em software e desenvolvimento para a web.
Hoje, é cada vez mais claro que Big Data, Aprendizado de Máquina e Inteligência Artificial se tornarão (e, de certa forma, já são) o principal fator de sucesso que determinará se os negócios serão bem-sucedidos ou não nos próximos anos. Por isso, não é surpresa que a oportunidade mais atraente no mercado de trabalho em 2017, nos países desenvolvidos, tenha sido o de Cientista de Dados.
O título “Cientista de Dados” soa sofisticado e assusta as pessoas, mas talvez dissecar o perfil típico desses profissionais nos ajudará a mostrar que eles são, de fato humanos, e se você tiver inclinação, também poderá embarcar na jornada tornando-se um Cientista de Dados.
Este artigo é parcialmente baseado em uma pesquisa descrita em
https://www.datascience.com/blog/data-scientist-skills
Analisando os números, torna-se óbvio que existem características que os Cientistas de Dados compartilham.
Para obter uma melhor compreensão do perfil típico dos cientistas de dados, a 365 Data Science conduziu um estudo no qual coletou informações dos perfis do LinkedIn de 1.001 Cientistas de Dados.
A pesquisa foi dividida em dois grupos, dependendo se uma pessoa era empregada por uma empresa da Fortune 500 ou não. Além disso, a amostra envolveu Cientistas de Dados trabalhando nos EUA (40%), no Reino Unido (30%), na Índia (15%) e em outros países (15%).
Definição do Cientista de Dados
Uma definição popular dos pré-requisitos para o Cientista de Dados é:
'O Cientista de Dados é um melhor estatístico do que a maioria dos programadores e um melhor programador do que a maioria dos estatísticos'
Esta citação pode ser bastante próxima da verdadeira definição da profissão.
Mas falta uma qualidade – o conhecimento do negócio. Para isto são necessárias habilidades em Economia, Administração de Empresas, Ciências Sociais, etc.
Então, podemos sofisticar um pouco a definição:
“Um Cientista de Dados é um melhor estatístico e economista do que a maioria dos programadores, um melhor programador e economista do que a maioria dos estatísticos, e um melhor estatístico e programador do que a maioria dos economistas.”
O Cientista de Dados é um profissional multidisciplinar, com conhecimentos em ciência da computação, matemática, estatística e, principalmente, conhecimentos do negócio onde está inserido. Podemos dizer que o papel de um Cientista de Dados é gerir os dados da empresa, através de uma estratégia baseada em valor para o negócio.

Para um Cientista de Dados, excepcionais habilidades quantitativas são críticas, mas profundo conhecimento de algoritmos de aprendizado de máquina tornou-se menos importante, devido à evolução dos programas especializados.
De muitas maneiras, isso é similar a progressão que vimos no desenvolvimento de software. Nos últimos 50 anos, o desenvolvimento de software gradualmente migrou de linguagens "baixo nível" — linguagens altamente técnicas intimamente relacionadas a arquitetura dos computadores— para linguagens de “alto nível” com significativamente menos barreiras técnicas. Da mesma forma, a implantação de software migrou de mainframes e data centers para serviços baseados em nuvem, com enorme diminuição no tempo e capital necessário para implantar um novo sistema.
O perfil típico do Cientista de Dados
O estudo gerou várias descobertas interessantes. O perfil típico do Cientista de Dados é o seguinte:
Ele é homem, fala uma língua estrangeira, tem quatro anos e meio de experiência de trabalho geral, trabalha com R e/ou Python e possui Mestrado e / ou Doutorado.

Nível Acadêmico
De fato, a ciência de dados é uma profissão que requer forte formação acadêmica. No entanto, dado que este é um campo relativamente novo, não é surpresa que os cientistas de dados incluídos no estudo tenham perfis acadêmicos heterogêneos.
Formação em Ciência da Computação, Estatística e Matemática, Economia, Ciências Sociais e Engenharia dominam o campo, com 91% dos profissionais formados.
18% dos Cientistas de Dados chegaram ao topo da função em apenas dois empregos depois de concluir seu estágio. Então, se você tem um mestrado, fazer o curso de doutorado de 4 anos pode não ser tão essencial quanto você pensa. Talvez a procura de vagas de estágio seja a melhor solução.

Experiência profissional
Dê uma olhada neste gráfico dos títulos de cargos anteriores mantidos pelos atuais cientistas de dados:

Quais indústrias estão contratando a maioria dos cientistas de dados?
Como era de esperar as empresas de tecnologia lideram. Este setor engloba empresas de fabricação de eletrônicos, criação de software, computadores ou produtos e serviços relacionados à tecnologia da informação. As empresas dependem de inovações para criar seus softwares corporativos, gerenciar os sistemas logísticos, proteger seus bancos de dados e geralmente fornecem informações e serviços críticos que permitem que as empresas tomem decisões estratégicas de negócios. A ciência de dados é essencial para essas empresas, pois as ajuda a ler padrões de comportamento on-line , entender os desejos dos clientes, analisar a pesquisa on-line, melhorar a oferta de produtos e assim por diante…
As empresas industriais vêm em segundo lugar, contratando mais de 37% dos cientistas de dados, enquanto os setores financeiro (15%) e saúde (5%) aparecem como terceiro e quarto, respectivamente.

Auto-preparação e cursos online
Com os cientistas de dados provenientes de tantas formações diferentes, como eles conseguiram o conhecimento para realizar o trabalho?
Aproximadamente 50% dos cientistas de dados tem pelo menos um curso on-line.
Habilidades de programação
As duas principais linguagens de programação que se destacam são R e Python.
Não há uma amostra grande o suficiente para afirmar que um é melhor que o outro ou quanto cada um é usado, mas são as habilidades mais populares para se ter.
A 3ª linguagem de programação mais popular é o SQL. O manuseio de banco de dados é uma parte essencial do trabalho do Cientista de Dados, então, sem surpresa, 40% dos profissionais na amostra 'falam' em SQL.
O MATLAB é usado principalmente por gerações mais velhas e seu uso provavelmente diminuirá ainda mais, enquanto o Python deverá crescer nos próximos anos.
Finalmente, Java e C / C ++ são definitivamente orientados para especialistas em TI. A maioria dos profissionais que são encaminhados para uma carreira em ciência de dados normalmente opta por Python e R. O retorno em investir seu tempo em Java e C / C ++ simplesmente não vale a pena na situação atual.
Porte da empresa e linguagem de programação
Em termos de codificação, as maiores companhias parecem atrasadas. As empresas da Fortune 500 dependem fortemente de linguagens corporativas estabelecidas, como o SAS, e relutam em adotar R e Python (talvez por serem linguagens de código aberto).
Mais importante, elas não usam muito o SQL, já que o Hadoop se mostra mais útil pois, logicamente, Big Data domina o segmento.
Todas essas informações provavelmente fizeram você pensar: Você pode se tornar um Cientista de Dados em uma empresa F500 sem conhecer Big Data?

Os cientistas de dados serão necessários em todos os lugares! Em empresas F500 e em start-ups de tecnologia!
Eu estou tranquilamente confiante, olhando para este gráfico, que habilidades pessoais e auto-preparação são os fatores mais fortes quando se trata de se tornar um Cientista de Dados de sucesso!