Elastic MapReduce (EMR).
O HDInsight Destaca-se pela facilidade de implementação “User Friendly” de clusters, uma leitura no bom livro: Developing BigData Solutions on Microsoft Azure HDInsight ratifica essa afirmação. Entretanto apenas agora a plataforma começa a ganhar evidência no seguimento BigData.
De acordo com o Gerente de Produto da Plataforma de Dados Microsoft, Frederico Rezende, a empresa procura desenvolver sua plataforma de processamento distribuído há muito tempo:
Pouca gente sabe, mas a Microsoft atua com Big Data há muito tempo. O Bing, por exemplo, analisa mais de 100 petabytes de dados para fornecer resultados de pesquisa de alta qualidade. Agora, as organizações podem usar a Plataforma de Big Data da Microsoft para gerar insights de negócios a partir de quaisquer tipos de dados, estruturados ou não, provenientes das mais diversas fontes, conhecidas ou não pela empresa, através de ferramentas já familiares aos usuários, como o Microsoft Office e o SharePoint, em qualquer lugar, através de qualquer device ou plataforma.
Sob o nome "HDInsight" escondem-se na verdade dois produtos:
HDInsight é uma plataforma de integração Hortonworks (versão 2.2 até à data) dentro do Windows. Essa distribuição foi desenvolvida conjuntamente pela Microsoft e Hortonworks. Ele irá incluir os componentes clássicos de uma distribuição do FrameWork Hadoop:
COMPONENTE | VERSÃO |
---|---|
Apache Hadoop e YARN | 2.2 |
Tez | 0.5.2 |
Apache Pig/Hive e HCatalog | 0.14.0 |
Apache Sqoop | 1.4.5 |
Apache Oozie | 4.1.0 |
HBase | 0.98.4 |
Zookeeper/Storm/Mahout/Phoenix | 3.4.6/0.9.3/0.9.0/4.2.0 |
Observe que a Microsoft contribui ativamente para o projeto Apache, submetendo o seu trabalho para a comunidade open-source. Além disso, encontramos Chris Douglas e Ivan Mitic, ambos os desenvolvedores da Microsoft na lista de colaboradores do Hadoop.
Hortonworks é uma distribuição baseada em Java, em que medida a Microsoft foi capaz de integrar o produto em seu ecossistema?
Um rápido olhar para este diagrama dá-nos uma visão global do ecossistema HDInsight no Azure. Blocos roxos são componentes acrescentados pelo produto da Microsoft.
A administração portal Azure oferece uma console Javascript, que permite que você interaja com o cluster diretamente da interface web. Essas interações serão na forma de consultas Pig Latin ou Scripts Hive.
A integração com SDK possibilita desenvolver trabalhos MapReduce e executar Hive Query (LINQ para Hive) em .Net.
O SDK de desenvolvimento ( HadoopSDK ) está disponível codeplex ou diretamente sob a forma de NuGet no Visual Studio.
Uma boa ideia para quem quer testar seus algoritmos de “MapReduce.net” localmente é utilizar HDInsight Emulator. Sendo uma espécie de SandBox, ele permite o espelhamento do ambiente HDInsight do Azure na sua Máquina local.
Polybase reconcilia os dados de um banco de dados relacional SQL Server com dados do cluster Hadoop. O usuário pode então consultar seus dados através de SQL tradicional, que pode agregar informações de um tratamento Hadoop.
Os vários blocos de conectividade permitem que o cluster Hadoop se comunique com os sistemas de workflow Azure, ou SQL Server.
Microsoft especialmente enfatiza muito a integração com o Excel. O novo conector ODBC permite a conexão no Excel em uma base Hive, oferecendo ao usuário um serviço Self Service BI diretamente em uma ferramenta que ele conhece bem.
Conectores também permitem interface com as outras ferramentas de BI (PowerPivot / SQL Server Analysis Service / etc.)
A interface de monitoramento é disponibilizada após a implantação de um cluster no Azure. Como os produtos mais recentes da Microsoft, a interface é clara e simples.
Como a Amazon, uma implantação de cluster no Azure não tem a intenção de persistir ao longo do tempo. Para isso, a Microsoft oferece a interface com o seu sistema de armazenamento de dados Azure HDFS (Azure Blobs), para reter seus dados ao longo do tempo, e reutilizar uma vez que o conjunto seja destruído.
Por último, HDInsight permite integrar facilmente um cluster ao seu ambiente existente atrelar o poder do Active Directory para o produto.
O preço de um cluster HDInsight é calculado sobre uma taxa horária, dependendo da quantidade de instâncias ativas. Ou seja, que um cluster consiste em um nó mestre (NameNode) e vários nós de escravos (DataNodes) que pode ter uma configuração (e, portanto, de preços) diferentes.
Para obter informações, as taxas atuais da visualização são:
Tipo de Nó | Preço |
---|---|
NameNode (A4) | R$2,184/h(~R$1.624/mo) |
DataNodes (A3) | R$1,092/h(~R$812/mo) |
Se você tem uma conta Azure, você pode Estudar a documentação, e ativar o seu cluster trial.
Outra alternativa é baixar diretamente a Distribuição HDP, utilizando como “sandbox” para fins didáticos.
Vamos analisar os pontos fortes do HDInsight:
Pontos fracos:
Fato, a Microsoft conseguiu adicionar os vários blocos que facilitam a integração entre tecnologias OpenSource e seu SDK no ambiente Windows.
Apesar de haver nenhuma grande revolução, O HDInsight é solução completa, simples de configurar e usar.
O próximo passo é entender como a performance do ambiente pode ser elevada aos níveis da Amazon, mas esse já é assunto para o próximo artigo ;-)