Hadoop diário são algumas notas de aprendizado sobre Apache Hadoop na Fatec Americana.
Etapas de desenvolvimento dos projetos
-
Drummond (Nov-Dez/2014) - Tentativa de encontrar padrões em textos de Carlos Drummond de Andrade, tanto para aplicações de testes para Linguística, quanto de criptografia
-
Metereologia (Jan-Abr/2015) - Projeto com objetivo executar o cruzamento de dados dispostos pela ESALQ-USP
-
Linguística de Corpus (Mai-Nov/2015) - Uma alternativa livre, usando o modelo MapReduce, para funções encontradas no WordSmith Tools
Ele nasceu com objetivo de aprender e ensinar Apache hadoop a todos os interessados e com algumas prioridades:
1. Fazer com que o aprendizado de hadoop seja acessivel a todos os não falantes de inglês ou de Javanes
2. Propagar o uso de Software Livre
3. Usar Python o máximo possível
4. Resolver alguns problemas de linguistica de corpus
5. Resolver alguns problemas metereológicos
Tempo de resposta do Hadoop cluster na contagem de palavras
técnica de contagem da linguística de corpus
Tamanho | Tempo em 1 nó | Tempo Cluster |
---|---|---|
138 B | 0.032s | 4.274s |
1.6 KB | 0.034s | 4.182s |
15.2 KB | 0.063s | 5.165s |
154.3 KB | 0.243s | 5.201s |
1.5 MB | 1.716s | 7.259s |
15.3 MB | 16.581s | 27.372s |
153.4 MB | 2m 44.602s | 3m 53.429s |
1.5 GB | 33m 28.294s | 26m 43.265s |
15.3 GB | 355m 1.318s | 97m 56.008s |