Naman is available for hire

Naman Jain

Verified Expert in Engineering

数据工程架构师和首席开发人员

Location

New Delhi, Delhi, India

Toptal Member Since

June 24, 2020

Naman是一位经验丰富的云和数据解决方案架构师，拥有超过六年的经验，为多家财富100强客户提供数据工程服务. 他通过Azure云交付了多个pb级数据迁移和大数据基础设施, AWS Cloud, and Snowflake or DBT, 在许多情况下，在他们的用例中创建效率的阶梯顺序. 纳曼从根本上相信过度沟通, establishing trust, 并获得可交付成果的所有权.

Data Engineering Data Migration Big Data Big Data Architecture Azure Data Lake Data Warehousing Azure Data Lake Analytics Data Warehouse Design SQL ETL Scala Apache Spark Apache Impala Apache Hive HDFS

Portfolio

Enterprise Client

雪花，数据构建工具(dbt)， Spark, GitLab，数据迁移...

企业客户端(通过Toptal)

Scala, Spark, Azure, Azure数据工厂，Azure数据湖，Azure数据库...

隐身模式AI初创公司(A轮2000万美元)

数据工程，Apache Hive, Apache Impala, SQL, Apache Spark, Scala, Bash...

Experience

Data Engineering - 8 years Data Migration - 6 years Apache Spark - 5 years Scala - 5 years Databricks - 3 years Machine Learning - 3 years Azure数据湖分析- 2年 Azure数据工厂- 2年

Availability

Full-time

Preferred Environment

Azure Cloud Services, Apache Spark, Scala, IntelliJ IDEA, Git, Linux, Snowflake, Data Build Tool (dbt), Snowpark, Data Migration

The most amazing...

...enterprise-grade, 我在Azure云上交付的大数据ELT平台是一个单一的数据源数据湖，它支持广泛的用例多样性.

Work Experience

高级数据分析工程师

2021 - 2022

Enterprise Client

架构并交付客户的整个PROD逻辑提升(超过200个SQL工作流)和从AWS Redshift到Snowflake的遗留数据迁移(超过10 pb).
通过数据构建工具(DBT)自动化每日摄取作业，并通过DBTCloud创建自我更新的数据目录.
将所有SQL逻辑从Redshift SQL提升到DBT SQL. Used macros and Jinja, 它允许我们看到非常复杂的SQL逻辑，并通过目录将其可视化.
缩短了80%的时间, cost, 并通过DBT中的级联触发器实时实现所有面向客户的BI报告, 而不是使用红移, 顺序表一次刷新.
将我们所有的Periscope图表和仪表板链接到Git仓库，然后在IDE中索引. 这让我们能够制作并推送大量更新, 取代了Periscope的手动逻辑更新过程，大大提高了我们的效率.
培训新数据工程师管理和扩展整个大数据基础设施.
比较Snowpipe、Fivetran和Stitch的性能、成本和易于维护.
在Snowpark中用Scala udf迁移并编写了一个新的非常复杂的业务逻辑. 通过简化Scala udf中的逻辑，帮助合并多个SQL表.
利用Snowpark建立了一个大数据平台, DBT, 和GitLab来实现最佳实践的标准化, CI/CD, 自我更新文档DAG, 减少金表新鲜度延迟, etc.
将超过10个Spark应用程序迁移到Snowpark，实现了更好的净运行时间，并降低了所有应用程序的计算成本.

Technologies: 雪花，数据构建工具(dbt)， Spark, GitLab，数据迁移, Data Warehouse Design, Big Data, Data Pipelines, ELT, Big Data Architecture, Data Architecture, Snowpark

Cloud Solutions Architect

2020 - 2021

企业客户端(通过Toptal)

通过Azure数据工厂进行工作流的编排和自动化.
在Azure数据湖存储(ADLS) Gen2中优化和分区存储.
Implemented complex, Azure Databricks中的强类型Scala Spark工作负载，以及依赖管理和Git集成.
实现了实时低成本、低延迟的流工作流，峰值时每秒处理超过2MM的原始JSON blob. 通过ABS-AQS集成Azure Blob存储、Azure事件中心和Azure队列.
创建了一个由原始/青铜(Azure Blob Storage)组成的多层ELT平台, 当前和银(天蓝色三角洲湖), 和映射/金(天蓝色三角洲湖)层.
通过按需旋转集群和持久化集群来平衡计算成本.
通过Delta表为整个客户端提供高效实时的大数据分析, 哪个提供了索引和优化的存储, ACID事务保证, 以及表级和行级访问控制.
在端到端工作流中捆绑在一起，只需点击几下即可刷新，或者作为作业自动执行.
领导由4名开发人员和1名解决方案架构师组成的5人团队，在Azure云上生产大数据工作流, 使客户端能够终止其遗留应用程序，并体验更加可靠和可伸缩的产品工作流.
支持广泛多样的用例，并通过依赖开源和开放标准为它们提供未来的保障.

Technologies: Scala, Spark, Azure, Azure数据工厂，Azure数据湖，Azure数据库, Delta Lake, Data Engineering, ETL, Data Migration, Databricks, Big Data, Data Pipelines, ELT, Big Data Architecture, Azure Cloud Services, Azure Event Hubs, Data Architecture, Azure Data Lake Analytics, Data Lakes

Lead Data Engineer

2019 - 2020

隐身模式AI初创公司(A轮2000万美元)

架构并实现了一个分布式机器学习平台.
通过Spark MLlib实现了20多个机器学习模型的产品化.
构建产品和工具来缩短机器学习项目的上市时间. 将初创公司从设计阶段到生产阶段的TTM减少了50%.
产品化8个Scala Spark应用程序，将ETL层转换为下游的机器学习模型.
使用Spark SQL进行ETL，使用Spark结构化流和Spark MLlib进行分析.
领导一个由三名数据科学家组成的六人团队, two back-end engineers, and one front-end engineer. 交付了一个解决方案，该解决方案有一个后端层，通过REST API与前端通信，并按需启动和管理Spark作业.

Technologies: 数据工程，Apache Hive, Apache Impala, SQL, Apache Spark, Scala, Bash, Linux, Spark Structured Streaming, Machine Learning, MLlib, Spark, Spark SQL, ETL, Big Data, Data Pipelines, ELT, Big Data Architecture, Data Architecture, Data Lakes

Senior Data Engineer

2018 - 2019

Dow Chemical (Fortune 62)

为ETL创建了5个Scala Spark应用程序，并为这些作业的自动化编写了多个Bash脚本.
架构并构建了一个Scala Spark应用程序，以验证Oracle源表与它们在HDFS中摄取的对应表. 用户可以动态地选择执行高级或数据级验证.
开发应用程序，以便在出现差异的情况下，其输出将是源和目标之间完全不匹配的列和行.
通过将工程师的手动调试工作量降低到只运行应用程序，然后读取人类可读的输出文件，从而减少了99%以上的工作量.
在预算范围内提前交付整个ETL和验证项目.
广泛使用Cloudera分布式Hadoop (CDH)用于HDFS和Hive.

技术:数据工程, Apache Hive, Apache Impala, SQL, Apache Spark, Scala, Hadoop, Bash, Linux, Oracle Database, Spark SQL, ETL, Big Data, Data Pipelines, ELT, Big Data Architecture, Data Architecture

Senior Data Engineer

2018 - 2019

波士顿科学公司(财富319)

设计并实现了一个Scala Spark应用程序，从Hive表中构建Apache Solr索引. 该应用程序专为任何故障的回滚而设计，将下游用户的停机时间从大约3小时减少到大约10秒.
实现了一个Spark结构化流应用程序，从Kafka流中摄取数据，并将它们放入kerberos集群中的Kudu表中.
设置多个Shell脚本来自动化Spark作业、Apache Sqoop作业和Impala命令.
广泛使用Cloudera分布式Hadoop (CDH)和ElasticSearch.

技术:数据工程, Apache Hive, Apache Impala, SQL, Apache Spark, Scala, Hadoop, Bash, Linux, Kudu, Spark Structured Streaming, Apache Solr, Spark SQL, ETL, Big Data, Data Pipelines, ELT, Big Data Architecture, Data Architecture

Senior Data Engineer

2017 - 2018

通用磨坊(财富200强)

从各种来源获取社会营销数据, 包括Google Analytics API, Oracle Databases, 还有各种流媒体资源.
Created a Scala Spark application to ingest >100Gb of data as a daily batch job, partition, 并以拼花的形式存储在HDFS中, 在查询层使用相应的Hive分区. 该应用程序取代了传统的Oracle解决方案，并将运行时间缩短了90%.
为ETL设置Spark SQL和Spark结构化流.
广泛使用Cloudera Distribution Hadoop (CDH).

技术:数据工程, Apache Hive, Apache Impala, SQL, Apache Spark, Scala, Hadoop, Spark Structured Streaming, Spark SQL, ETL, Big Data, Data Pipelines, ELT, Big Data Architecture, Data Architecture

Software Engineer

2015 - 2016

大都会人寿保险公司(财富44)

担任摩托车保险web应用程序的产品经理. 这款应用逐渐发展成为摩托车保险客户的主要着陆点.
生产前用于部署的构建主服务器. 部署了所有的构建，主要是构建的稳定性.
领导由30多名开发人员、测试人员和分析师组成的客户团队的Scrum开发.
在客户组织中架构和支持解决方案.

技术:模型-视图-控制器(MVC)，敏捷

Experience

优化抵押贷款市场资金配置

http://github.com/Namanj/Mortgage-Market-Tri-Analysis

该项目是Galvanize数据科学项目为期两周的顶点项目.

我研究了舒巴姆住房金融公司的数据, 这家公司在过去5年里发放了超过1.5亿美元的抵押贷款.

我的目标是利用数据科学来帮助公司优化其资本使用, 无论是在贷款分配过程中，还是在扩张过程中.

我决定把这个大目标分解成3个更具体的目标:
-建立一个分类器，预测客户拖欠贷款的概率
-推荐新的办公地点，最大限度地提高增长潜力
-预测下一季度的业务量

Skills

Languages

Scala, SQL, Snowflake, Python 3, Bash

Frameworks

Spark, Apache Spark, Play Framework, Spark Structured Streaming, Hadoop, YARN

Libraries/APIs

Spark ML, MLlib, Google api

Tools

Git, IntelliJ IDEA, Spark SQL, Apache Impala, Apache Solr, Kudu, Apache Sqoop, Subversion (SVN), GitLab

Paradigms

ETL, ETL Implementation & Design, Functional Programming, Microservices Architecture, 面向对象编程(OOP), Agile Software Development, Agile, 模型-视图-控制器(MVC)

Platforms

Azure, Azure Event Hubs, Databricks, Linux, Apache Kafka, MacOS, Oracle Database

Storage

数据湖，数据湖设计，数据管道，Azure云服务，Apache Hive, HDFS

Other

Azure Data Factory, Azure Data Lake, Data Engineering, Data Warehousing, Delta Lake, Data Migration, Azure Data Lake Analytics, ETL Development, Big Data, Data Architecture, Big Data Architecture, ELT, Azure Databricks, Data Warehouse Design, Data Build Tool (dbt), Machine Learning, Data Structures, Snowpark

Education

2012 - 2014

计算机科学与工程学士学位

美国俄亥俄州哥伦布市俄亥俄州立大学

Certifications

DECEMBER 2017 - PRESENT

Spark and Hadoop Developer

Cloudera

JANUARY 2016 - PRESENT

Data Science Bootcamp

镀锌|美国加州旧金山

Collaboration That Works

How to Work with Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring