印度马哈拉施特拉邦孟买的开发商Utkarsh Dalal
Utkarsh is available for hire
Hire Utkarsh

Utkarsh Dalal

Verified Expert  in Engineering

Big Data Developer

Location
孟买,马哈拉施特拉邦,印度
Toptal Member Since
June 3, 2019

Utkarsh目前是一名全职自由开发者, 数据工程专业, scraping, 以及后端开发. Before this, 他曾在布鲁金斯学会印度中心和硅谷一家名为AutoGrid的清洁技术初创公司担任数据科学家和研究员. Utkarsh has a degree in computer science and political economy from UC Berkeley; he has extensive experience with Python, AWS, big data, 喜欢有社会影响的有趣项目.

Portfolio

思想领袖(通过Toptal)
Django,芹菜,Amazon S3 (AWS S3), AWS Lambda, Amazon Kinesis,架构...
Hoomi (total client)
Amazon DynamoDB, AWS Lambda, AWS Amplify, Amazon Cognito, Amazon API Gateway...
保密保密协议(客户总数)
Plotly, Heroku, Stitch Data, MongoDB, BigQuery

Experience

Availability

Part-time

首选的环境

RubyMine, PyCharm, GitHub, MacOS, Linux

The most amazing...

...我参与的项目是为印度创建一个实时碳排放追踪器, 印度政府现在用它来做规划.

Work Experience

技术主管和全栈开发人员

2021 - PRESENT
思想领袖(通过Toptal)
  • 担任过全栈开发人员和技术主管, 使用Django在平台上实现了几个新特性, AngularJS, Heroku, 和AWS,加强数据收集工作,指导其他团队成员.
  • 向平台添加了新的格式, including Twitch, 并设计了流程,以增强YouTube和播客数据的自动抓取,同时减少API的使用.
  • 在Postgres数据库中设计了几个新表,并广泛使用Elasticsearch来查询和存储数据.
  • 开发了一个经济有效的解决方案,使用Zapier为播客生成文本, Celery, and AWS.
  • 通过优化Lambda使用,每月减少约70%的AWS成本, S3 storage, 去除冗余过程.
  • 优化的Heroku dyno使用,减少预算,防止潜在的成本增加100%. 此外,当Heroku和GitHub之间发生安全事件时,还处理了几个库的升级和基础设施的迁移.
  • 设计和开发授权后端,并通过BlueSnap将应用程序与支付网关集成.
  • 创建了几个预测和自动化功能, 减轻公司其他垂直部门员工的负担.
  • 使用AWS Kinesis Firehose、SNS、SQS、Lambda和S3设计端到端数据管道.
  • 在S3中集成了AWS Athena和现有的JSON数据湖, 允许查询非结构化数据.
技术:Django,芹菜,Amazon S3 (AWS S3), AWS Lambda, Amazon Kinesis,架构, Elasticsearch, Heroku, Python 3, Node.js, PostgreSQL, PyCharm, AngularJS, API, YouTube API,抓取,Cron,成本降低 & 优化、BlueSnap、AWS简单通知服务(SNS)、Amazon简单队列服务(SQS)

Back-end Developer

2020 - 2021
Hoomi (total client)
  • 设计和创建基础设施, databases, 以及使用DynamoDB的烘焙食品配送应用程序的api, Lambda, API Gateway, 以及Python和AWS Cognito进行身份验证.
  • 使用AWS Cognito和React为面包店创建了一个订单管理前端系统, 使用我编写的api连接到DynamoDB数据库.
  • 在DynamoDB中使用地理库,允许按位置进行索引和排序, 允许api按距离返回面包店.
  • 利用DynamoDB中的本地二级索引按各种属性进行索引和排序, such as rating, price, distance, etc.
  • 为客户和烘焙应用程序创建各种api, 正确处理身份验证, order histories, order statuses, etc.
技术:Amazon DynamoDB, AWS Lambda, AWS Amplify, Amazon Cognito, Amazon API Gateway, Geolocation, Databases, User Authentication, Python, Serverless, React

数据仓库开发人员

2020 - 2020
保密保密协议(客户总数)
  • 使用Heroku上的MongoDB数据库作为数据源,使用Stitch data作为ETL工具,在BigQuery中设计并开发了一个带有非规范化表的生产数据仓库.
  • 使用Stitch Data每六小时从MongoDB中抽取一次, 确保只包含最近更新的数据.
  • 创建定时查询,在从MongoDB提取数据后,在BigQuery中连接和加载数据到非规范化表.
  • 使用Plotly和Jupyter Notebooks从BigQuery数据中创建图形和地理空间图,为客户演示.
  • 为将来从事该项目的开发人员提供设置和查询BigQuery的完整文档说明.
  • 研究将Google Analytics集成到BigQuery中,以跟踪从获取开始的客户生命周期.
  • 在非规范化的BigQuery表上创建视图,使用户可以方便地查看数据库的最新状态.
  • 与QA紧密合作,开发端到端测试数据仓库, 从自动提取到加载和视图.
技术:Plotly, Heroku, Stitch Data, MongoDB, BigQuery

Founder

2020 - 2020
Firmation
  • 创立了一家法律科技初创公司,帮助印度律师自动化计时和计费, 节省他们的时间,增加他们的收入. 领导产品开发、销售、营销和开发.
  • 构建了一个Azure应用程序,与OneDrive中的律师事务所时间表集成, and automatically generate invoices from them; used Oauth 2, Microsoft Graph API, and Pandas.
  • 使用Oauth 2和Microsoft Graph API构建一个Azure应用程序,该应用程序通过读取律师的Outlook电子邮件和日历,自动生成可计费工作的摘要.
  • 通过Oauth 2、Gmail API和Google Calendar API将此功能扩展到Google帐户.
  • 创建了带有API Gateway端点的AWS Lambda函数,最终用户可以访问这些端点来生成发票和可计费工作的摘要.
  • 使用AWS SES将发票和可计费的工作摘要在生成时交付给律师.
  • 给潜在客户打电话,发邮件, 向几个潜在用户演示了我们的产品, 并成功建立客户使用该产品.
  • 设计一个网站,并使用谷歌广告处理市场营销.
  • 写了一个Python脚本来自动联系LinkedIn上的潜在线索.
自动化技术:, REST APIs, Google Analytics, Google Ads, OneDrive, Google APIs, Microsoft Graph API, Pandas, Amazon Simple Email Service (SES), Amazon S3 (AWS S3), AWS Lambda, OAuth 2, Python

Scraping Engineer

2019 - 2020
Tether Energy
  • 编写Bash和SQL脚本,在cron作业上运行,从纽约ISO网站下载数据,并使用Presto和Hive将其上传到Tether的数据仓库.
  • 创建脚本自动获取巴西消费者的电费数据,然后使用JavaScript将其上传到S3存储桶, Puppeteer, and AWS.
  • 使用JavaScript和2captcha自动解决验证码.
  • 开发Python脚本,从各种格式的PDF电费账单中抓取数据,然后使用Tabula和Pandas将其上传到内部服务.
  • 使用Pytest实现了一个健壮的回归测试框架,以确保正确抓取pdf.
  • 通过使用Ruby on Rails添加新的端点和模型来增强内部API.
  • 通过添加一个可以运行方法的JSON调度,改进了内部cron服务.
  • 增加了关于如何在本地设置和测试各种内部服务的文档.
技术:自动化,Apache Hive, Presto DB, Pandas, Ruby on Rails (RoR), Puppeteer, Node.js, JavaScript, SQL, Python

数据科学顾问

2019 - 2020
布鲁金斯学会印度中心
  • 使用Python在Redshift中创建了一个数据仓库,其中包含一个大型印度州的一分钟分辨率需求数据, Pandas, and EC2. 数据大约是6 TB的列格式 .XLS文件压缩为 .rars.
  • 在使用Vue的碳追踪器上为印度建立了实时碳排放追踪器.. js、Plotly、AWS S3、Route 53和Cloudfront.
  • 《欧博体育app下载》对他的成就进行了专题报道.
  • 使用Python为碳追踪器收集数据, BeautifulSoup, 和一个数字海洋小水滴, 将其存储在Lambda API使用的RDS实例中.
  • 用Scikit-learn创建了一个机器学习模型, Python, 通过Redshift仓库的数据训练,来预测印度一个大邦的每日电力需求.
  • 开发Python脚本,使用Selenium和Pandas从印度各邦政府网站上抓取住房数据.
  • 使用AWS Lambda为碳排放跟踪器构建API, AWS API Gateway, Python, 以及一个AWS RDS MySQL实例,用于提供实时生成数据和各种统计数据.
自动化技术:, REST APIs, 亚马逊网络服务(AWS), Selenium, Beautiful Soup, Amazon Route 53, Amazon CloudFront CDN, Droplets, DigitalOcean, Amazon EC2, Amazon S3 (AWS S3), Scikit-learn, AWS Lambda, Redshift, Pandas, Python

高级软件工程师

2014 - 2018
AutoGrid系统公司.
  • 领导一个陆上和海上的工程团队,并使用敏捷推动产品特性的及时开发和部署.
  • 使用Ruby on Rails在AutoGrid的应用程序套件中实现了几个特性, MySQL, RSpec, Cucumber, Python, and Nose Tests.
  • 创建了PySpark作业来汇总每日和每月的用电量报告,以便通过AutoGrid的客户门户使用HBase查看, Redis, and RabbitMQ.
  • 使用Hive、HBase、Oozie设计并开发了一个数据仓库供客户使用. 该数据仓库用于取代AutoGrid完成的所有自定义内部可视化.
  • 构建了一个API端点,允许最终用户使用Ruby on Rails和Twilio通过SMS选择退出需求响应事件.
  • 优化了SQL查询,减少了40%的时间,使UI中的加载速度更快.
  • 设计了一个消息传递微服务来发送和跟踪电子邮件, SMS, 以及通过Twilio和SendGrid打电话.
技术:REST api, Docker, Kubernetes, YARN, Apache Kafka, RabbitMQ, Celery, Resque, Redis, HBase, Apache Hive, Spark, Python, Ruby on Rails (RoR), Ruby

布鲁金斯学会印度电力和碳追踪系统

http://carbontracker.in
为印度创建了一个近乎实时的电力和碳追踪系统,用于政策分析. 跟踪器的数据不断从功绩印度刮来.存储在AWS RDS实例中,并通过使用AWS Lambda的API提供给网站. 该网站本身使用Vue.js and plotly.js. 华尔街日报- http://www刊登了这篇文章.wsj.com/articles/solar——权力——是——开始——eclipse -化石燃料——11581964338?mod=hp_lead_pos5

确认时间跟踪器

为印度律师创建了一个时间跟踪工具,帮助印度律师更快地填写时间表,并确保他们不会忘记他们所做的任何可计费的工作. 该工具集成了Outlook/Google电子邮件和日历, as well as OneDrive, using OAuth, 向用户提供他们通过解析电子邮件所完成的工作的摘要, 处理的日历事件和文件.

成功在两家中型律师事务所试用该工具, 并不断改进以满足客户需求.

领导产品的设计、开发、销售和市场推广.

使用AWS Lambda和API Gateway作为后端,DynamoDB作为数据库. Also used Python, Pandas, AWS S3, 和SES生成并通过电子邮件向用户发送可计费的工作摘要. 使用AWS Cloudwatch每周自动生成并向用户发送可计费的工作摘要. 使用微软图形API和Gmail和谷歌日历API读取用户数据.

使用谷歌广告和分析向用户销售, Leadpages承载我们的登陆页面, 个人推荐和推销邮件的结合.

Democrafy

创建并发布了一个Android应用程序,通过允许用户发布他们所面临的问题,使管理更负责任, 查看其他用户发布的现有问题, 让民选官员对他们的行为负责.

它使用托管在Heroku上的Ruby on Rails后端,MongoDB作为数据库.

Bombay Food Blog

创建了一个全自动的Instagram页面,用于抓取和转发孟买美食的照片, 注明出处. 使用迁移学习训练神经网络对食物照片进行分类, 并训练了一个随机森林来预测哪些用户可能会关注这个页面. 所有这些都托管在一个EC2实例上.

哈里亚纳邦医疗刮刀

使用Python构建了一个scraper, Pandas, 和Tabula从pdf文件中提取有关印度哈里亚纳邦医生的数据,并绘制有关他们的各种统计数据.

CustomJob

开发了一款Android应用,将买家与当地卖家联系起来. 买家可以邮寄购买他们想要制作的物品, 卖家可以就制作该物品的价格进行竞标. 使用Parse作为数据库和身份验证.

WhatsApp事实核查

创建了一个WhatsApp机器人,它可以众包假新闻的报道,并与文本一起工作, photos, videos and audio. 为此,我使用了Python, Lambda, DynamoDB, API Gateway, Docker, ECR, ECS和S3.
用户可以将可疑的假新闻转发给机器人进行举报, 或者看看有多少其他用户报告了它以及他们报告它的原因.

餐厅预订经理

为餐厅建立预订管理器, 使用React作为前端,使用Firebase作为后端和身份验证.

经理允许餐厅登录, create tables, 创建/编辑保留, 并查看某一天的预订摘要.

Toptal React Academy

Toptal React学院是一个独家学习计划,教React框架选择Toptal网络的成员. 经过一个月的学习, 所有毕业生的任务是完成30-40小时的期末项目,从头开始构建和交付React应用程序. 以上是我期末项目的演练.

Languages

Python, SQL, Ruby, Java, Bash, XML, c++, HTML, CSS, JavaScript, Python 3

Frameworks

Ruby on Rails (RoR), Spark, Apache Spark, OAuth 2, Selenium, YARN, Redux, Flask, Hadoop, Presto DB, Django, AngularJS

Libraries/APIs

REST APIs, Pandas, PySpark, Gmail API, Google Calendar API, Google Apps, 自然语言工具包(NLTK), PiLLoW, React, Scikit-learn, Matplotlib, Instagram API, Selenium WebDriver, Beautiful Soup, Puppeteer, Node.. js, SQLAlchemy, Google API, OneDrive, Resque, React Redux, Vue, Keras, AWS Amplify, YouTube API

Tools

IPython, IPython Notebook, Jupyter, Stitch Data, Microsoft Outlook, Azure App Service, Seaborn, MATLAB, RabbitMQ, SendGrid, Cloudera, BigQuery, GitHub, PyCharm, RubyMine, Amazon Simple Email Service (SES), Google Analytics, Amazon CloudFront CDN, Celery, Plotly, Amazon CloudWatch, Microsoft Excel, LeadPages, Tableau, Looker, Amazon弹性容器服务(Amazon ECS), Amazon Cognito, Cron, AWS简单通知服务(SNS), Amazon Simple Queue Service (SQS)

Paradigms

Automation, ETL, REST, Testing, Automated Testing, Agile, Data Science, 商业智能(BI), Microservices

Platforms

AWS Lambda, 亚马逊网络服务(AWS), Jupyter Notebook, 谷歌云平台(GCP), Amazon EC2, Apache Kafka, Twilio, DigitalOcean, Linux, MacOS, Droplets, Heroku, Firebase, Android, Kubernetes, Docker

Storage

MySQL, PostgreSQL, Redis, 关系数据库, Amazon S3 (AWS S3), Redshift, Apache Hive, HBase, NoSQL, JSON, Amazon DynamoDB, MongoDB, Databases, Elasticsearch

Other

Scraping, Web Scraping, PDF Scraping, Data Scraping, Data Engineering, Big Data, Data Analytics, Data Analysis, Data Warehousing, 数据仓库设计, APIs, Web Crawlers, Microsoft Graph API, Forecasting, Machine Learning, Serverless, Data Visualization, Cloud, Google Ads, Amazon Route 53, OAuth, Google Tag Manager, Image Processing, Time Series, Google BigQuery, Instagram Growth, 自然语言处理(NLP), Statistics, ECS, Amazon API Gateway, Geolocation, User Authentication, Amazon Kinesis, Architecture, Cost Reduction & 优化,BlueSnap, GPT,生成预训练变压器(GPT)

2010 - 2014

计算机科学、政治经济学文学学士学位

加州大学伯克利分校-伯克利,加州

2020年12月至今

总反应学院毕业生

Toptal, LLC

有效的合作

如何使用Toptal

在数小时内,而不是数周或数月,我们的网络将为您直接匹配全球行业专家.

1

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.
2

Choose your talent

在24小时内获得专业匹配人才的简短列表,以进行审查,面试和选择.
3

开始你的无风险人才试验

与你选择的人才一起工作,试用最多两周. 只有当你决定雇佣他们时才付钱.

对顶尖人才的需求很大.

Start hiring