Matthew is available for hire

Matthew Alhonte

Verified Expert in Engineering

数据科学家和开发人员

Location

纽约，纽约，美国

Toptal Member Since

August 21, 2018

Matt has officially worked as a Python-based data scientist for the past six years; however, 在过去的十年里，他一直在研究统计学和编程的交叉领域(在数据科学家这个术语流行之前)。. 他将强大的技术技能与实验设计和统计推断的严格背景相结合. More recently, 他一直专注于机器学习, 包括一些自然语言处理和计算机视觉.

Data Visualization Machine Learning Python Pandas SQL NumPy Jupyter 亚马逊网络服务(AWS)Agile Keras NoSQL Snowflake 统计数据分析探索性数据分析 Statistical Analysis

Portfolio

Ophidian Scientific

亚马逊网络服务(AWS)， PostgreSQL, Keras, XGBoost, Random Forests, Spark...

Birch Infrastructure

谷歌云平台(GCP)， BigQuery, Data Build Tool (dbt)， Prefect, Python...

科罗拉多大学数据分析办公室

亚马逊网络服务(AWS)， XGBoost，随机森林，实验设计...

Experience

Statistics - 11 years 数据可视化- 11年 Python - 6 years Pandas - 5 years SQL - 5 years 机器学习- 5年函数式编程- 4年 Scikit-learn - 3 years

Availability

Part-time

Preferred Environment

PyCharm, Git, Spacemacs, Visual Studio Code (VS Code)， jupiter

The most amazing...

...我所做的是对一个包含电生理学读数的未记录文件格式进行逆向工程.

Work Experience

数据科学顾问

2013 - PRESENT

Ophidian Scientific

协助众多小客户处理数据相关工作, 从数据科学到分析, data engineering, 机器学习工程.
在Python、Dask和Prefect中设计和构建ETL管道.
监督Google Sheets和Airtable之间的迁移. Airtable自动化是用Python执行的.
在Python中使用运筹学库来优化体育博彩网站FanDuel的团队.
为基于金融的出版物的文章归档构建了自然语言处理(NLP)分类器.

技术:亚马逊网络服务(AWS)， PostgreSQL, Keras, XGBoost, Random Forests, Spark, Database Design, Experimental Design, Clojure, Docker, Jupyter, Time Series, Pandas, SQL, Machine Learning, 生成预训练变压器(GPT), 自然语言处理(NLP), GPT, Operations Research, Data Visualization, ETL, 科学数据分析, Data Engineering, Data Science, Python

Data Scientist & Data Architect

2021 - 2021

Birch Infrastructure

协助为一家公用事业规模的可再生能源和数据中心公司设计数据基础设施.
用Prefect创建数据管道, 主要是将谷歌云功能和云运行任务拼接在一起.
使用dbt管理BigQuery数据仓库，制作表模式和转换.
设置数据基础设施(包括Prefect和dbt).

技术:谷歌云平台(GCP)， BigQuery, Data Build Tool (dbt)， Prefect, Python, Serverless

Senior Data Scientist

2018 - 2019

科罗拉多大学数据分析办公室

执行统计分析和建模，以支持学生的成功，并在大学数据分析办公室的重组期间帮助建立实践.
使用Jupyter和Zeppelin创建并向高级管理人员展示结果和可视化.
开发了一个基于蒙特卡罗模拟的模型来预测每个学期的学生保留率.
建立了学生不当行为后再犯的贝叶斯模型.
用XGBoost模拟不同类型财政援助的效果.
用scikit-learn和Keras创建了一个模型来预测学生的gpa.
在大学数据分析办公室的重组过程中帮助建立实践.

Technologies: 亚马逊网络服务(AWS)， XGBoost，随机森林，实验设计, Data Visualization, Time Series, SQL, Data Science, Machine Learning, Oracle Database, Zeppelin, Jupyter, Keras, PySpark, Scikit-learn, Pandas, Python

Data Engineer

2017 - 2018

NOMI Beauty

为一家初创公司设计并构建了数据基础设施，使其更容易预订头发&-在酒店房间预约化妆.
用Spark, Kafka和Cassandra构建了一个大数据管道.
在Tableau中为运营团队构建数据仪表板.
为从Typeform的API到MySQL的调查数据设计一个ETL.
在Jupyter笔记本中创建报告，使用Python与Altair和Seaborn进行数据可视化.
在MySQL中设计并实现了一个数据库模式.
使用Python设计并支持从Couchbase到MySQL的ETL.

技术:亚马逊网络服务(AWS), Spark, Database Design, Data Visualization, SQL, Jupyter, Simulations, Cassandra, Apache Kafka, PySpark, MySQL, Pandas, Python

数据科学和区块链集成顾问

2017 - 2017

Tanktwo, Inc.

为管理物联网设备及其生成的数据构建了基于区块链的解决方案.
使用Hyperledger创建一个潜在网络的演示.
使用Python模拟了一个私有区块链网络.
帮助向寻求投资的风险资本家展示了一个演示.
研究区块链的最佳实现，以满足业务需求.

技术:亚马逊网络服务(AWS), Jupyter, Data Visualization, Time Series, Hyperledger, Pandas, Python

数据科学顾问

2014 - 2017

特种外科医院

在神经病学实验室研究数据科学课题，研究术中神经生理监测(IONM) -在手术过程中监测肌肉和神经以防止损伤.
逆向工程一个包含生物信号数据的未记录文件格式.
尝试使用Scikit-learn将神经传导读数分类为指示损伤或麻醉反应.
可视化的生物信号数据与Plotly和呈现的结果.
研究了手术期间神经传导读数的Higuchi分形维数作为评估潜在损伤的手段.
使用Python数据套件(NumPy, Pandas和SciPy)分析生物信号数据.

技术:实验设计, Data Visualization, Time Series, Data Science, Machine Learning, Scikit-learn, PyEEG, Jupyter, Plotly, SciPy, Pandas, NumPy, Python

自然语言处理顾问

2015 - 2015

纽约市行政服务部

用Python抓取pdf文件，帮助将出版物《欧博体育app下载》(the City Record)的旧目录数字化.
帮助设计条目的模式(例如提取地址).
创建数据清理机制，以标准化来自100多个城市机构以不同格式报告的条目.
使用Python和NLTK对长达一个世纪的出版物语料库执行探索性自然语言处理(NLP).
致力于将管道集成到他们的MS Access中.

Technologies: Jupyter, Data Visualization, Data Science, Machine Learning, Python, 自然语言工具包(NLTK)

整合与发展顾问

2013 - 2014

宽频科技组

为数字化视频档案提供基于计算机视觉的协助.
使用OpenCV和Python标记损坏的视频区域.
实现Python自动修复某些类型的损坏视频.
帮助构建一个Android应用程序，为现场表演提供同步字幕.
与朱庇特一起准备演讲.

技术:Jupyter，数据可视化，OpenCV, Python

Research Assistant

2008 - 2013

Hunter College

设计并验证了一种新的心理测量量表.
在SPSS中分析调查数据.
在研究会议上发表研究成果.
毕业后与实验室保持良好关系, 最终从数据分析转向Python.
致力于旧数据的发布.

技术:实验设计，数据可视化，数据科学，SciPy, Python, SPSS

暑期研究助理

2009 - 2010

耶鲁大学医学院

设计并指导了一项小型研究，调查最后通牒游戏中的精神病特征和行为.
Analyzed GSR data.
通过演示和DMDX对研究参与者进行基于计算机的任务.
分析来自调查和计算机任务的数据.
建立并维护参与者数据库.

技术:实验设计、数据可视化、数据科学、DMDX、SPSS

Experience

2018春季复杂性挑战

http://github.com/mattalhonte/sfi-challenge

我在圣达菲研究所举办的2018年春季复杂性挑战赛中的参赛作品.

Graph Theory Notes

这是我写的一些代码，用来帮助我理解算法信息论在线课程的图论部分.

Binary Grid Search

http://hackersandslackers.com/tuning-machine-learning-hyperparameters-with-binary-search/

在这里，我正在尝试使用二分搜索来调整Scikit-learn中机器学习模型的超参数.

将低基数列重铸为分类

http://hackersandslackers.com/recasting-low-cardinality-columns-as-categoricals-2

一个关于在Pandas中使用分类变量节省内存的简短教程. 它包括一个代码片段，用于获取数据帧并将低基数列重新转换为分类.

删除Pandas中的重复列

http://hackersandslackers.com/remove-duplicate-columns-in-pandas

关于在Pandas中查找和删除重复列的简短教程.

使用Pandas向下转换数值数据类型

http://hackersandslackers.com/downcast-numerical-columns-python-pandas/

关于通过将Pandas列向下转换为尽可能小的数字表示来节省内存的简短教程.

使用AWS SageMaker进行情绪分析

http://github.com/mattalhonte/sagemaker-deployment/tree/master/Project

使用SageMaker版本的XGBoost对电影评论进行正面或负面分类.

Epilepsy Classifier

http://github.com/mattalhonte/epilepsy-classifier

Udacity机器学习工程师纳米学位的顶点项目.

Python to Rust

在Python中训练机器学习模型的简短演练, 导出一个模型工件, 并在Rust中提供预测. 它被接受为一个名为“tract”的相关Rust crate的官方文档."

使用Pandas拆分列

http://hackersandslackers.com/splitting-columns-with-pandas/

我写过一篇教程，介绍如何使用嵌套数据拆分Pandas列.

Skills

Languages

Python 3, Python, SQL, Snowflake, Clojure, Rust

Libraries/APIs

Pandas, Scikit-learn, TensorFlow深度学习库(TFLearn), XGBoost, NumPy, Keras, Dask, SciPy, OpenCV, 自然语言工具包(NLTK), PySpark, TensorFlow

Tools

DataViz, Jupyter, Spacemacs, PyCharm, SPSS, Plotly, DMDX, Git, Amazon SageMaker, BigQuery

Paradigms

数据科学，数据库设计，敏捷，函数式编程，ETL

Platforms

Jupyter Notebook, 亚马逊网络服务(AWS), Docker, Hyperledger, Oracle Database, Linux, Zeppelin, Apache Kafka, 谷歌云平台(GCP), Visual Studio Code (VS Code)

Other

Data, 统计数据分析, 探索性数据分析, 非结构化数据分析, Complex Data Analysis, Statistical Methods, Statistical Modeling, 统计预测, Statistical Analysis, 统计显著性, Random Forests, 随机森林回归, Experimental Design, Time Series, Machine Learning, Predictive Modeling, Data Visualization, Data Analysis, Data Analytics, Statistics, 计算统计数据, Bayesian Statistics, 统计编程, 亚马逊机器学习, Tf-idf, 卷积神经网络, 方差分析(ANOVA), Dashboards, Analytical Dashboards, Data Build Tool (dbt), Deep Learning, 自然语言处理(NLP), Mathematical Modeling, Data Engineering, GPT, 生成预训练变压器(GPT), Operations Research, Simulations, PyEEG, 科学数据分析, Prefect, Serverless

Storage

数据库，NoSQL, Cassandra, PostgreSQL, MySQL

Frameworks

Spark

Education

2006 - 2012

心理学学士学位

亨特学院-纽约，纽约，美国

Certifications

JANUARY 2020 - PRESENT

机器学习工程师纳米学位

Udacity