Abdul is available for hire

Abdul Rafey Tahir

Verified Expert in Engineering

Research Engineer and Developer

Location

Lahore, Punjab, Pakistan

Toptal Member Since

July 24, 2022

Abdul Rafey是一位拥有5年行业经验的数据科学家. 他致力于解决具有挑战性的问题并进行数据预处理, analysis, and modeling on big data in eCommerce, healthcare, finance, insurance, and safety and compliance domains. 他精通Python和Pandas等相关数据科学库, NumPy, scikit-learn, PySpark, TensorFlow, Plotly, Seaborn, etc., AutoML frameworks like H2O.ai和推荐系统框架，如RecBole和LightFM.

Algorithms Data Analytics Data Scientist Agile Data Science Artificial Intelligence (AI)Data Scraping Web Scraping Machine Learning Data Analysis Data Queries Data Visualization Big Data Natural Language Processing (NLP)Computer Vision Data Reporting

Portfolio

QPharma, Inc.

亚马逊网络服务(AWS)、大数据、Scala、Python、图论...

Motive

Python，大数据，机器学习，SQL, PySpark, Ruby, Snowflake, Redash...

Ponte Energy Partners GmbH

Amazon SageMaker、AWS CloudFormation、机器学习运营(MLOps)...

Experience

Data Science - 5 years Python - 5 years Git - 5 years Data Analysis - 3 years Machine Learning - 3 years Amazon Web Services (AWS) - 3 years SQL - 3 years PySpark - 2 years

Availability

Part-time

Preferred Environment

Data Science, Machine Learning, Big Data, Python, Pandas, Scikit-learn, Amazon Web Services (AWS), Deep Learning, Data Analysis, Forecasting, NumPy

The most amazing...

...我为Motive公司做了一个实时碰撞检测系统利用传感器数据.该公司是硅谷一家价值数十亿美元的初创公司.

Work Experience

Senior Data Scientist

2022 - PRESENT

QPharma, Inc.

开发大数据分析管道，根据转诊和处方数据识别地方和国家层面的医疗保健专业领导者. 这些都提供给制药客户，以最大限度地提高新品牌和现有品牌的市场渗透率.
为Twitter和YouTube开发社交媒体抓取工具，以评估医疗保健提供者的社交媒体影响力. 这些数据经过预处理并馈送到一个新的分析管道，该管道为制药客户识别特定医学领域的关键意见领袖.
负责将现有代码库从Scala转换为PySpark，以便与现有Python模块更好地集成，并且与Scala相比，在许多功能块中更快地执行代码.

Technologies: 亚马逊网络服务(AWS)、大数据、Scala、Python、图论, Artificial Intelligence (AI), PySpark, Machine Learning Automation, Amazon Machine Learning, Machine Learning Operations (MLOps), SQL, Git, Large Data Sets, Data Scientist, Data Gathering, Data Scraping, Web Scraping, AWS CloudFormation, Identity & Access Management (IAM), AWS CodeBuild, Amazon EC2, Amazon S3 (AWS S3), Sentiment Analysis, Agile Data Science, MySQL, NumPy, Pandas, ChatGPT, Large Language Models (LLMs), DevOps, Docker, CI/CD Pipelines, Data Versioning, ETL Tools, CSV, APIs

Data Scientist

2021 - PRESENT

Motive

为总部数十亿美元的初创公司Motive开发了一种不安全驾驶检测算法. It detects unsafe acceleration, brake, 客户车队的卡车司机使用传感器数据生成拐角事件，用于驾驶员培训.
使用大量传感器数据为Motive的安全产品训练实时碰撞检测ML模型. The system saves event and video data, 在几分钟内通知当局并帮助拯救生命, exonerate drivers, and reduce insurance liability.
与Motive的嵌入式团队合作建立了一个平滑算法，以提高客户车辆中电子记录设备的原始传感器数据的质量, 将系统捕捉硬事件的精度提高40%.

Technologies: Python，大数据，机器学习，SQL, PySpark, Ruby, Snowflake, Redash, Amazon Web Services (AWS), Microsoft Excel, Spark SQL, Data Queries, Tableau, Data Visualization, Data Science, Statistics, Predictive Modeling, Predictive Learning, ETL, Signal Processing, Artificial Intelligence (AI), Data Reporting, Data Analytics, Data Engineering, Cloud, Jupyter Notebook, XGBoost, Data Cleaning, AI Design, Automation, Task Automation, AWS Fargate, Graphs, Classification, Data Pipelines, Jupyter, Amazon SageMaker, Machine Learning Automation, Machine Learning Operations (MLOps), Git, Docker, Large Data Sets, Unstructured Data Analysis, Data Scientist, Data Gathering, Amazon SageMaker Pipelines, AWS CodePipeline, Computer Vision, Amazon EC2, Amazon S3 (AWS S3), APIs, PostgreSQL, Neural Networks, Agile Data Science, MySQL, NumPy, Pandas, 生成式人工智能(GenAI), DevOps, CI/CD Pipelines, Data Versioning, CSV

ML Engineer

2023 - 2023

Ponte Energy Partners GmbH

开发AWS Sagemaker管道以支持培训, processing, batch transformation, 以及用于预测公司可再生能源交易平台价格变化的ML模型的推理功能.
重组了大部分代码库, 为本地模型执行设置调试配置, 优化的CI/CD脚本和一些功能，用于高效的数据加载和处理, 包括清单文件和属性文件的使用.
使用了一堆新工具，如Typer用于有效解析CLI参数，contextlib用于在执行管道时将依赖轮构建为后台进程.

Technologies: Amazon SageMaker、AWS CloudFormation、机器学习运营(MLOps), Machine Learning, Identity & Access Management (IAM), AWS CodeBuild, AWS CodePipeline, Amazon SageMaker Pipelines, Data Versioning, ETL Tools, CSV

Data Scientist

2023 - 2023

Neyl Skalli

为Transfermarkt开发了一个网页抓取器.com to scrape data for soccer players. 成功构建并部署在AWS Glue上，用于抓取2年的数据,000+ teams (more than 60,000 players).
利用抓取数据训练无监督机器学习模型, specifically K-Medoid clustering, 根据球员的统计数据进行有效的分组, rankings, and valuation.
在将训练好的模型集成到客户平台中发挥了关键作用, 允许用户根据他们的搜索查询获得前5名最相似的球员.

Technologies: Python, Web Scraping, Data Scraping, Unstructured Data Analysis, Data Scientist, Data Gathering, Amazon EC2, Amazon S3 (AWS S3), NumPy, Pandas, CSV

Data Scientist

2020 - 2021

CUNA Mutual Group

开发了一个机器学习模型，根据三年的历史数据或销售额，预测哪些保险顾问在接下来的12个月内无法销售产品. 在Azure云上训练和部署模型.
以1990年以来的历史数据为基础，建立了预测与该公司有业务往来的信用社在新冠疫情爆发后的两年内能够生存的模型.
根据保险顾问在过去四个季度的表现，根据加权平均度量模型开发了一种算法，对保险顾问的表现进行评分，以确定最佳, medium, and low-performing advisors.

Technologies: Python, Data Analysis, Machine Learning, Time Series Analysis, Microsoft Excel, Data Queries, Statistical Modeling, Azure, Data Science, Statistics, Predictive Modeling, Predictive Learning, ETL, Data Reporting, Data Analytics, SQL Server 2016, Statistical Analysis, R, Google Cloud Platform (GCP), Cloud, Risk Analysis, Jupyter Notebook, XGBoost, Agent-based Modeling, Data Cleaning, AI Design, API Integration, Automation, Task Automation, Graphs, Classification, Text Classification, Financial Modeling, Jupyter, Git, Unstructured Data Analysis, Data Scientist, Data Scraping, Web Scraping, PostgreSQL, Recurrent Neural Networks (RNNs), Neural Networks, Sentiment Analysis, Agile Data Science, MySQL, NumPy, Pandas, Stock Trading, CSV, Excel 365

Data Scientist

2019 - 2020

Foot Locker

根据过去三个季度的数据，建立了一个机器学习模型，预测下一季度公司忠诚度计划中的客户级别变化(升级和降级)，并提供奖励，作为客户保留政策的一部分.
Performed RFM (recency, frequency, 以及货币价值)分析Foot Locker的客户，从而将更频繁和高消费的客户与其他客户区分开来. 其目的是为个性化推荐系统奠定基础.
是Foot Locker客户流失预测项目的一部分吗. 与忠诚度计划一样，该公司想要确定哪些客户会流失. 根据前三个季度的数据，这一标准被设定为一个季度没有支出.

Technologies: Databricks, Python, PySpark, Machine Learning, Data Analysis, Data Visualization, Forecasting, Data Science, Statistics, Predictive Modeling, Predictive Learning, ETL, Data Analytics, SQL Server 2016, Cloud, Jupyter Notebook, Amazon SageMaker, Data Cleaning, API Integration, Automation, Graphs, Classification, Text Classification, Financial Modeling, Jupyter, Git, Data Scientist, eCommerce, Sentiment Analysis, Agile Data Science, NumPy, Pandas, CSV

Research Associate

2018 - 2018

国立计算机与新兴科学大学

参与研发道路异常检测的全年项目.e.、坑洞、人孔、减速装置、猫眼和隆隆声条. 智能手机传感器用于在城市中行驶数小时收集数据.
利用在研究中训练的模型，构建了一个众包应用程序来绘制城市间的道路异常，让用户避免使用高异常的路线. 随着时间的推移，该模型被重新训练，以提高对道路异常的预测.
在2018 IEEE智能汽车研讨会(第四届)会议上发表研究论文《欧博体育app下载》."

技术:人工智能(AI), Research, Machine Learning, Data Analysis, Computer Vision, TensorFlow, Sensor Fusion, Data Science, Predictive Modeling, Predictive Learning, Jupyter Notebook, Data Cleaning, Graphs, Classification, Jupyter, OCR, CSV

Experience

预测Foot Locker美国客户忠诚度计划的客户忠诚度状况

Foot Locker USA有一个广泛的忠诚度计划，根据顾客的消费来奖励他们. 他们有三种基于启发式的客户类别:
• X1: VIP customers
X2:普通顾客(合理消费)
• X3: low-spending customers

该项目涉及建立一个机器学习模型，根据过去八个季度的数据，预测哪些客户会在下个季度改变他们的类别，哪些不会.

我使用pandas对2019年第一季度到2020年第四季度的数据集进行了清理和准备，用于特征工程. 目标变量class_change来自2021年第一季度数据. 对于在此期间类别发生变化(升级或降级)的客户，将其设置为1，对于没有发生变化的客户，将其设置为0. 测试设定的目标变量来自2021年第二季度. 在从数据中生成季度特征(包括网站访问量)之后, orders placed, items checked out, items viewed, the amount spent, 其他会话数据和购物历史-使用scikit-learn训练随机森林分类器. 该模型在测试集上表现相当好，召回率为0.62 and a precision of 0.87. It was then deployed on Azure.

YouTube评论分类内容创作者

http://github.com/abdulrafeytahir/Youtube-Comment-Classification

这个想法是为YouTube内容创作者创建一个应用程序，过滤掉观众在评论区对新内容的请求. 这将有助于他们创造观众需要观看的内容.

There project involved:

• Data collection. 我使用Python和Selenium开发了一个scraper, crawled many channels, 然后收集每个视频的前100条评论. 客户有一个注释团队，他们注释了大约100个,000 comments, of which there were roughly 10,000 requested comments.

• Model training. 数据集非常不平衡，所以我将负类数据点降采样到30,000. 然后我使用Pandas和NLTK应用了基本的文本预处理技术, such as special character removal, lowercase alphabets, text tokenization, and stemming. Also, 我在scikit-learn中使用TF-IDF矢量化生成了简单的基于频率的特征，并训练了一个支持向量机(SVM)模型. 在验证集上达到了83%的召回率和91%的准确率.

• Inference and optimization. 我用我的抓取器抓取了更多的网站，并对抓取到的评论进行了推断. Since the goal was high precision, 我们把这些事件归类为请求, annotated them again, and retrained the model.

LLM-based Meeting Minutes Generation

我和我的团队开发了一个基于法学硕士的会议记录生成模型, which was trained on 1,000 meeting videos scraped from YouTube. 第一部分涉及音频/视频到文本的转录，为此我们使用了Meta的Whisper模型. Once the transcript was generated, 我们使用Llama 2创建抄本的摘要，然后使用该摘要以项目符号和流程图的形式生成会议纪要.

我们使用GCP进行培训，使用Tesla A100进行培训工作. 对于推理，我们使用了P100 GPU，它在我们的应用范围内工作得非常好. 我们还构建了一个Flask应用，它被容器化并部署在GCP上. 这些模型被部署为API端点，并由应用程序使用.

电子商务系统的推荐系统和客户流失报告

使用“来自多类别商店的电子商务行为数据”，拥有2.85亿用户. 对数据进行RFMV分析，从其他客户中分离出更频繁和高消费的客户. 然后，我使用LightFM库训练基于购买数据的深度学习推荐模型. 在会话数据上训练了一个来自RecBole库的SRGNN深度学习模型. 结合两种模型的预测能力以获得更好的推荐. 除了推荐系统, the focus was on churn reporting, 特别是对于频繁光顾的高消费客户. 目标是通过提出个性化的营销策略来留住这些客户.

Skills

Languages

Python, SQL, R, Snowflake, c++， Ruby, C, Scala

Libraries/APIs

Pandas, NumPy, Scikit-learn, PySpark, Matplotlib, XGBoost, LSTM, Keras, TensorFlow, PyTorch

Tools

Git, Microsoft Excel, Spark SQL, Amazon SageMaker, Jupyter, AWS CloudFormation, Redash, Tableau, AWS Fargate, AWS CodeBuild

Paradigms

数据科学、ETL、自动化、基于代理的建模、DevOps、商业智能(BI)

Platforms

Amazon Web Services (AWS), Jupyter Notebook, Amazon EC2, Google Cloud Platform (GCP), Docker, Azure, Databricks

Storage

SQL Server 2016, Amazon S3 (AWS S3)， PostgreSQL, MySQL，数据管道，数据库

Other

Machine Learning, Data Analysis, Algorithms, Big Data, Natural Language Processing (NLP), Artificial Intelligence (AI), Data Scraping, Time Series Analysis, Data Queries, Web Scraping, Data Visualization, Computer Vision, Statistics, Predictive Modeling, Predictive Learning, Data Reporting, Data Analytics, Data Engineering, Statistical Analysis, Data Cleaning, AI Design, API Integration, Task Automation, Graphs, Classification, Financial Modeling, Machine Learning Operations (MLOps), Large Data Sets, Unstructured Data Analysis, Data Scientist, Data Gathering, APIs, Recurrent Neural Networks (RNNs), Neural Networks, eCommerce, Sentiment Analysis, Agile Data Science, Stock Trading, Data Versioning, CSV, Statistical Modeling, Cloud, Risk Analysis, GPT, 生成预训练变压器(GPT), Text Classification, Machine Learning Automation, Amazon Machine Learning, Amazon SageMaker Pipelines, OCR, ChatGPT, 生成式人工智能(GenAI), Large Language Models (LLMs), CI/CD Pipelines, BERT, ETL Tools, Excel 365, Data Structures, Deep Learning, Forecasting, Churn Analysis, Recommendation Systems, Sensor Fusion, Signal Processing, Research, Language Models, Graph Theory, Identity & 访问管理(IAM)， AWS CodePipeline，拥抱脸，Llama 2，文本摘要

Education

2020 - 2022

Master's Degree in Data Science

巴基斯坦拉合尔国立计算机与新兴科学大学

2014 - 2018

Bachelor's Degree in Computer Science

巴基斯坦拉合尔国立计算机与新兴科学大学

Certifications

MARCH 2019 - PRESENT

Neural Networks and Deep Learning

Coursera