Angel is available for hire

Angel Ruiz Reche

Verified Expert in Engineering

数据科学家和软件开发人员

Location

Barcelona, Spain

Toptal Member Since

January 27, 2021

Angel是一名数据科学家，拥有超过五年的研究和商业经验，对数据充满热情, pattern finding, 建立解决问题的方法. 他非常健谈，积极主动，喜欢每天学习新事物. 他擅长用Python构建完整的解决方案, 从数据解析到创建专门的机器学习模型. So far, 他为银行业的初创公司和大公司做出了贡献, eCommerce, real estate, and bioinformatics.

Predictive Analytics Data Analysis Machine Learning Data Analytics Python Pandas Jupyter Scikit-learn Python 3 SQL Regex Computer Science Algorithms Statistics Data Mining Optical Character Recognition Bioinformatics

Portfolio

Treat Technologies, Inc

Google BigQuery, Python, Data Science, Google Cloud Platform (GCP)， Vertex...

Visibly Works LLC

Python，机器学习，数据科学，数据建模，SQL, NumPy, Matplotlib...

Lurtis Rules

预测分析，OCR, SQL，商业房地产，预测...

Experience

Python - 5 years Pandas - 5 years Bioinformatics - 4 years Statistics - 4 years Data Science - 4 years SQL - 4 years Machine Learning - 4 years 时间序列分析- 3年

Availability

Part-time

Preferred Environment

Regex, Time Series Analysis, NumPy, Visual Studio Code (VS Code), Machine Learning, Bioinformatics, Scikit-learn, Pandas, Python, MacOS

The most amazing...

...我开发的深度学习应用叫做ReorientExpress. 它允许在没有参考的情况下破译基因序列(RNA剪接代码).

Work Experience

Data Scientist

2023 - 2023

Treat Technologies, Inc

使用BigQuery ML创建ML模型，预测客户在与商家第一次互动后重复购买的可能性.
使用谷歌的Vertex AI创建机器学习模型，预测在线买家的估计客户终身价值.
使用Jupyter Notebooks在大数据集上执行详尽的EDA和数据准备, BigQuery, and Google's Dataprep.

Technologies: Google BigQuery, Python, Data Science, Google Cloud Platform (GCP)， Vertex, BigQuery, Machine Learning, Visual Studio Code (VS Code), Visualization, Data Analytics, SQL, Supervised Learning, Google Cloud, Cloud Storage, Google Cloud Functions

数据科学家和机器学习工程师

2021 - 2022

Visibly Works LLC

设计并开发了一个模型，该模型建议在亚马逊上展示哪些广告，以及以何种顺序最大化特定产品的转化率. 它使用了交通、转换、地理和人口数据.
创建了一个模型，根据内容将电子商务广告活动分类, performance, keywords, and more. 这有助于标准化来自不同广告商的广告活动，并根据他们的目标提高他们的表现.
建立一个预测当天活动支出的管道，用于预测活动何时将耗尽预算并建议新的预算, 还有潜在的流量和转化率损失.
开发了一款生成合成广告数据的应用. 可以将这些数据显示给潜在客户，以在不暴露私有数据的情况下展示产品.
创建了一个工具，定期运行我们所有客户的数据库，发现潜在的错误条目. 这有助于管理数据库并增加与客户的信任.
建立一个模型，根据目标产品建议在广告活动中包含哪些关键字, past performance, 以及出价多少才能达到一个特定的目标.
创建了一个网络抓取工具来提取亚马逊的产品类别. 它处理嵌套的链接并跟踪已经访问过的链接. 输出结果保存到Excel文件中.

Technologies: Python，机器学习，数据科学，数据建模，SQL, NumPy, Matplotlib, Scikit-learn, Jupyter, eCommerce, PostgreSQL, Statistics, Supervised Learning, Unsupervised Learning, Elasticsearch, Amazon Athena, Bitbucket, APIs, Forecasting, Amazon Web Services (AWS), Google Cloud, ETL, Web Scraping, Google Cloud Platform (GCP), Python 3, Data Analysis, REST APIs, Visual Studio Code (VS Code), Regex, Algorithms, Git, Text Classification, Neural Networks, TensorFlow, Jupyter Notebook, Visualization, Data Analytics, 自然语言处理(NLP), GitHub, MongoDB, MySQL, Time Series, Deep Neural Networks, Data Mining, Pandas, AWS Lambda, Web Crawlers

Lead Data Scientist

2020 - 2021

Lurtis Rules

开发了几个用于解析、结构化和分析商业房地产数据的管道. 使用数据和分析构建基于机器学习的预测和预测工具，以最大限度地提高投资者的收益.
创建了几个机器学习模型，帮助投资者根据人口统计决定投资哪些房地产建筑, geographical, and macroeconomic data.
运用计量经济学分析，为投资者提供下一个宏观经济趋势的见解.
与客户保持密切联系, product owner, 和产品经理一起实现项目目标和客户的需求.
在Jira中使用敏捷方法，在GitHub中执行持续的代码维护.
创建了一个Python web scraper工具，从房地产门户中提取数据. 它不断提取最新的数据, 解析属性的描述,S，并将相关信息提取到表格中.

Technologies: 预测分析，OCR, SQL，商业房地产，预测, Time Series Analysis, Machine Learning, Data Analytics, Data Science, Python, Artificial Intelligence (AI), APIs, Matplotlib, Jupyter, Scikit-learn, Supervised Learning, Unsupervised Learning, ETL, Web Scraping, Python 3, Data Analysis, REST APIs, Macroeconomic Forecasting, Econometrics, Visual Studio Code (VS Code), Regex, Algorithms, Git, Text Classification, TensorFlow, Jupyter Notebook, Amazon Web Services (AWS), Visualization, GitHub, MySQL, Time Series, Data Modeling, Data Mining, Pandas, BigQuery, Google BigQuery, Web Crawlers, Beautiful Soup

数据科学家和团队领导

2019 - 2020

Banco Santander

根据这个想法开发和编码Python和R包, code, 并测试到最终独立的dockerized包.
创建NLP工具，自动处理不同的文档，将它们分类为最可能的文档类型，并提取相关信息存储在数据库中.
领导一个小的开发团队并协调他们. 与其他部门保持密切沟通，确保快速取得成果，并直接向上级领导汇报.

技术:预测分析, Regex, Machine Learning, Data Science, Git, Docker, R, OCR, Python, Artificial Intelligence (AI), Matplotlib, Jupyter, Scikit-learn, Supervised Learning, Unsupervised Learning, Web Scraping, Python 3, Data Analysis, SQL, MySQL, PostgreSQL, MongoDB, GitHub, 自然语言处理(NLP), Visual Studio Code (VS Code), Algorithms, Text Classification, Jupyter Notebook, Visualization, REST APIs, Data Analytics, ETL, Data Modeling, Data Mining, Pandas

Data Scientist

2018 - 2018

剑桥癌症研究所

开发了基于机器学习的提取工具, analyze, 从最大的医学期刊库中分类论文, PubMed.
创建了一个深度学习NLP工具，从作者的论文及其元数据中学习模式. 它可以猜测谁写了一篇文章，并区分同名作者.
使用创建的工具来提取来自不同领域的作者的见解, countries, 大学的行为和与其他作者和主题的联系.

技术:预测分析, Data Mining, Text Classification, Machine Learning, Data Science, R, Python, APIs, Matplotlib, Jupyter, Scikit-learn, Supervised Learning, Unsupervised Learning, Python 3, Data Analysis, REST APIs, 自然语言处理(NLP), Deep Learning, Keras, Visual Studio Code (VS Code), Algorithms, Neural Networks, TensorFlow, Jupyter Notebook, Visualization, Data Analytics, Data Modeling, Pandas

数据科学家和生物信息学开发人员

2017 - 2018

巴塞罗那生物公园

使用机器学习模型和数据科学工具研究替代拼接.
开发了一种深度学习工具，可以以99%的准确率预测样本来自哪个组织.
开发了另一个深度学习工具，可以预测特定组织的基因表达, 它们对特定药物的潜在反应, 以及他们是否处于健康状态.

技术:预测分析, Keras, Deep Learning, Deep Neural Networks, RESTful Development, REST APIs, R, Python, Biopython, Biotechnology, Bioinformatics, Machine Learning, Data Science, Artificial Intelligence (AI), Matplotlib, Jupyter, Scikit-learn, Supervised Learning, Unsupervised Learning, SQL, Python 3, Data Analysis, TensorFlow, Next-generation Sequencing, Jupyter Notebook, Data Modeling, Pandas

Experience

ReorientExpress:深度学习工具基因表达预测

http://github.com/comprna/reorientexpress

使用Python和Tensorflow创建的深度学习工具，可以重建基因组并评估其表达，而无需参考该物种. 它通过刺激ARN剪接起作用, 使用一种尚未被完全破译的语言(类似于DNA)的生物过程. Therefore, ReorientExpress可以预测拼接的结果，而不需要明确地破译拼接代码.

This highlights one of the biggest advantages of deep learning; it can simulate complex systems without having to simplify the process into simple rules. 相反，它可以学习其他机器学习模型无法学习的复杂交互.

DeepOracle

http://github.com/angelrure/DeepOracle

一个基于深度学习的Python应用程序，帮助软件测试人员选择最好的样本进行测试. 它首先创建一个模型，试图使用深度神经网络复制程序(Oracle). Then, given a new dataset, 它选择更有可能在被测软件中发现bug的样本.

每日竞选预算预测器

一个连接到AWS雅典娜服务的基于python的应用程序, 从亚马逊的广告活动中提取每小时的广告数据, 并预测活动的流量和转化数据.

这些预测被发送到一个网络应用程序中，客户可以在其中看到哪些活动可能在白天超出预算，以及超出多少.

他们还会得到可能错过的流量和转换事件的估计，以及建议的预算增加，以避免超出预算. 因此，他们的竞选活动总是在预算之内.

增强内省:Emel

http://store.steampowered.com/app/2189350/Augmented_Introspection_Emel/?curator_clanid=4777282&utm_source=SteamDB

我使用GML(一种基于c++的语言)创造了一款基于对话的电子游戏. 我设计并编写了结构、图形界面和所有幕后逻辑.

在这个基于对话的视频游戏中, 用户通过文本输入与人工智能助手交流，并可以执行几个测试, psychological tests games, and more. 它使用谷歌云服务，例如:
•存储:存储用户行为数据和游戏事件数据.
•功能:允许GCP和视频游戏之间的通信. 它使用几个端点来完成特定的任务.
•文本转语音API:结合功能，它允许人工智能助手说话.

这款游戏探讨了超人类主义、享乐主义和个人主义等主题.

ETL Orchestration using AWS

我创建了一个ETL系统，其中来自不同api和本地PostgreSQL DB的数据使用AWS的Lambda函数转储到AWS S3中.

然后，数据被解析、处理、清理，然后上传到AWS的Redshift. 数据也经过了同质化处理，因此可以同时查询不同的数据源. 该管道计划每天午夜自动运行. 整个过程在短短4天内完成了完整的记录和开发.

Finally, 数据被连接到一个外部仪表板解决方案(Metabase)，在那里它可以实时可视化.

Skills

Languages

Python, Regex, SQL, Python 3, R, GML

Libraries/APIs

Pandas, Scikit-learn, Keras, TensorFlow, Matplotlib, NumPy, REST api, Beautiful Soup, PySpark

Tools

Jupyter, Git, Bitbucket, GitHub, Biopython, Amazon Athena, BigQuery, Amazon CloudWatch

Paradigms

数据科学，RESTful开发，ETL，商业智能(BI)，软件测试

Platforms

Jupyter Notebook, Visual Studio Code (VS Code), AWS Lambda, Docker, Amazon Web Services (AWS), Google Cloud Platform (GCP), Steam, Databricks

Other

Machine Learning, Data Analytics, Predictive Analytics, Supervised Learning, Data Analysis, Time Series Analysis, Algorithms, Mathematics, Statistics, Computer Science, Visualization, Forecasting, OCR, Text Classification, Data Mining, Deep Neural Networks, Deep Learning, Neural Networks, Artificial Intelligence (AI), APIs, Unsupervised Learning, Data Modeling, Web Scraping, Time Series, 自然语言处理(NLP), Commercial Real Estate, Biotechnology, Next-generation Sequencing, Biomedical Skills, Monte Carlo Simulations, Reinforcement Learning, eCommerce, Macroeconomic Forecasting, Econometrics, Psychology, Philosophy, Cloud Storage, Google Cloud Functions, Text to Speech (TTS), Google BigQuery, Vertex, Metabase, HubSpot, Web Crawlers

Storage

PostgreSQL, MySQL, Elasticsearch, Google Cloud, MongoDB, Google Cloud Storage, Redshift

Industry Expertise

Bioinformatics

Education

2019 - 2020

数据科学硕士学位

瓦伦西亚国际大学-瓦伦西亚，西班牙

2016 - 2018

生物信息学硕士学位

庞培法布拉大学-巴塞罗那，西班牙

2012 - 2016

生物技术学士学位

莱伊达大学-莱伊达，西班牙

Certifications

NOVEMBER 2017 - PRESENT

Machine Learning Nanodegree

Udacity

Collaboration That Works

How to Work with Toptal

在数小时内，而不是数周或数月，我们的网络将为您直接匹配全球行业专家.

Share your needs

在与Toptal领域专家的电话中讨论您的需求并细化您的范围.

Choose your talent

在24小时内获得专业匹配人才的简短列表，以进行审查，面试和选择.

开始你的无风险人才试验

与你选择的人才一起工作，试用最多两周. 只有当你决定雇佣他们时才付钱.

Top talent is in high demand.

Start hiring