Nicolas is available for hire

Nicolas Keller

Verified Expert in Engineering

数据科学家和开发人员

Location

Berlin, Germany

Toptal Member Since

January 21, 2020

具有较强的数学背景(数学硕士学位), 尼古拉斯是一位充满激情的数据科学家，他可以为机器学习知识的理想组合做出贡献, 实用的编程技能, 对项目有解决问题和分析的思维. 他有将业务问题转化为数据驱动解决方案的经验，最近在这家全球保险公司担任数据科学家, Allianz.

Data Analysis Data Analytics Machine Learning Data Visualization Data Reporting R RStudio Python RStudio Shiny Pandas Algorithms Statistical Analysis Big Data Web Scraping Web Crawlers

Portfolio

Pfizer

Python, Neo4j, Amazon EC2，机器学习，大型语言模型(LLMs)...

IPPMed GmbH

仪表板设计，硒，自动化，网络爬虫，Python，报告...

Focus Sensors Limited

Python，算法，Apache Kafka, SciPy，测试，流数据...

Experience

Mathematics - 7 years 数据科学- 5年 R - 5 years 机器学习- 4年 RStudio Shiny - 4年 Python - 4 years 数据可视化- 3年 SQL - 3 years

Availability

Part-time

首选的环境

Jupyter Notebook, RStudio, Git, Linux

The most amazing...

...我编写的是一个R程序包，可以根据个人特征预测人寿保险索赔. 这是一种超越现状的新方法.

Work Experience

Data Science Lead

2021 - PRESENT

Pfizer

领导临床试验领域的数据科学和数据工程项目的发展.
建立用于模型训练的云基础设施, deployment, 应用程序原型增加了我们团队在组织中的影响力和可见度.
设计和管理Neo4j图形数据库，以集中组织数据集，并利用图形算法来回答复杂的业务问题.
开发图形数据库接口，允许非技术用户用自然语言提问. 我们训练了一个深度学习模型将英语翻译成Cypher(图查询语言).
创建了一个优化算法，以选择最佳的临床试验地点，并监督试验的推出和整合到业务运营中.

Technologies: Python, Neo4j, Amazon EC2，机器学习，大型语言模型(LLMs), 自然语言处理(NLP), GPT, 生成预训练变压器(GPT), Data Engineering, Project Leadership, Dataiku

Data Engineer

2020 - PRESENT

IPPMed GmbH

支持两项医学研究的外部裁决程序.
使用Python自动完成合并、填充和发送大量PDF表单的过程.
通过自动Excel表格跟踪与裁判的数据交换，并提供仪表板来创建进度报告.
使用Selenium自动从网站下载和收集PDF文件, 那是几周的体力劳动.

Technologies: 仪表板设计，硒，自动化，网络爬虫，Python，报告, Database Management, Microsoft Office

Data Scientist

2020 - 2021

Focus Sensors Limited

研究了传感器数据异常检测算法的广泛代码库的实现和数学概念.
使用Kafka将核心架构从静态数据文件更改为流数据.
在处理时间和输出完整性方面测试并优化了新架构.

Technologies: Python，算法，Apache Kafka, SciPy，测试，流数据, Signal Processing, Docker

Data Scientist

2020 - 2021

Moneyhub

使用AWS SageMaker和Lambda基础设施实现并生产了一种个性化的机器学习算法，对交易数据进行分类.
检测客户行为的趋势，并创建频繁的报告来呈现结果, 哪些是定期在公司网站上发布的.
完成各种数据分析和poc，以响应业务请求，使用SQL和Python作为后端，使用Jupyter Notebooks和Plotly来呈现结果.

技术:财务数据, Applied Mathematics, XGBoost, LightGBM, Time Series Analysis, Reporting, Data Visualization, Data Analysis, MongoDB, Automation, Amazon Athena, Databases, Git, Scikit-learn, NumPy, 商业智能(BI), Linux, Statistical Analysis, Algorithms, Data Science, Data Reporting, Pandas, Data Analytics, 亚马逊网络服务(AWS), 生成预训练变压器(GPT), 自然语言处理(NLP), GPT, Machine Learning, Plotly, Jupyter Notebook, SQL, Amazon SageMaker, Python, Redshift, Big Data

Data Scientist

2020 - 2020

TradeDepot

分析小额贷款数据，找出影响还款行为的相关特征.
实现并测试了一个Python模块，该模块返回信用风险评分以及详细解释.
将该模块部署在AWS SageMaker和Lambda基础设施上，使其与当前系统完全集成.

技术:亚马逊网络服务(AWS)、金融数据、软件工程、贷款 & 借贷，信用风险，亚马逊SageMaker, Python, Redshift

Data Scientist

2019 - 2020

Sopra Steria España

开发了新的方法来衡量零售客户端的业务成功及其在Python中的实现.
使用SQL和Python对零售促销活动进行后期分析，并将结果呈现给利益相关者.
优化SQL查询，从大型表中提取见解.
重构并优化了一个内部Python包，以提取和可视化大型数据库表的统计信息.

技术:报告, Data Visualization, Data Analysis, SQL Server Management Studio, 商业智能(BI), Pandas, Data Analytics, Microsoft Excel, Azure, Databricks, Python, SQL, Big Data, MySQL

数据科学家(硕士论文学生)

2019 - 2019

Allianz

写了一篇关于机器学习方法来模拟生命表的论文.
对大于100GB的数据进行预处理、分析和建模.
构建并测试了一个R包，供精算部门内部使用.
作为官方培训系列的一部分，我在专家面前做了最后的演讲.
实现详尽的性能优化的R代码使用矢量化, parallelization, 优化的包装.

技术:应用数学, Ggplot2, Data Analysis, Mathematics, SQL, Algorithms, Data Analytics, Plotly, Markdown, LaTeX, Python, R

Data Scientist

2018 - 2019

Allianz

在R-Shiny中实现并支持广泛的交互式数据驱动仪表板.
根据客户特点和产品历史，开发企业客户产品推荐系统.
建立一个高效的自动化系统，用于基于客户投诉数据的产品或业务流程问题的早期检测.
使用Plotly, D3实现了复杂数据的可视化和见解的呈现.js, and R Markdown.
使用LDA对客户投诉文本进行主题建模和文本挖掘.
构建关于机器学习领域的理论和编程包的演示.
创建内部编程包，以简化和简化经常使用的数据科学任务.

技术:减价, Microsoft PowerPoint, 生成预训练变压器(GPT), GPT, 自然语言处理(NLP), XGBoost, LightGBM, Ggplot2, Financial Markets, Random Forests, Reporting, Dashboard Design, Data Visualization, 仪表板发展, Dashboards, Data Analysis, CSS, Databases, 商业智能(BI), Statistical Analysis, Data Science, Data Reporting, Machine Learning, Data Analytics, Microsoft Excel, Plotly, RStudio Shiny, SQL, Git, Python, RStudio, MySQL

Researcher

2017 - 2018

弗劳恩霍夫工业数学研究所

参与Senrisk (Senrisk)项目.Eu /)，根据新闻情绪预测公司债券和主权债券的价格波动.
在PyTorch中构建递归神经网络来预测金融时间序列.
为健康保险行业的欺诈检测开发了统计方法.
实现了一个用于金融时间序列预测的Python包, 包括与web服务的集成.
在R Shiny中构建了一个软件原型，以可视化不同样本量在欺诈检测环境中的影响.

技术:财务数据, Applied Mathematics, Neural Networks, Time Series Analysis, Financial Markets, Optimization, Random Forests, Data Analysis, Keras, Scikit-learn, Statistical Analysis, Algorithms, Data Science, Machine Learning, Data Analytics, R, RStudio Shiny, PyTorch, Spyder, Anaconda, Linux, Python, RStudio

Intern

2016 - 2017

圣塔大学María

用c#实现基于Black-Scholes模型的财务评估软件.
撰写了一份关于期权价格估值理论基础的详细报告.
进行Black-Scholes模型和金融时间序列的相关研究.

技术:金融市场，数据分析，数据分析，微软Excel, R, c#

Experience

EU Project SENRISK

作为弗劳恩霍夫ITWM研究所的一员, 我参与了欧盟资助的SENSIRK项目. 该项目的主要目标是根据新闻情绪预测公司和主权债券的价格.

我的部分主要是预测系统的实现. 我们使用了循环神经网络和增强方法，并构建了一个Python包来简化整个过程.

WhatApp聊天的分析和可视化

http://github.com/l47y/whatsappalytics

一个Python工具包，用于可视化WhatsApp聊天. 它提供了一些有趣的单人或群聊可视化. 此外，它还有一个交互式仪表板，可用于在可视化中导航. 它将原始文本文件转换为方便的数据框架，并处理不同的输入格式, 包括其他iOS和Android版本.

机器学习演示工具

http://github.com/l47y/ml_tool

这个闪亮的应用程序作为一个小用户界面来演示一些标准的机器学习任务. 您可以上传示例数据集并对其进行编辑、可视化和建模. 我用它来做演示, 特别是在向非技术用户展示基本的ML概念时.

Android应用程序课程分析器

http://github.com/l47y/SiCourses

跟踪给定课程的Android应用程序. 它被一小群人用于特定的业务用例. 您可以插入课程并指定收到的评估.

On the main page, 你有所有课程的概览, 你可以导出和导入课程列表. Finally, 你可以看到评估的统计数据, 还有一张地图显示了课程的地点，并提供了一些额外的信息. 目前，它只有西班牙语版本.

Skills

Languages

Python, R, SQL, c#， Markdown, Kotlin, HTML, CSS

Frameworks

RStudio Shiny, LightGBM, Selenium

Libraries/APIs

Pandas, Ggplot2, XGBoost, Keras, Scikit-learn, Beautiful Soup, NumPy, PySpark, PyTorch, SciPy

Tools

Plotly, Amazon SageMaker, Amazon Athena, Git, LaTeX, Sublime Text, Spyder, Microsoft Excel, Amazon QuickSight, PyCharm, Microsoft PowerPoint

Paradigms

数据科学，商业智能，自动化，测试

Platforms

RStudio, 亚马逊网络服务(AWS), Linux, Azure, Jupyter Notebook, Anaconda, Databricks, Apache Kafka, Docker, Amazon EC2, Dataiku

Other

Data Analysis, Dashboards, Data Analytics, Applied Mathematics, Mathematics, 仪表板发展, Data Visualization, Machine Learning, Random Forests, Dashboard Design, Reporting, Data Reporting, Financial Markets, Financial Data, Big Data, Algorithms, Process Automation, Optimization, Web Scraping, Web Crawlers, Time Series Analysis, Statistical Analysis, Neural Networks, Credit Risk, Loans & Lending, Software Engineering, Data Engineering, Android Development, 自然语言处理(NLP), Streaming Data, Signal Processing, 大型语言模型(llm), Project Leadership, Microsoft Office, GPT, 生成预训练变压器(GPT)

Storage

Redshift，数据库，SQL Server管理工作室，MySQL, MongoDB, Neo4j，数据库管理

Education

2016 - 2019

金融与精算数学理学硕士学位

凯泽斯劳滕工业大学-凯泽斯劳滕，德国

2016 - 2016

花了一年时间学习金融数学

智利圣塔费德里科大学María - Valparaíso

2013 - 2016

理学学士学位，主修数学

凯泽斯劳滕工业大学-凯泽斯劳滕，德国

Certifications

2019年10月至今

PySpark大数据基础

DataCamp

2019年10月至今

将SQL应用于实际问题

DataCamp