金融科技:技术栈

数据科学与人工智能

共 1733字,需浏览 4分钟

 ·

2022-01-19 13:22

金融科技行业从事数据科学工作,需要掌握哪些技术呢?

我以自己的经历,说一下金融科技的技术栈

01

数据库技术

数据库技术,泛指熟练使用SQL技术,不仅是各种关系型数据库的SQL,还有各种大数据平台的SQL,例如Hive-SQL、Spark-SQL等。
对于SQL技术这块,我们重点要掌握增删改查的四种操作,以及与编程语言的交互。
通过SQL技术,我们可以有效完成如下工作:

  • 1 数据的获取和集成

  • 2 数据的简单统计与分析

  • 3 数据宽表的设计和实现

02

编程技术

编程技术,是指我们至少要熟悉一门编程语言,不管是Python语言,还是R语言或者两者都会。不管Python语言,还是R语言,都可以有效地帮助我们完成数据科学工作流中各个环节的任务。比方说,数据的获取、数据的清洗、数据探索、数据转换、数据分析、数据建模、数据报告等。

若是你用Python语言,你需要掌握这些知识:

  • 1 Python语言基础知识,元组、列表、字典,条件逻辑和循环结构,自定义函数和使用,自定义类和使用,文件管理,字符操作,异常处理等。

  • 2 Python语言做数据可视化,掌握matplotlib库seaborn库的使用。

  • 3 Python做科学计算,掌握numpy库scipy库的使用。

  • 4 Python做统计分析,掌握statsmodels库的使用。

  • 5 Python做数据分析,掌握pandas库的使用。

  • 6 Python做机器学习,掌握scikit-learn库的使用。

  • 7 Python做评分模型,掌握toad库scorecardpy库的使用。

  • 8 Python做集成树模型,掌握xgboost库,lightgbm库和catboost库的使用。

  • 9 Python做数据报告,掌握Jupyter notebook的使用。

  • 10 Python与数据库交互,掌握pyodbc库

若是你用R语言,你需要掌握这些知识:

  • 1 R语言基础知识,向量、数据框、列表,条件逻辑和循环结构,自定义函数和使用。

  • 2 R做数据科学工作,熟悉tidyverse包。

  • 3 R做评分模型,熟悉scorecard包。

  • 4 R做集成树模型,熟悉xgboost包,lightgbm包和catboost包。

  • 5 R语言数据库交互,掌握RODBC包。

  • 6 R语言做数据报告,掌握rmarkdown包和shiny包。

03

学习算法

金融科技行业数据科学工作中,我常用的学习算法。

  • 1 逻辑回归算法,五颗星。

  • 2 决策树算法,四颗星。

  • 3 集成树算法,包括gbdt, xgboost, lightgbm和catboost,四颗星。

  • 4 聚类算法,k均值算法和GMM算法,四颗星。

  • 5 关联分析,aprior算法,四颗星。

  • 6 特征选择算法,过滤式选择、包裹式选择和嵌入式选择。过滤式的缺失率、唯一值率、IV值,包裹式的逐步回归,嵌入式的xgboost的特征重要性,四颗星。

  • 7 神经网络算法,三颗星。

  • 8 社交网络算法,两颗星。

04

其它技术

金融科技行业数据科学工作,其它技术,罗列如下。

  • 1 版本控制技术

  • 2 项目管理技术

  • 3 Linux系统与云计算技术

  • 4 报告撰写和汇报技术

  • 5 模块化编程和封装技术

  • 6 大数据平台知识

  • 7 统计学知识

等。

总之,技术和业务相辅相成,技术服务业务,业务需要技术。

技术和业务可以看作金融科技数据科学人才的“左右手”,我们需要通过持续学习和实践,来促进共同成长和发展,以干出更多有价值和有意义活儿。

技术这个东西,请学以致用,活学活用。

关于金融科技做数据科学的技术栈,你有什么问题或者想法,请添加我的微信,一起讨论。


我是陆勤,在金融科技行业从事数据科学工作,也是一名终身学习者。我工作过的内容主要包括数据清洗和准备、风控评分模型、数字营销模型、风控策略分析、数据建模环境构建和维护等。我可以提供智能风控和数字营销的咨询与服务。欢迎你添加我微信,一起讨论金融科技的数据科学和数据人才。


金融科技专辑

1 金融科技:金融科技与数据科学概述

浏览 80
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报