动手体验 Elasticsearch 8.4.x 机器学习预测打车价格

共 2992字,需浏览 6分钟

 ·

2022-11-01 20:58

1、序言

传统关系型数据库有着很强的ACID特性,也决定了核心应用的首选地位,作为NOSQL数据库产品,要想与传统关系型数据库直接竞争,本质是不太可能,所以必然选择了另外一条协作辅助的路线,如Elasticsearch侧重多维度检索。

图示:数据库热度权威排名,前4位全部是关系型数据库,Elasticsearch仅仅是第7位。

Elasticsearch 产品版本一直保持着非常快的发布节奏,平均每月会发布一次,当前即将发布8.5.x;最早从全文检索特性开始切入,到现在已经成为一个功能特性非常多的数据平台,基于此,我们可以快速的构建多种应用形态,如Elasticsearch机器学习的特性。

图示:7.0.x~7.17.x 持续了近3年 ,发布的密集度非常高;

机器学习一直是一个很热门的话题领域,早先各种人工智能、深度学习的热词满天飞,从业人员也非常多,技术框架产品也非常多,但是快速落地一个机器学习类的应用并不容易,常规下来,需要算法工程师、应用工程师、数据工程师、前端工程师等配合才能完成, 这对于企业的时间与成本是一个非常大的考验,对于小型企业更像是一道高高的墙,阻挡了新技术新形态的引入。

Elasticsearch 自5.x版本开始融入机器学习特性,到目前为止已经融合了分类、回归、聚类、NLP等机器学习能力,基于自身的数据平台整合能力,应用者可以很快的完成一个机器学习应用案例,并提供对外的Restful api;对于应用工程师,机器学习不再神秘,对于算法工程师,机器学习不再担忧工程落地问题。

2、ES机器学习几步走

基于Elasticsearch 机器学习的Restful Api,加上Kibana的可视化操作性,仅仅需要几步就可以完成一个机器学习案例应用。

2.1 准备案例索引数据

可以基于Logstash,快速的导入案例数据,从数据库或者离线文件皆可。

导入数据

图示:导入nyc-tripdata 出租车数据

样本数据

{
    "VendorID": 2,
    "lpep_pickup_datetime": 1230774807000,
    "lpep_dropoff_datetime": 1230776097000,
    "store_and_fwd_flag""N",
    "RatecodeID": 1,
    "PULocationID": 130,
    "DOLocationID": 203,
    "passenger_count": 1,
    "trip_distance": 7.25,
    "fare_amount": 23,
    "extra": 1,
    "mta_tax": 0.5,
    "tip_amount": 0,
    "tolls_amount": 0,
    "improvement_surcharge": 0.3,
    "total_amount": 24.8,
    "payment_type": 2,
    "trip_type": 1,
    "congestion_surcharge": 0,
    "pickup_year": 2008
}

2.2 创建机器学习模型

  • 基于kibana可视化能力操作
  • 选择需要的案例索引数据。
  • 选择机器学习模型,选择相关的数据向量。
  • 训练模型

选择机器学习模型

图示:选择机器学习模型

选择数据列

图示:选择机器学习模型

2.3 应用机器学习模型

基于Elasticsearch Ingest管道处理能力,创建对应的Restful api,供外部应用系统集成。

创建应用Api

创建ingest 管道数据处理接口

使用应用Api

外部应用基于restful 实时调用模型

3、课程直播

以上内容简单的介绍了Elasticsearch机器学习的特性与快速应用的步骤,实际Elasticsearch数据平台的带来的便利性远不止于此;为此,我们准备了一次免费的实战直播课,您将获得对于ES更多的认知:

  • Elasticsearch 机器学习平台与传统机器学习有哪些不一样,为什么选择ES?
  • Elastic stack 技术栈有哪些?如何掌握与组合应用?
  • Elastic Stack 有哪些应用场景?除了机器学习,还可以做些什么?
  • Elastic Stack最佳的实战组合应该是怎么样的?对于ES的认识还是停留在全文检索阶段是否正确?

参考文献

[1] ES机器学习回归函数参考

https://www.elastic.co/guide/en/machine-learning/current/ml-dfa-regression.html

[2] Spark 机器学习参考

https://spark.apache.org/docs/latest/ml-guide.html

[3] scikit-learn 机器学习库参考 https://scikit-learn.org/stable/

关于我们

讲师

李猛 Elastic King 数据领域专家

  • Elastic Stack 国内顶尖实战专家
  • ELastic Stack 技术社区分享嘉宾
  • 国内首批Elastic 官方认证工程师21人之一
  • 阿里云MVP(大数据领域)
  • DBAPlus MVP(原创内容贡献者)
  • GitHub:https://github.com/ynuosoft
  • 咕泡教育 《Elastic Stack 架构师P6成长路径》主讲老师。
  • 2012年接触Elasticsearch,对Elastic Stack 技术栈开发、架构、运维、源码、算法等方面都有深入实战。
  • 负责过多种 Elastic Stack 实战应用项目,大数据分析领域、机器学习预测领域、业务查询加速领域、日志平台分析领域、基础指标监控领域、全文分词检索领域等。
  • 服务过多家企业、提供Elastic Stack 咨询培训以及调优实施。
  • 多次在 Elastic Stack 技术社区分享,发表过多篇实战干货案例文章。
  • 十五年IT技术实战从业经验,涉猎行业众多、电商、物流、传统企业等,擅长大数据、系统架构等领域。

浏览 48
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报