你应该知道的大数据名词术语产品与体验关注共 2696字,需浏览 6分钟 ·2021-08-07 08:03 1. 上卷下钻下钻,是指将特定分组的数据按第二维度继续向下细分显示。上卷,是下钻的逆过程,即收起细节数据,显示上一层级的汇总数据。2. 颗粒度颗粒度是指具体的详细和清晰程度;颗粒度越细,表示细节越详尽,越有助于了解事情的全貌;颗粒度越粗,表示细节越少,更多的是抽象概括。3. 维度(字段)与度量维度,包含定量值(例如名称、日期或地理数据)。您可以使用维度进行分类、分段以及揭示数据中的详细信息。维度影响视图中的详细级别。度量,包含可以测量的数字定量值。度量可以聚合。将度量拖到视图中时,Tableau(默认情况下)会向该度量应用一个聚合。4. 聚合搜索、合并、显示数据的过程5. 算法可以完成某种数据分析的数学公式6. 仪表板使用算法分析数据,并将结果用图表方式显示于仪表板中7. 数据库一个以某种特定的技术来存储数据集合的仓库8. 数据清洗对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性9. 数据挖掘从数据集中发掘特定模式或信息的过程10. 数据建模使用数据建模技术来分析数据对象,以此洞悉数据的内在涵义11. 提取-转换-加载 (ETL)(ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程,即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后将其加载(L)到数据库12. 元数据被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。13. MongoDB一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。14. 多维数据库用于优化数据联机分析处理(OLAP)程序,优化数据仓库的一种数据库。15. 多值数据库是一种非关系型数据库(NoSQL), 一种特殊的多维数据库:能处理3个维度的数据。主要针对非常长的字符串,能够完美地处理HTML和XML中的字串。16. 预测分析大数据分析方法中最有价值的一种分析方法,这种方法有助于预测个人未来(近期)的行为,例如某人很可能会买某些商品,可能会访问某些网站,做某些事情或者产生某种行为。通过使用各种不同的数据集,例如历史数据,事务数据,社交数据,或者客户的个人信息数据,来识别风险和机遇。17. 抽样抽样是总体中的一组数据,带有指定的信息。理想情况下,需要经常分析较大的样本以获取最精确的估计和最新的信息。样本越大,就能越轻松地检测到较小的变化,并使控制图在检测变动时能够更敏感,同时不会增大误报率。18. 中位数将一组数从小到大排列,若个数为奇数,则中位数就是中间那个数;若个数为偶数,则中间两个数的平均数就是中位数。19. 云计算云计算是必不可少的大数据术语之一。它是一个新的范式计算系统,它提供可视化的计算资源,以运行在用于存储数据的标准远程服务器上,并提供IaaS,PaaS和SaaS。云计算提供IT资源,例如基础架构,软件,平台,数据库,存储等作为服务。它的一些服务包括灵活的扩展,快速的弹性,资源池,按需自助服务。20. IaaSIaaS(Infrastructure as a Service),即基础设施即服务。指把IT基础设施作为一种服务通过网络对外提供,并根据用户对资源的实际使用量或占用量进行计费的一种服务模式。 在这种服务模型中,普通用户不用自己构建一个数据中心等硬件设施,而是通过租用的方式,利用 Internet从IaaS服务提供商获得计算机基础设施服务,包括服务器、存储和网络等服务。21. PaaSPaaS是(Platform as a Service)的缩写,是指平台即服务。把服务器平台作为一种服务提供的商业模式,通过网络进行程序提供的服务称之为SaaS(Software as a Service),是云计算三种服务模式之一,而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS(Platform as a Service)。所谓PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。在2007年国内外SaaS厂商先后推出自己的PAAS平台。22. SaaSSaaS,是Software-as-a-Service的缩写名称,意思为软件即服务,即通过网络提供软件服务。SaaS平台供应商将应用软件统一部署在自己的服务器上,客户可以根据工作实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用,并通过互联网获得Saas平台供应商提供的服务。SaaS 应用软件有免费、付费和增值三种模式。付费通常为“全包”费用,囊括了通常的应用软件许可证费、软件维护费以及技术支持费,将其统一为每个用户的月度租用费。23. 数据架构与设计在IT行业中,数据体系结构由模型,策略标准或规则组成,这些模型,策略标准或规则控制聚合哪些数据以及如何在数据系统中安排,存储,集成和使用这些数据。它分为三个阶段:业务实体的概念表示业务实体之间关系的逻辑表示功能支持系统的物理构建24. 在线分析处理(OLAP)在此过程中,使用三个运算符(向下钻取,合并以及切片和切块)对多维数据进行分析。向下钻取是提供给用户查看底层详细信息的功能合并是可用的汇总切片和切块是为用户提供的选择子集并从各种上下文中查看它们的功能25. 实时数据可以立即(即以毫秒为单位)创建,存储,处理,分析和可视化的数据称为实时数据。26. 非结构化数据无法定义结构的数据称为非结构化数据。处理和管理非结构化数据变得困难。非结构化数据的常见示例是在电子邮件消息中输入的文本以及带有文本,图像和视频的数据源。 浏览 38点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 你应该知道的高效学习法人生不止有技术0你最应该知道的古典诗词打开历史的卷轴,扑面而来的是散发着淡淡清香的古典诗词。它热情但不矫情,委婉但不忸怩,奔放但不夸张,它你应该知道的十大常见黑客技术程序员面试吧0NPM 组件你应该知道的事脑洞前端0万能 Transformer,你应该知道的一切极市平台0你应该知道的LightGBM各种操作!AI入门学习02020你应该知道的Node配置前端微服务0你应该知道的200件紫檀家具《你应该知道的200件紫檀家具》所介绍的紫檀这种木材大体反映了这一时段风格。从明代末期至清代康熙时期你应该知道的200件紫檀家具你应该知道的200件紫檀家具0你最应该知道的古典诗词你最应该知道的古典诗词0点赞 评论 收藏 分享 手机扫一扫分享分享 举报