zhaokejian's blog

Step by Step


  • Home

  • Categories

  • Tags

  • Archives

  • About

关联规则笔记——Apriori算法

Posted on 2017-12-10 | In 数据分析算法 , 关联规则 |
关联规则概述关联规则也是一种 无监督 学习方法。是一种 描述性 算法而非预测性。所揭示的关系可以被表示为 关联规则(asocciation rules)或 频繁项集(frequent itemset)。通常用于购物篮中商品购买关联的分析、点击流分析、推荐系统等。 关联规则可以表示为:X → Y (概率)即,当X被购买(观察到)时,Y也会被购买(观察到)的概率。X为LHS,Y为RHS。 关联规则可以回答以下问题: 哪些产品可能会被一起购买? 与某客户相似的客户倾向于买什么产品? 对于已经购买某产品的客户,还可能查看或者购买什么其他类似的产品? Apriori算法 是用于生产关联规则的最早的、最基本的算法。 Apriori算法几个概念 项集:包含某种关系的一系列项目。可以是一次交易中一起购买的一系列商品,也可以是用户在单个会话中的点击流。 k项集:包含k个项目的项集。通常用 \({\lbrace item_1, item_2, …, item_k \rbrace}\) 表示。 支持度(support):给定一个项集L,L的支持度是所有交易中包含L的交易的比例。(\(\frac{包含 ...
Read more »

聚类算法笔记——k-means、层次聚类、密度聚类

Posted on 2017-12-05 | In 数据分析算法 , 聚类 |
聚类概述聚类指的是,通过 无监督 技术对相似的数据对象进行分组形成 簇。簇内相似,簇外相异。所谓“无监督”,指的是不需要人为标注簇的特征,特征在形成簇后才试图解释。聚类不用来做预测,仅仅根据对象属性来查找对象之间的相似性。聚类通常作为分类的第一步,作为更深入的分析或决策过程的前奏。根据不同方法思想,总结k-means聚类、层次聚类、密度聚类。 k-means聚类输入:n个可衡量属性的对象、指定期望输出的簇的个数k输出:满足方差最小标准的k个簇 k-means基于对象与 簇中心 的相似度(相似度由 距离 衡量),将对象分成k个簇。采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。k-means算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 几个概念 簇中心:每个簇中对象的n维属性向量的算术平均值。 质心(centroid):簇中心所在的点。(不知道自己的理解对不对,感觉簇中心跟质心指的概念相似。质心可以是簇中最接近簇中心的对象的位置(像是样本点的中位数),也可以不与簇中任何对象的位置相同(像是样本点的均值)) 距离:在k-means算法 ...
Read more »

Git命令整理

Posted on 2017-07-12 | In 杂 |
前言碎碎念自从使用Git作为版本控制工具以来,通过教程学习、手册查阅方式了解了Git原理和Git命令,能够顺利使用。但由于还不熟练,实践经验也还不够丰富,每次遇到问题都需要重新搜索,多次下来十分麻烦。另一方面,查阅手册往往是不够的,因为手册只会告诉你什么命令做什么用,不会根据不同场景告诉你应该用什么命令。 所以在这篇文章中,将常用的Git命令根据不同的使用场景做一个整理,加深印象的同时也方便自己日后查阅。 四个概念借用阮一峰老师文章《常用Git命令清单》中的图。 Workspace: 工作区,也就是正在编辑的文件目录 Index / Stage: 暂存区 Repository: 本地仓库,.git文件夹管理的版本库 Remote: 远程仓库,例如github.com上的仓库 例如,最常用的命令串中:12345678$ git add <file>#添加工作区指定文件的改动到暂存区,"<file>"为"."时添加全部改动$ git commit -m "XXXX"#提交暂存区的所有内容到本地仓库的当前分支$ git push#上传本地仓库到已关联的远程仓库 ...
Read more »
Kejian Zhao

Kejian Zhao

a Postgraduate Student at ZJU

3 posts
4 categories
7 tags
GitHub 微博
© 2018 Kejian Zhao
Powered by Hexo
Theme - NexT.Pisces