关联规则笔记——Apriori算法

Posted on 2017-12-10 | In 数据分析算法 , 关联规则 |

关联规则概述关联规则也是一种无监督学习方法。是一种描述性算法而非预测性。所揭示的关系可以被表示为关联规则（asocciation rules）或频繁项集（frequent itemset）。通常用于购物篮中商品购买关联的分析、点击流分析、推荐系统等。关联规则可以表示为：X → Y (概率)即，当X被购买（观察到）时，Y也会被购买（观察到）的概率。X为LHS，Y为RHS。关联规则可以回答以下问题：哪些产品可能会被一起购买？与某客户相似的客户倾向于买什么产品？对于已经购买某产品的客户，还可能查看或者购买什么其他类似的产品？ Apriori算法是用于生产关联规则的最早的、最基本的算法。 Apriori算法几个概念项集：包含某种关系的一系列项目。可以是一次交易中一起购买的一系列商品，也可以是用户在单个会话中的点击流。 k项集：包含k个项目的项集。通常用 ${\lbrace item_1, item_2, …, item_k \rbrace}$ 表示。支持度(support)：给定一个项集L，L的支持度是所有交易中包含L的交易的比例。（\(\frac{包含 ...

聚类算法笔记——k-means、层次聚类、密度聚类

Posted on 2017-12-05 | In 数据分析算法 , 聚类 |

聚类概述聚类指的是，通过无监督技术对相似的数据对象进行分组形成簇。簇内相似，簇外相异。所谓“无监督”，指的是不需要人为标注簇的特征，特征在形成簇后才试图解释。聚类不用来做预测，仅仅根据对象属性来查找对象之间的相似性。聚类通常作为分类的第一步，作为更深入的分析或决策过程的前奏。根据不同方法思想，总结k-means聚类、层次聚类、密度聚类。 k-means聚类输入：n个可衡量属性的对象、指定期望输出的簇的个数k输出：满足方差最小标准的k个簇 k-means基于对象与簇中心的相似度（相似度由距离衡量），将对象分成k个簇。采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。k-means算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。几个概念簇中心：每个簇中对象的n维属性向量的算术平均值。质心(centroid)：簇中心所在的点。（不知道自己的理解对不对，感觉簇中心跟质心指的概念相似。质心可以是簇中最接近簇中心的对象的位置(像是样本点的中位数)，也可以不与簇中任何对象的位置相同(像是样本点的均值)）距离：在k-means算法 ...

Git命令整理

Posted on 2017-07-12 | In 杂 |

前言碎碎念自从使用Git作为版本控制工具以来，通过教程学习、手册查阅方式了解了Git原理和Git命令，能够顺利使用。但由于还不熟练，实践经验也还不够丰富，每次遇到问题都需要重新搜索，多次下来十分麻烦。另一方面，查阅手册往往是不够的，因为手册只会告诉你什么命令做什么用，不会根据不同场景告诉你应该用什么命令。所以在这篇文章中，将常用的Git命令根据不同的使用场景做一个整理，加深印象的同时也方便自己日后查阅。四个概念借用阮一峰老师文章《常用Git命令清单》中的图。 Workspace: 工作区，也就是正在编辑的文件目录 Index / Stage: 暂存区 Repository: 本地仓库，.git文件夹管理的版本库 Remote: 远程仓库，例如github.com上的仓库例如，最常用的命令串中：12345678$ git add <file>#添加工作区指定文件的改动到暂存区，"<file>"为"."时添加全部改动$ git commit -m "XXXX"#提交暂存区的所有内容到本地仓库的当前分支$ git push#上传本地仓库到已关联的远程仓库 ...

Kejian Zhao

a Postgraduate Student at ZJU

GitHub 微博