Series为一维数组型对象,是一个长度固定且有序的字典,可以将索引值和数据值按位置配对。
表示矩阵的数据表,包含已排序的列集合,每一列可以是不同的值类型。
构建dataframe
columns对列进行操作
loc对行进行操作
字典套用
reindex()函数重新建索引,括号内为索引值;
用数组切片处理数据
对dataframe用轴标签(loc)或者整数标签(iloc)已numpy的语法从中选择数组的行和列的自己
使用fill_value=?填充值的算数方法
来看上述的这个代码的例子,如df1缺失相关列或行,用fill_value=0对其进行填充,再做计算
算数方法
dataframe与series的计算
简单来说,用一个表格与某数组进行相加减,即在表格中寻找与数组元素相匹配的元素进行计算
applymap()函数可对dataframe中的每个函数进行统一操作
对dataframe排序
按照索引的名称进行升序或者降序排列
对series进行排序
排名
平均排名
上述对应 排名为[6.5, 1., 6.5, 4.5, 3. , 2. , 4.5],也就是将同排名进行同组平均分配,计算排名值
按序排名
上述对应排名为[6., 1., 7., 4., 3., 2., 5.],也就是按照值升序依次排名,对于同名次数据,出现顺序决定其排名先后
平级排名
按照值降序对其进行排名,首先设定ascending=false
其对应排名为[2., 7., 2., 4., 5., 6., 4.],对于同样大的数值,按照同一层排名来处理,此处的method参数可以换为其他值
以上述数据为例,不同的参数执行结果为
描述性统计
描述性统计指标就那些,代入各个指标的函数就可,其中需要解释几个参数
- axis:轴的方向,axis=1横向,axis=0列向
- skipna:排除缺失值,一版默认为自动排除缺失值,为true,有些情况下不得忽略缺失值,则任何计算都显示为nan,此时为false
- level:如果轴是多层索引的,改参数可以缩减分组层级
相关描述性指标代码如下:
相关性和协方差
ps一个函数,obj.is_unique判断一组数据是否都是唯一值

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/181478.html