文章詳情頁

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

瀏覽：42日期：2022-06-15 17:58:33

一、groupby函數(shù)

Python中的groupby函數(shù)，它主要的作用是進行數(shù)據(jù)的分組以及分組之后的組內(nèi)的運算，也可以用來探索各組之間的關系，首先我們導入我們需要用到的模塊

import pandas as pd

首先導入我們所需要用到的數(shù)據(jù)集

customer = pd.read_csv('Churn_Modelling.csv')marketing = pd.read_csv('DirectMarketing.csv')

我們先從一個簡單的例子著手來看，

customer[[’Geography’,’Gender’,’EstimatedSalary’]].groupby([’Geography’,’Gender’]).mean()

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

從上面的結果可以得知，在“法國”這一類當中的“女性(Female)”這一類的預估工資的平均值達到了99564歐元，“男性”達到了100174歐元

當然除了求平均數(shù)之外，我們還有其他的統(tǒng)計方式，比如“count”、“min”、“max”等等，例如下面的代碼

customer[[’Geography’,’Gender’,’EstimatedSalary’]].groupby([’Geography’,’Gender’]).agg([’mean’,’count’,’max’])

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

當然我們也可以對不同的列采取不同的統(tǒng)計方式方法，例如

customer[[’Geography’,’EstimatedSalary’,’Balance’]].groupby(’Geography’).agg({’EstimatedSalary’:’sum’, ’Balance’:’mean’})

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

我們對“EstimatedSalary”這一列做了加總的操作，而對“Balance”這一列做了求平均值的操作

二、Crosstab函數(shù)

在處理數(shù)據(jù)時，經(jīng)常需要對數(shù)據(jù)分組計算均值或者計數(shù)，在Microsoft Excel中，可以通過透視表輕易實現(xiàn)簡單的分組運算。而對于更加復雜的分組計算，“Pandas”模塊中的“Crosstab”函數(shù)也能夠幫助我們實現(xiàn)。

例如我們想要計算不同年齡階段、不同性別的平均工資，同時保留一位小數(shù)，代碼如下

pd.crosstab(index=marketing.Age, columns=marketing.Gender, values=marketing.Salary, aggfunc=’mean’).round(1)

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

當然我們還可以用該函數(shù)來制作一個更加復雜一點的透視表，例如下面的代碼

pd.crosstab(index=[marketing.Age, marketing.Married], columns=marketing.Gender,values=marketing.Salary, aggfunc=’mean’, margins=True).round(1)

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

三、Pivot_table函數(shù)

和上面的“Cross_tab”函數(shù)的功能相類似，對于數(shù)據(jù)透視表而言，由于它的靈活性高，可以隨意定制你的分析計算要求，而且操作性強，因此在實際的工作生活當中被廣泛使用，

例如下面的代碼，參數(shù)“margins”對應表格當中的“All”這一列

pd.pivot_table(data=marketing, index=[’Age’, ’Married’], columns=’Gender’, values=’Salary’, aggfunc=’mean’, margins=True).round(1)

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

四、Sidetable函數(shù)

“Sidetable”可以被理解為是“Pandas”模塊中的第三方的插件，它集合了制作透視表以及對數(shù)據(jù)集做統(tǒng)計分析等功能，讓我們來實際操作一下吧

首先我們要下載安裝這個“Sidetable”組件，

pip install sidetable五、Freq函數(shù)

首先介紹的是“Sidetable”插件當中的“Freq”函數(shù)，里面包含了離散值每個類型的數(shù)量，其中是有百分比形式來呈現(xiàn)以及數(shù)字的形式來呈現(xiàn)，還有離散值每個類型的累加總和的呈現(xiàn)，具體大家看下面的代碼和例子

import sidetablemarketing.stb.freq([’Age’])

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

“Age”這一列有三大類分別是“Middle”、“Young”以及“Old”的數(shù)據(jù)，例如我們看到表格當中的“Middle”這一列的數(shù)量有508個，占比有50.8%

marketing.stb.freq([’Age’], value=’AmountSpent’)

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

例如上面的代碼，顯示的則是比方說當“Age”是“Middle”的時候，也就是中年群體，“AmountSpent”的總和，也就是花費的總和是762859元

六、Missing函數(shù)

“Sidetable”函數(shù)當中的“Missing”方法顧名思義就是返回缺失值的數(shù)量以及百分比，例如下面的代碼,“History”這一列的缺失值占到了30.3%

marketing.stb.missing()

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

七、Counts函數(shù)

“Sidetable”函數(shù)當中的“counts”方法用來計算各個類型的離散值出現(xiàn)的數(shù)量，具體看下面的例子

marketing.stb.counts()

Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法

例如“Gender”這一列中，總共有兩個，也就是“unique”這一列所代表的值，其中“Female”占到的比重更大，有506個，而“Male”占到的比重更小一些，有494個

到此這篇關于Python Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析的方法的文章就介紹到這了,更多相關Pandas模塊實現(xiàn)數(shù)據(jù)的統(tǒng)計分析內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：python argparse命令行參數(shù)解析(推薦)下一條：python ansible自動化運維工具執(zhí)行流程

相關文章：

1. msxml3.dll 錯誤 800c0019 系統(tǒng)錯誤:-2146697191解決方法2. WMLScript的語法基礎3. ASP中解決“對象關閉時,不允許操作。”的詭異問題……4. 解決ASP中http狀態(tài)跳轉返回錯誤頁的問題5. html小技巧之td,div標簽里內(nèi)容不換行6. xml中的空格之完全解說7. XML入門的常見問題(四)8. 無線標記語言(WML)基礎之WMLScript 基礎第1/2頁9. ASP中if語句、select 、while循環(huán)的使用方法10. ASP動態(tài)網(wǎng)頁制作技術經(jīng)驗分享

排行榜

					
					SSM框架整合之Spring+SpringMVC+MyBatis實踐步驟
Java 生成帶Logo和文字的二維碼
詳解Java執(zhí)行groovy腳本的兩種方式
Python word文本自動化操作實現(xiàn)方法解析
詳解如何實現(xiàn)phpoffice的excel導入功能解耦
ant design vue datepicker日期選擇器中文化操作
vue異步更新dom的實現(xiàn)淺析
前后端ajax和json數(shù)據(jù)交換方式
Android 使用騰訊X5瀏覽器上傳圖片的示例
Windows Phone 支持 Android 應用程序？來看看第三方開發(fā)者怎么說
詳解PHP實現(xiàn)HTTP服務器過程