import pandas as pd
import numpy as np
#读取表,shift+tab查看方法参数
df=pd.DataFrame(pd.read_csv('population_total.csv'))
df.head()
#为了直观的显示数字,不采用科学计数法
pd.set_option('display.float_format', lambda x: '%.2f' % x)
#基础数学属性描述
df.describe()
# 创建数据表,np.nan代表null值
df=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102', periods=6),
"city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','210-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]},columns =['id','date','city','category','age','price'])
df.head()
#数据表检查
# 查看数据表的维度
df.shape
# 查看数据表的整体信息
df.info()
#查看数据格式
df.dtypes
# 查看单列格式
df['id'].dtype
# 查看空值,
df.isnull()
#查看特定列是否为null
df['price'].isnull()
#查看唯一值,只能对特定列的唯一值
df['price'].unique()
#查看数据表数值
df.values
# 查看列属性名称
df.columns
# 查看前3行数据
df.head(3)
# 查看后3行数据
df.tail(3)
#数据的基础数学描述
df.describe()