import pandas as pd
import numpy as np

df=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102', periods=6),
"city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','210-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]},columns =['id','date','city','category','age','price'])
df

df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008],
"gender":['male','female','male','female','male','female','male','female'],
"pay":['Y','N','Y','Y','N','Y','N','Y',],
"m-point":[10,12,20,40,40,40,30,20]})
df1

# 数据表inner匹配合并，类比于sql中的join
df_inner=pd.merge(left=df,right=df1,how='inner')
df_inner

# 数据表left匹配合并，类比于sql中的left join
df_left=pd.merge(left=df,right=df1,how='left')
df_left

# 数据表right匹配合并，类比于sql中的right join
df_right=pd.merge(left=df,right=df1,how='right')
df_right

# 设置id列为索引列
df_inner.set_index('id')

# 排序sort_values函数和sort_index
# 按特定列的值排序
df_inner.sort_values(by=['age'],ascending=True)

# 按索引列排序
df_inner.sort_index()

# 数据判断分组函数where，类似于if函数
#如果price列的值>3000，group列显示high，否则显示low
df_inner['group'] = np.where(df_inner['price']>3000, 'high', 'low')
df_inner

#对复合多个条件的数据进行分组标记，np.where里面组合条件也行
df_inner.loc[(df_inner['city']=='beijing') & (df_inner['price']>=4000), 'sign']=1
df_inner

# 对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size
# 这里面嵌套的x.split('-') for x in df_inner['category']我没懂，还能这么写？
split = pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size'])
split

# for循环遍历series
for x in df_inner['category']:
    print(x)

100-A
100-B
110-A
110-C
210-A
130-F

# 使用原表的index作为merge的主键进行合并
df_inner=pd.merge(df_inner,split,how='inner',left_index=True,right_index=True)
df_inner

	id	date	city	category	age	price
0	1001	2013-01-02	Beijing	100-A	23	1200.0
1	1002	2013-01-03	SH	100-B	44	NaN
2	1003	2013-01-04	guangzhou	110-A	54	2133.0
3	1004	2013-01-05	Shenzhen	110-C	32	5433.0
4	1005	2013-01-06	shanghai	210-A	34	NaN
5	1006	2013-01-07	BEIJING	130-F	32	4432.0

	id	gender	pay	m-point
0	1001	male	Y	10
1	1002	female	N	12
2	1003	male	Y	20
3	1004	female	Y	40
4	1005	male	N	40
5	1006	female	Y	40
6	1007	male	N	30
7	1008	female	Y	20

	category	size
0	100	A
1	100	B
2	110	A
3	110	C
4	210	A
5	130	F