800100715151 Astronomide Veritabanları¶

Ders - 04 Pandas Paketiyle Veri İşleme¶

Doç. Dr. Özgür Baştürk
Ankara Üniversitesi, Astronomi ve Uzay Bilimleri Bölümü
obasturk at ankara.edu.tr
http://ozgur.astrotux.org

Bu derste neler öğreneceksiniz?¶

Pandas Paketi İleri Konular¶

Pandas Paketiyle Veriyi İşlenmek Üzere Hazırlama
Verinin Birbirine Bağlanması: Merging
Veriçerçevesi ve Serileri Ucuca Ekleme: Concatenating
- Veriçerçevelerinin Ucuca Eklenmesi
  - Kesişim ve Bileşke Yöntemleriyle Ucuca Ekleme
Veri Çerçevelerini Birleştirme: Combining
Sütun ve Satırlarda Döndürme: Pivoting
- Uzun ve Geniş Tablolar: Longframe ve Wideframe
Veri çıkarma: Removing
- Tekrarlayan Satırların Atılması
Eşleştirme
Çoklu İndeksleme
Kaynaklar

Pandas Paketiyle Veriyi İşlenmek Üzere Hazırlama¶

Verileri pandas paketiyle işlemeye başlamadan önce, veriyi hazırlamak ve veri yapıları oluşturacak şekilde birleştirmek gerekir. Ayrıca bu işlemler veri biliminin de temel adımlarından birini oluşturur. Böylece daha sonra pandas kütüphanesi tarafından sağlanan araçlar ile manipüle edilebilirler. Veri hazırlama için farklı prosedürler aşağıda listelenmiştir.

Veriyi Yükleme
Veriyi Bir Araya Getirme
• Bağlama (ing. merging)
• Ucuca Ekleme (ing. concatenating)
• Birleştirme (ing. combining)
Veri Yapısını Yeniden Şekillendirme (ing. pivoting)
Veri Çıkarma (ing. removing)

Veri yükleme için çeşitli yöntemlerle (sözlükler, listeler, numpy dizileri kullanarak) pandas serileri (pandas.Series) ve veriçerçeveleri (pandas.DataFrame) oluşturmayı Pandas'a Giriş dersinde görmüştünüz. Ayrıca verinin sütunlar şeklinde yapılandırılmış dosyalardan pandas.read_csv fonksiyonuyla okunarak veriçerçevelerine yüklenmesi de örneklendirilmişti. Ancak, farklı kaynaklarda ve muhtemelen farklı formatlarda saklanan veriyi aldıktan sonra bir veriçerçevesinde (DataFrame'de) birleştirmek gibi hazırlık işlemlerine de ihtiyaç duyulabilir. Örneğin bir ötegezegene ve barınak yıldızına ilişkin pek çok bilgi exoplanet.eu ya da NASA Exoplanet Archive gibi kataloglardan alınabiliyor olsa da özellikle yıldıza ilişkin bilgilerin daha güncel olarak bulunabileceği Gaia veritabanı ya da tayfsal parametrelerinin bulunduğu veritabanlarından alınarak yıldıza ilişkin bazı bilgilerin güncellenmesi ya da diğer bazılarının eklenmesi istenebilir. Bu bölümde verilerin bütünleşik bir veri yapısına dönüştürülmesi için yapılması gerekli işlemler tartışılacaktır.

pandas nesnelerinde tutulan veriler farklı şekillerde bir araya getirilebilirler:

Veriyi bağlama (ing. merging): pandas.merge() fonksiyonu, bir veya daha fazla anahtara bağlı olarak bir veritabanı çerçevesindeki (DataFrame'deki) satırları birbirine bağlar. SQL dilindeki $join$ metoduna benzer niteliktedir.
Veriyi ucuca ekleme (ing. concatenating): pandas.concat() fonksiyonu veri nesnelerini (Series ve DataFrame) bir eksen boyunca ucuca ekler.
Veriyi birleştirme (ing. combining): pandas.DataFrame.combine_first() fonksiyonu, başka bir yapıdan veri alarak veri yapısındaki eksik değerleri doldurmak ya da güncelleme için bağlamanızı sağlayan bir yöntemdir.

	id	mV	par
0	Arcturus	-0.05	88.83
1	Deneb	1.25	2.31
2	Betelgeuse	0.42	6.55
3	Rigel	0.13	3.78
4	Vega	0.03	130.23

	id	e	i [derece]	P [gun]	psi [derece]	Mp [x10^24 kg]	Rp [km]	rho [g/cm^3]	Prot [saat]
0	Merkur	0.205	7.0	88.0	0.034	0.330	2439.5	5.427	1407.6
1	Venus	0.007	3.4	224.7	177.400	4.870	6052.0	5.243	-5832.5
2	Dunya	0.017	0.0	365.2	23.400	5.970	6378.0	5.514	23.9
3	Mars	0.094	1.9	687.0	25.200	0.642	3396.0	3.933	24.6
4	Jupiter	0.049	1.3	4331.0	3.100	1898.000	71492.0	1.326	9.9
5	Saturn	0.057	2.5	10747.0	26.700	568.000	60268.0	0.687	10.7
6	Uranus	0.046	0.8	30589.0	97.800	86.800	25559.0	1.271	-17.2
7	Neptun	0.011	1.8	59800.0	28.300	102.000	24764.0	1.638	16.1

	id_x	sptype	mV	id_y	par
0	Arcturus	K1.5 III	-0.05	Arcturus	88.83
1	Deneb	A2 Ia	1.25	Deneb	2.31
2	Betelgeuse	M1 Iab	0.42	Betelgeuse	6.55
3	Rigel	B8 Ia	0.13	Rigel	3.78
4	Merak	A0 V	2.37	Vega	130.23
5	Merak	A0 V	2.37	Fomalhaut	129.01
6	Vega	A0 V	0.03	Vega	130.23
7	Vega	A0 V	0.03	Fomalhaut	129.01

	id	sptype	d
0	Arcturus	K1.5 III	11.257458
1	Betelgeuse	M1 Iab	152.671756
2	Rigel	B8 Ia	264.550265
3	Deneb	A1 I	432.900433
4	Vega	A0 V	7.678722
5	Fomalhaut	A0 V	7.751337
6	Polaris	F8 Ib	132.625995

	A	B
1	0.728995	NaN
2	0.775793	NaN
3	0.959097	NaN
4	0.138579	NaN
5	NaN	0.577445
6	NaN	0.777666
7	NaN	0.035385
8	NaN	0.897081

		A	B	C
1	1	0.490788	0.464997	0.748811
	2	0.836915	0.479361	0.641746
	3	0.979305	0.856202	0.163091
2	4	0.952128	0.659635	0.692526
	5	0.947335	0.467892	0.992781
	6	0.622717	0.504856	0.808872

		A	B	C
X	1	0.581774	0.330418	0.713601
	2	0.138608	0.265059	0.155960
	3	0.881244	0.862327	0.442467
Y	1	0.980460	0.594537	0.724819
	2	0.211729	0.045210	0.983485
	3	0.871971	0.922965	0.548481

	iyon	liste	dalgaboyu
1	FeI	VALD	5292.509
2	FeI	Custom	5292.513
4	NaI	VALD	5682.261
5	NaI	Custom	5682.258
7	CaII	VALD	5167.618
8	CaII	Custom	5167.620

	iyon	liste	dalgaboyu
0	FeI	NIST	5292.512
1	FeI	VALD	5292.509
2	FeI	Custom	5292.513
3	NaI	NIST	5682.256
4	NaI	VALD	5682.261
5	NaI	Custom	5682.258
6	CaII	NIST	5167.615
7	CaII	VALD	5167.618
8	CaII	Custom	5167.620

	iyon	liste	dalgaboyu	referanslar
0	FeI	NIST	5292.512	NIST ASD Team (2019)
1	FeI	VALD	5292.509	Ryabchikova (1997)
2	FeI	User	5292.513	this study
3	NaI	NIST	5682.256	NIST ASD Team (2019)
4	NaI	VALD	5682.261	Ryabchikova (1997)
5	NaI	User	5682.258	this study
6	CaII	NIST	5167.615	NIST ASD Team (2019)
7	CaII	VALD	5167.618	Ryabchikova (1997)
8	CaII	User	5167.620	this study

	ogr1	ogr2	ogr3
odev	65	80	44
vize	45	74	37
final	70	90	62

		veri1	veri2
x	0	0.746613	0.403287
x	1	0.950982	0.022387
y	0	0.129968	0.780553
y	1	0.263632	0.558567

	iyon	liste	dalgaboyu	referanslar
FeI_NIST	FeI	NIST	5292.512	NIST ASD Team (2019)
FeI_VALD	FeI	VALD	5292.509	Ryabchikova (1997)
FeI_User	FeI	User	5292.513	this study
NaI_NIST	NaI	NIST	5682.256	NIST ASD Team (2019)
NaI_VALD	NaI	VALD	5682.261	Ryabchikova (1997)
NaI_User	NaI	User	5682.258	this study
CaII_NIST	CaII	NIST	5167.615	NIST ASD Team (2019)
CaII_VALD	CaII	VALD	5167.618	Ryabchikova (1997)
CaII_User	CaII	User	5167.620	this study

		derinlikler
HAT-P-36b	T100	0.0206
HAT-P-36b	T80	0.0220
XO-3b	T100	0.0096
XO-3b	T80	0.0100
KELT-16b	T100	0.0152
KELT-16b	T80	0.0170

		derinlikler
gezegen	teleskop
HAT-P-36b	T100	0.0206
HAT-P-36b	T80	0.0220
XO-3b	T100	0.0096
XO-3b	T80	0.0100
KELT-16b	T100	0.0152
KELT-16b	T80	0.0170

	hostname	sy_snum	sy_pnum	discoverymethod	disc_year	disc_facility	pl_controv_flag	pl_orbper	pl_orbpererr1	pl_orbpererr2	...	sy_disterr2	sy_vmag	sy_vmagerr1	sy_vmagerr2	sy_kmag	sy_kmagerr1	sy_kmagerr2	sy_gaiamag	sy_gaiamagerr1	sy_gaiamagerr2
pl_name
11 Com b	11 Com	2	1	Radial Velocity	2007	Xinglong Station	0	323.21000	0.06000	-0.05000	...	-1.9238	4.72307	0.023	-0.023	2.282	0.346	-0.346	4.44038	0.003848	-0.003848
11 UMi b	11 UMi	1	1	Radial Velocity	2009	Thueringer Landessternwarte Tautenburg	0	516.21997	3.20000	-3.20000	...	-1.9765	5.01300	0.005	-0.005	1.939	0.270	-0.270	4.56216	0.003903	-0.003903
14 And b	14 And	1	1	Radial Velocity	2008	Okayama Astrophysical Observatory	0	186.76000	0.11000	-0.12000	...	-0.7140	5.23133	0.023	-0.023	2.331	0.240	-0.240	4.91781	0.002826	-0.002826
14 Her b	14 Her	1	2	Radial Velocity	2002	W. M. Keck Observatory	0	1765.03890	1.67709	-1.87256	...	-0.0073	6.61935	0.023	-0.023	4.714	0.016	-0.016	6.38300	0.000351	-0.000351
16 Cyg B b	16 Cyg B	3	1	Radial Velocity	1996	Multiple Observatories	0	798.50000	1.00000	-1.00000	...	-0.0111	6.21500	0.016	-0.016	4.651	0.016	-0.016	6.06428	0.000603	-0.000603

	pl_bmassj	pl_radj
count	5563.000000	5563.000000
mean	1.387069	0.505955
std	7.470618	0.472643
min	0.000060	0.028000
25%	0.012700	0.159000
50%	0.027370	0.247000
75%	0.503500	1.044000
max	282.000000	6.900000

	hostname	sy_snum	sy_pnum	disc_year	disc_facility	pl_controv_flag	pl_orbper	pl_orbpererr1	pl_orbpererr2	pl_orbperlim	...	sy_disterr2	sy_vmag	sy_vmagerr1	sy_vmagerr2	sy_kmag	sy_kmagerr1	sy_kmagerr2	sy_gaiamag	sy_gaiamagerr1	sy_gaiamagerr2
discoverymethod
Astrometry	3	3	3	3	3	3	3	3	3	3	...	3	2	2	2	3	3	3	3	3	3
Disk Kinematics	1	1	1	1	1	1	0	0	0	0	...	1	1	1	1	1	1	1	1	1	1
Eclipse Timing Variations	17	17	17	17	17	17	17	16	16	17	...	16	16	16	16	15	15	15	16	16	16
Imaging	68	68	68	68	68	68	21	17	17	21	...	65	57	57	56	64	64	63	61	61	61
Microlensing	210	210	210	210	210	210	10	8	8	10	...	206	12	10	9	14	13	13	1	1	1
Orbital Brightness Modulation	9	9	9	9	9	9	9	6	6	9	...	8	9	9	9	9	4	4	9	9	9
Pulsar Timing	7	7	7	7	7	7	6	6	6	6	...	6	1	1	1	1	1	1	1	1	1
Pulsation Timing Variations	2	2	2	2	2	2	2	2	2	2	...	2	2	2	2	2	2	2	2	2	2
Radial Velocity	1088	1088	1088	1088	1088	1088	1088	1084	1084	1088	...	1086	1088	1085	1082	1086	1086	1077	1075	1074	1074
Transit	4168	4168	4168	4168	4168	4168	4168	3715	3715	4168	...	4053	4165	4162	4161	4162	4132	4130	4134	4133	4133
Transit Timing Variations	29	29	29	29	29	29	29	17	17	29	...	28	29	29	29	29	29	29	28	28	28

	count	unique	top	freq
discoverymethod
Astrometry	3	3	Paranal Observatory	1
Disk Kinematics	1	1	Atacama Large Millimeter Array (ALMA)	1
Eclipse Timing Variations	17	6	Multiple Observatories	9
Imaging	68	17	Paranal Observatory	20
Microlensing	210	6	OGLE	90
Orbital Brightness Modulation	9	1	Kepler	9
Pulsar Timing	7	4	Arecibo Observatory	3
Pulsation Timing Variations	2	2	Kepler	1
Radial Velocity	1088	29	La Silla Observatory	280
Transit	4168	34	Kepler	2746
Transit Timing Variations	29	4	Kepler	21

	pl_bmassj			pl_radj
	min	median	max	min	median	max
discoverymethod
Astrometry	2.26000	5.00000	28.500	1.060	1.1500	1.19
Disk Kinematics	2.50000	2.50000	2.500	1.180	1.1800	1.18
Eclipse Timing Variations	1.61000	5.90000	23.700	1.070	1.1400	1.21
Imaging	2.00000	11.72900	30.000	0.934	1.1200	6.90
Microlensing	0.00302	0.55000	29.000	0.089	1.1100	1.28
Orbital Brightness Modulation	0.00140	1.25000	2.100	0.068	1.1900	1.36
Pulsar Timing	0.00006	0.01353	2.500	0.030	0.1655	1.24
Pulsation Timing Variations	3.20000	7.50000	11.800	1.100	1.1350	1.17
Radial Velocity	0.00220	1.05650	29.365	0.081	1.1200	1.39
Transit	0.00012	0.02070	282.000	0.028	0.2125	2.10
Transit Timing Variations	0.00135	0.14334	22.000	0.071	0.3280	1.25

800100715151 Astronomide Veritabanları¶

Ders - 04 Pandas Paketiyle Veri İşleme¶

Bu derste neler öğreneceksiniz?¶

Pandas Paketi İleri Konular¶

Pandas Paketiyle Veriyi İşlenmek Üzere Hazırlama¶

Verinin Birbirine Bağlanması: Merging¶

Veri Çerçevelerini Bağlama Türleri¶

Bire bir Bağlama¶

Çoktan bire Bağlama¶

Çoktan çoka Bağlama¶

Farklı Sütunlar Üzerinden Bağlama¶

İndeks Üzerinden Bağlama İşlemleri¶

join Metodu¶

Veriçerçevesi ve Serileri Ucuca Ekleme: Concatenating¶

Veriçerçevelerinin Ucuca Eklenmesi¶

Kesişim ve Bileşke Yöntemleriyle Ucuca Ekleme¶

Veri Çerçevelerini Birleştirme: Combining¶

Sütun ve Satırlarda Döndürme: Pivoting¶

Uzun ve Geniş Tablolar: Longframe ve Wideframe¶

Veri çıkarma: Removing¶

Tekrarlayan Satırların Atılması¶

Eşleştirme¶

Eşleşenleri Değiştirme¶

Eşleştirme Yaparak Yeni Bir Sütun Ekleme¶

Eşleştirme Yaparak İndeks İsimlerini Değiştirme¶

Çoklu İndeksleme¶

Veri Gruplama¶

GroupBy Fonksiyonuyla Veri Gruplama¶

aggregatge Metodu¶

filter Metodu¶

trasformation Metodu¶

apply Metodu¶

Kaynaklar¶