2017.05.13 Sat |
Kaggleデータ探索(Speed Dating Experiment)
今回も前回(Backorder data解析: http://ritsuan.com/blog/6282/)、前々回(McDonald’s Menu Data: http://ritsuan.com/blog/6359/)に引き続きKaggleのデータ発掘を行っていきます。
今回目に留まったデータは、Speed Dating Experimentというデータです。
https://www.kaggle.com/datasets
軽く調べた感じ、まだ日本語で書かれた記事がなく、ちょっと調べた感じではかなりユニークなデータです。
https://www.kaggle.com/annavictoria/speed-dating-experiment
一目ぼれがどのような場合に起きるかを解析するために、コロンビア大学ビジネススクールのRay Fisman教授とSheena Iyengar氏が2002-2004年に実験的なスピードデートイベントを開催して収集したデータだそうです。
参加者は、各参加者と4分間のデートができ、そのあとに、参加者は再度その相手とデートしたいかを答える、ものだそうです。あと同時に、その相手についての魅力(Attractiveness)、誠実さ(Sincerity)、知性(Intelligence)、おもしろさ(Fun)、 野心(Ambition)、共有された興味(Shared Interests)を答える実験だそうです。
このデータセットは、参加者の属性データ、デートの習慣、ライフスタイル、自分と違う性別の人が同じ性別の人を評価するときに重要視すること、に関する情報も含みます。
このデータをもとに論文が書かれており、その論文の名前は、Gender Differences in Mate Selection: Evidence From a Speed Dating Experiment (http://faculty.chicagobooth.edu/emir.kamenica/documents/genderDifferences.pdf)というものなんですが、その論文の要旨には以下のようなことが書いてあります。
” 女性はパートナーの知性と人種を重要視し、一方で男性は女性の肉体的魅力に反応した。さらに言えば男性は女性の知性や野心が自分のそれを上回っている場合評価しなかった。”
とあります。
人種が異性選考に与える影響は以下の論文にまとめられています。
Racial Preferences in Dating (http://faculty.chicagobooth.edu/emir.kamenica/documents/racialpreferences.pdf)
この論文の要旨では以下のようなことが書かれています。
“女性は男性より強い人種好みを示した。被験者が生まれ育った郵便番号の地域での人種構成と被験者の生まれ育った州や郡で一般的な人種態度という被験者の背景が、被験者の同人種指向に大きく影響している”
他人種が少ない日本では、あまりピンとこない話ではありますが、気になる方は論文かデータ見てください。
ということでデータの概説は終わりです。
面白そうなデータであることは間違いなさそうですね。
それでは、データを読み込み、各変数の説明に入りたいと思います。
データは下記リンクにある、Downloadボタンからダウンロードできます。
https://www.kaggle.com/annavictoria/speed-dating-experiment
ダウンロード・解凍すると、csvファイルと、docファイルがあります。前者にはデータが、後者には各変数の説明が入っています。
今回は各変数の内容が非常に重要であり、一つ一つ説明していこうと思います。変数の数が多くて大変ですが。。
#データの読み込み
d=read.csv(“Speed Dating Data.csv”,header=T)
str(d)
195個の変数があり、全部一気に説明するのは大変そうです。
なので、データ解析しながら、各変数を解説できたらと思います。
#iid:被験者id
head(d$iid)
length(unique(d$iid))
#id:各wave(実験単位)ごとの被験者id
head(d$id)
length(unique(d$id))
#gender:Female=0,Male=1
#idg:グループ内・同性内でのid
head(d$idg)
length(unique(d$idg))
#condtn:(条件列)1=limited choice,2=extensive choice
#wave:(実験単位のid)
head(d$wave)
length(unique(d$wave))
#round:実験単位(wave)で会った異性の人数
#position:異性と会ったブースの番号
#positin1:スタートしたときのブースの番号
#order:異性と会った夜のデートの回数
#partner:異性のid(そのイベントでのidであってユニークidではない)
#pid:異性のiid(ユニークid)
#match:マッチしたかどうか(1=yes, 0=no)
#int_corr: 一回目に会った時の両者の興味指標の相関
#samerace:両者が同じ人種かどうか(1= yes, 0=no)
#age_o:相手の年齢
#race_o:相手の人種
#pf_o_att:Time1(attr1_1)での相手が評価した6指標の合計値
head(d$pf_o_att)
length(unique(d$pf_o_att))
#dec_o:その夜の相手の決断(書いてないけどおそらくNo=0,Yes=1)
#attr_o:相手が評価した6指標の評価値
head(d$attr_o)
length(unique(d$attr_o))
#age:被験者の年齢
#field:被験者の専門分野
head(d$field)
length(unique(d$field))
#field_cd: 専門分野のコード(1-18とNAの合計19個)
1= Law
2= Math
3= Social Science, Psychologist
4= Medical Science, Pharmaceuticals, and Bio Tech
5= Engineering
6= English/Creative Writing/ Journalism
7= History/Religion/Philosophy
8= Business/Econ/Finance
9= Education, Academia
10= Biological Sciences/Chemistry/Physics
11= Social Work
12= Undergrad/undecided
13=Political Science/International Affairs
14=Film
15=Fine Arts/Arts Administration
16=Languages
17=Architecture
18=Other
NA
#undergra:学部のときの大学名(242校)
#mn_sat:学部のときの大学のSATの点数の中央値
#tuition: 学部のときの大学の授業料
#race:人種
Black/African American=1
European/Caucasian-American=2
Latino/Hispanic American=3
Asian/Pacific Islander/Asian-American=4
Native American=5(今回のデータには実際は含まれない)
Other=6
NA
#imprace:デートする相手が自分と同じ人種・民族であることが重要かを0-10で評価(実際のデータにはNAを含む)
#imprelig:デートする相手が自分と同じ宗教を信じることが重要かを1-10で評価(実際のデータにはNAを含む)
#from:Columbiaに来る前のもともとの出身地(自由記述にしたらしく、書き方が統一されていない。)
#zipcode:生まれ育ったところの郵便番号(zip code)
#income:郵便番号をもとにしたその地域の世帯の年収の中央値(262水準で欠損値含む)
#goal:このイベントに参加した目的はなにか?
Seemed like a fun night out=1
To meet new people=2
To get a date=3
Looking for a serious relationship=4
To say I did it=5
Other=6
NA
#date:いつもどのくらいの頻度でデートに行くか?
Several times a week=1
Twice a week=2
Once a week=3
Twice a month=4
Once a month=5
Several times a year=6
Almost never=7
NA
#go_out:どのくらいの頻度で外出するか(必ずしもデートとは限らない)
Several times a week=1
Twice a week=2
Once a week=3
Twice a month=4
Once a month=5
Several times a year=6
Almost never=7
NA
#career:予定していた職業は何だったか?(欠損値含め368水準)
#career_c: 職業コード
1= Lawyer
2= Academic/Research
3= Psychologist
4= Doctor/Medicine
5=Engineer
6= Creative Arts/Entertainment
7= Banking/Consulting/Finance/Marketing/Business/CEO/Entrepreneur/Admin
8= Real Estate
9= International/Humanitarian Affairs
10= Undecided
11=Social Work
12=Speech Pathology
13=Politics
14=Pro sports/Athletics
15=Other
16=Journalism
17=Architecture
NA
#以下の変数は、変数名のスポーツにどれくらい興味を持っているかを1-10で評価したもの(NA含む)。
#sports: Playing sports/ athletics
#tvsports: Watching sports
#excersice: Body building/exercising
#dining: Dining out
#museums: Museums/galleries
#art: Art
#hiking: Hiking/camping
#gaming: Gaming
#clubbing: Dancing/clubbing
#reading: Reading
#tv: Watching TV
#theater: Theater
#movies: Movies
#concerts: Going to concerts
#music: Music
#shopping: Shopping
#yoga: Yoga/meditation
#exphappy:speed-dating eventで会った相手と一緒にいるとどれくらい幸せになれると予想するか(1-10)。NA含む。
#expnum:20人会った中で、何人があなたとのデートに興味を持ったと予想するか。
#以下6項目では、被験者が、異性の何を重視するかを答えてもらう。
Waves 6-9では、各1-10点(1=全く重要でない, 10=非常に重要)、
Waves 1-5, 10-21では、合計100点を分配するものとした。
#attr1_1:Attractive
#sinc1_1:Sincere
#intel1_1:Intelligent
#fun1_1:Fun
#amb1_1:Ambitious
#shar1_1:Has shared interests/hobbies
#次に大半の異性があなたと同性の人に何を求めるかを調べるものとする。
Waves 6-9では、各1-10点(1=全く重要でない, 10=非常に重要)、
Waves 1-5, 10-21では、合計100点を分配するものとした。
#attr4_1:Attractive
#sinc4_1:Sincere
#intel4_1:Intelligent
#fun4_1:Fun
#amb4_1:Ambitious
#shar4_1:Shared Interests/Hobbies
#異性はデートの中で何を求めると思いますか?
Waves 6-9では、各1-10点(1=全く重要でない, 10=非常に重要)、
Waves 1-5, 10-21では、合計100点を分配するものとした。
#attr2_1:Attractive
#sinc2_1:Sincere
#int2_1:Intelligent
#fun2_1:Fun
#amb2_1:Ambitious
#shar2_1:Has shared interests/hobbies
#あなた自身を評価してください(1-10)。
#attr3_1:Attractive
#sinc3_1:Sincere
#int3_1:Intelligent
#fun3_1:Fun
#amb3_1:Ambitious
#他の人があなたをどのように感じると思いますか?1-10 (1=awful, 10=great)で評価してください。
#attr5_1:Attractive
#sinc5_1:Sincere
#int5_1:Intelligent
#fun5_1:Fun
#amb5_1:Ambitious
195列ある変数のうちまだ半分くらいしか説明は終わっていないのですが、今回はここで終わりにしたいと思います。
かなり面白いデータであることは伝わったかと思います。
鈴木瑞人
東京大学大学院 新領域創成科学研究科 メディカル情報生命専攻 博士課程1年
東京大学機械学習勉強会 代表
NPO法人Bizjapan