本日の授業では、「データの収集と整理」に焦点を当てます。データには様々な種類があり、それを適切に収集し整理する技術は、情報化社会を生き抜くための基本的なスキルとなっています。一次データと二次データの違いやその収集方法、そして整理の方法を学びます。
黒板
授業
データの収集方法
なおや君、データの収集方法には大きく分けて2種類あるんだけど、これまで意識したことはあるかな?
うーん、誰かに聞くとか、ネットで調べるとかそういう事?
ほとんど正解。自分で計画して収集することで得られるのが一次データ,他人が収集したものを利用する二次データというよ。
一次データの収集
へー、じゃあアンケートとかは一次データってこと?
その通り!一次データは自分の目的に合わせて収集できるんだ。だけど、大きな手間や時間、そして費用がかかる場合もあるんだ。
確かに、自分でアンケートとかするの大変そう。でも、自分でやれば間違いないって思ってた。
そうだね。特に大規模なデータの収集は個人では難しいことも多いんだよ。そして、失敗するとやり直しがきかないこともあるから、計画をしっかり立てる必要があるよ。
以前クラスでアンケートしたときには、みんな真面目に答えてくれなくて大変だった。ちゃんと計画が必要ですね。
二次データの収集
次に二次データだけど、これは他人が収集したものを利用するんだ。近年では、インターネット上にたくさんのデータが公開されてるよね。
でも、他人が収集したデータだと、信用できるの?
良い質問だね。実際、二次データは自分の目的と合わない場合や誤っている可能性もあるんだ。データそのものは正確でも、情報が古くなっている場合もあるから、利用する際は注意が必要だよ。
なるほど。でも、簡単に手に入るのは魅力的だな。ただ、古いデータとか使っちゃうと、あとで困りそう…。
オープンデータとは
最近では、著作権の制約なしにデータを自由に使用できる「オープンデータ」という概念もあるんだ。日本でも、国や自治体、企業などがデータを公開しているよ。
それは便利!でも、そういうのってどこで見れるの?
インターネット上に専用のサイトやポータルがあるよ。ただし、使用する際は、データの信頼性や最新性をしっかり確認することが大切だよ。
まずは、国や自治体のオープンデータを探してみます。
データの種類
次にデータの種類について考えてみよう。データを収集し、分析を行う際には、集めるデータの種類や性質について考慮する必要があるよ。
種類や性質?
そう。文字情報などで表現されるデータは資的データ、数値で表現される量的データというんだ。
文字と数字の違いということ?
そう、それが一般的な考え方だ。しかし、質的データも、適切な方法でコード化すれば、数値として扱うこともできるんだ。
コード化って、どういうこと?
たとえば、人々の感情を調査する際、「非常に満足」「満足」「普通」「不満」「非常に不満」という選択肢を設けることがあるだろう?これらをそれぞれ、5、4、3、2、1という数値に置き換えることで、質的データを量的データとして分析することができるんだ。
なるほど!文字情報を数値で表す方法があるんだね。
尺度水準
さらに、データを数値で表現する場合、名義尺度、順序尺度、間隔尺度、比例尺度とという4つに分類できるんだ。その基準を「尺度水準」というよ。
名義尺度、順序尺度・・?初めて聞く言葉ばかりで、なんのことなのか全くわかりません。
ちょっと名前は難しいけれど、一つずつ見ていこう。
よろしくおねがいします
名義尺度
名義尺度は、数値の大小に意味がない質的データだよ。例えば、アンケートで回答者の性別を男性を1、女性を2と表した場合、1より2が大きいという比較は意味がないよね。
そうですね。それは意味がない。
名義尺度では、数値は単なる記号として使われるだけだからね。しかし、これらの数値は「等しいかどうか」の比較には意味がある。
プログラミングでは、if文で変数の値が等しいかどうかを実施しましたね。こういうときの計算はありということですね。
そのとおりだね。じゃあ、性別の他にどんな名義尺度が思いつくかな?
出席番号とか、背番号とかですか?
いいね。数値の他に、A、B、Cのようなアルファベットで表現することもあるよ。血液型とか、日本のことをJPと略す場合とかも、その例だよ。
数値でもアルファベットでもただの名前だから「名義」なんですね。よくわかりました。
順序尺度
順序尺度は、数値がある順序を表す質的データだよ。よく、料理のおいしさを5段階で表現したりするよね。
食べログの点数みたいなものですね。順序尺度のデータは比較はできても、足したり引いたりしても意味がないような気がしますね
その通り。順序尺度のデータでは、順序やランキングに意味があるけれど、その間隔や差に特定の意味があるわけではないんだ。この点は勘違いし易いから特に注意しよう。
そういえば、学校のテストの順位とかも同じですよね。1位と2位の点数の差が1点だったとしても、2位と3位の点数の差が10点だったりすることもありますもんね。
良い例だね。他には地震の震度や、鉱石の硬度なんかも、順序尺度だよ。
なるほど。じゃあ、これって質的なデータを無理やり数値化した、という解釈でいいんですか?
大体あっているけれど、「無理やり」という言葉はちょっと言いすぎかな。数値を当てはめることで、データを扱いやすくしたり、比較しやすくするための方法として導入されているんだ。
うーん、数値化は便利だけれども、一点の差で泣く笑うか決まってしまうのが現実。奥が深いですね。
間隔尺度
間隔尺度は順序尺度の大小関係に加えて、データの差が意味をもつ量的データだよ。
差が意味を持つなら計算出来そうですね。
そうだね。例としては、時刻や温度があるよ。たとえば、午後2時一午後1時=1時間,80°C-40°C=40°Cという具合に差に意味があるよね。
午後1時と午後2時を足して、午後3時?確かに意味がないですね。
比例尺度
比例尺度は、データの比が意味を持ち、0という基準にも意味がある量的データのことだよ。
0に意味があるって言うと、金額なんかがそれに当たるんですか?
その通り。0円はお金が「ない」という意味だし、100円は50円の2倍であると、データの比を考えることができるよね。
身長や体重等も比較できるから、比例尺度でいいですか?
よく理解しているね。比例尺度は四則演算が可能なデータ種類と覚えておこう。
データって日常生活で無意識に使ってるけど、こんなに深い意味があったなんて。
そうだね。データを上手く活用するためには、その性質を理解することが大切だよ。
まとめ
名言解説
“All Is Number” - Pythagoras
「万物は数なり」という言葉は、古代ギリシャの哲学者・数学者ピタゴラスによるものです。ピタゴラスは紀元前570年頃に生まれ、紀元前495年頃に亡くなったとされています。彼は音楽、数学、天文学など多岐にわたる分野での研究を行いました。特に、三平方の定理として知られるピタゴラスの定理を提唱したことで有名です。
この名言は、宇宙や自然界のあらゆるものは数学的な法則や原理に基づいているという彼の哲学的な考えを示しています。彼は、数学が宇宙の秩序や調和を理解する鍵であると信じていました。この考えは、現代の科学やテクノロジーの発展においても非常に重要な役割を果たしています。データの分析や数学的なアプローチは、私たちの日常生活や社会のさまざまな問題を理解し、解決する手助けとなっています。
数学やデータの分析は、時に難しく感じるかもしれませんが、それは宇宙や自然の真実を解き明かす鍵です。ピタゴラスの言葉を胸に、学びの旅を楽しんでください。未来は、数学的な思考を持つ皆さんの手によって、より良く変えられることでしょう。
問題
「クイズをスタート」のボタンをクリックすると、5問出題します。さあチャレンジ!
編集者ひとこと
尺度水準による分類は、データサイエンティストとしては必須の知識ですが、普段はあまり意識して分類していないものです。これを高校生がしっかりと学び、意識してデータ分析をしてくれると思うと、心強いばかりですね。
名言で紹介したピタゴラス、「宇宙の全ては数から成り立つ」と宣言した彼が、データを学習するたびに賢くなる、今の生成系AIを見たら聞いたらなんて言うんでしょうね?
<RANKING>
高校教育ランキング