読者です 読者をやめる 読者になる 読者になる

暇人の研究室

金融工学やR言語・統計学について書いてます。

<

【プログラミング】HTMLの仕組み

 

 

近頃はビックデータの時代でデータ集めや分析が簡単になりました。そしてデータの収集先で一番多いのがインターネットです。

 

 

インターネットからデータを集める方法の1つとしてサイトのHTML情報をそのまま引っ張ってくる所謂、スクレイピングというものがあります。そしてスクレイピングを行うためには、まずWEBページの仕組みについて理解しておかなければなりません。

 

 

ですが、HTMLについて知らなければデータを引っ張って来ても扱い方が全然わからないということになります。(私がそうでした)なので、今回はHTMLについてざっくり見ていきたいと思います。

 

 

 

・HTMLとは?

 

 HTMLとはHyper text markup languageの略で文書を構造化するために形式で、国際的な基準となっているフォーマットです。

 

 

・HTMLの形式

 

ブログとかをやってた人はなんとなく分かると思いますが、HTMLはざっくり表すとこんな形式です。基本としては<html>~</html>の中に要素を詰め込みます。

 

 

<html ...>
<head>
ヘッド要素の内容
</head>
<body>
ボディ要素の内容
</body>
</html>

 

 

・HTMLの要素

 

1番目の部分をHTMLのhead要素といい、2番目の部分をbody要素といいます。この2つをあわせたもの、つまりHTMLの本体をhtml要素といいます。

 

 

このように、HTMLは文書を構成するパーツを「要素」と呼んで、要素の組合せとしてページを作り上げていきます。

 

 

さて、私たちが勝手に「これは要素だ」と決めても、それを何らかの方法で明示してあげないことには、「利用者」には区別がつきません。

 

 

そこで、文中に「ここからここまでがこの要素だ」という目印を付けることにします。この目印を「タグ」と呼び、目印を付けていくことを「マークアップ」といいます。

 

 

このように、HTMLは「タグ」で構成されているので、スクレイピングしたデータを分析する際はタグの文字で検索を掛けていくことになります。

 

 

Rなどほとんどのプログラミング言語では収集したWEBページのデータ(HTML)はDOMという形式に変換されて保存されます。そしてDOMではHTML内の要素をノード(Node)と言い、ここから必要な部分を検索したり抽出したりしてデータ分析を行うのです。

 

次は実際にRで簡単なスクレイピングを行っていきます。

 

()

 

ちなみに、スクレイピングについてはこちらの本が解説しているのでオススメです。入門と書いてますが、実務でも使えるレベルです。