暇人の研究室

金融工学やR言語・統計学について書いてます。

<

スクレイピング

【R言語】rvestパッケージによるウェブスクレイピング その2

www.tkstock.site 前回に引き続いて今回は実際のWebサイトをスクレイピングしていきます。 というわけで新世紀エヴァンゲリオンのWikipediaのデータ(新世紀エヴァンゲリオン - Wikipedia)をスクレイピングしてタグや文字の検索・抽出を行っていきます。 ##…

【Web技術】Rでのスクレイピングにおける文字コードの確認と変換

文字コードとは? コンピュータ内部では文字であろうと画像であろうと、あらゆるものを数値で処理しています。 文字コードとはPC上で文字を表示させる仕組みで、ひらがな・カタカナ・漢字にそれぞれ特定の数値を当てはめて区別する仕組みです。 ちなみに日本…

Webドキュメントから情報抽出するための技術まとめ

前回は、HTMLなどのWeb上におけるデータの表示構造の種類についてまとめました。 ⇨WEB上でデータを配信技術のまとめ(http・HTML・XML・AJAX・JSON) 今回はそのWebデータから文字やリンク・表といった情報を抽出する技術について見ていきます。 xpath 『XPa…

WEB上でデータを配信技術のまとめ(http・HTML・XML・AJAX・JSON)

HTML GooglechromeやFirefoxなどのインターネットブラウザでWebページを表示する際、その情報をどのようにして書くのかという構造基準が存在しています。 これがハイパーテキストマークアップ言語、いわゆる『HTML』というやつです。 これはWikipediaからTwi…

【R言語】RでTwitterのデータを取得してみる

Rではウェブページのデータを引っ張ってくる(スクレイピング)するだけでなく、RからWEB APIを介してWEBサービスを利用することもできます。 今回は有名なAPI WEBサービスの1つであるTwitterのデータ取得します。これには「twitteR」というパッケージがと…