暇人の研究室

金融工学やR言語・統計学について書いてます。

<

【Web技術】APIについての分かりやすい解説

APIとは? APIとは、アプリケーションプログラミングインタフェース( Application Programming Interface)とは、ソフトウェアコンポーネントが互いにやりとりするのに使用するインタフェースの仕様である。 ひとことでいうと、APIとは「ソフトウェアの機能…

【R言語】rvestパッケージによるウェブスクレイピング その2

www.tkstock.site 前回に引き続いて今回は実際のWebサイトをスクレイピングしていきます。 というわけで新世紀エヴァンゲリオンのWikipediaのデータ(新世紀エヴァンゲリオン - Wikipedia)をスクレイピングしてタグや文字の検索・抽出を行っていきます。 ##…

【Web技術】Rでのスクレイピングにおける文字コードの確認と変換

文字コードとは? コンピュータ内部では文字であろうと画像であろうと、あらゆるものを数値で処理しています。 文字コードとはPC上で文字を表示させる仕組みで、ひらがな・カタカナ・漢字にそれぞれ特定の数値を当てはめて区別する仕組みです。 ちなみに日本…

【Web技術】XMLとは何なのか?

XMLとは? XMLはデータを構造的に記録して送信するために開発されたフォーマットで、HTMLが見栄えに重きを置いているのに対して、XMLはデータ管理に重きを置いたマークアップ言語です。 例えば売り上げデータなどを管理したいなどという場合にXMLを使用する…

【Web技術】『https://』『www.』とは何なのか?その違いは?

みなさん、ウェブブラウザでネットサーフィンをしているときブラウザのアドレス欄によく「https://www.~」というのを目にすると思います。 今回はこの「http」と「www」とは何なのか?について取り上げていきたいと思います。 httpとは? httpとは、Hyperte…

Webドキュメントから情報抽出するための技術まとめ

前回は、HTMLなどのWeb上におけるデータの表示構造の種類についてまとめました。 ⇨WEB上でデータを配信技術のまとめ(http・HTML・XML・AJAX・JSON) 今回はそのWebデータから文字やリンク・表といった情報を抽出する技術について見ていきます。 xpath 『XPa…

WEB上でデータを配信技術のまとめ(http・HTML・XML・AJAX・JSON)

HTML GooglechromeやFirefoxなどのインターネットブラウザでWebページを表示する際、その情報をどのようにして書くのかという構造基準が存在しています。 これがハイパーテキストマークアップ言語、いわゆる『HTML』というやつです。 これはWikipediaからTwi…

【ファイナンス】企業価値とは何なのか?

企業の価値とは? 企業の価値とは何なのでしょうか?企業の価値とは、ざっくりいうとその企業を自分のものにするためにいくら払えばいいのかということです。 つまり企業の発行している株式をすべて購入すればいいという事なので、『企業価値=株価×発行済み…

【R言語】xtsパッケージによる時系列データの操作

Rでは時系列データを扱うための様々なパッケージまたはクラス(オブジェクト)が用意されています。今回はその1つであるxtsパッケージについて紹介していきます。 古いRの参考書だと時系列データは全部tsパッケージでやっているものがよくありますが、金融デ…

【R言語】Rでブラック・ショールズ・モデルの計算をしてみる その2

www.tkstock.site ↑に引き続き、今度はプットオプションの価格をBSモデルを使って計算していきます。 コールオプションが買う権利であるのに対して、プットオプションは売る権利なので、行使価格Kの値は大きい(原資産額が低い)ほど大きな利益をあげること…

【R言語】Rでブラック・ショールズ・モデルの計算をしてみる その1

www.tkstock.site 今回はRを使ってブラックショールズモデルの関数を作ってみます。 www.tkstock.site 今回は公式の通り、原資産額(S)・行使価格(K)・ボラティリティ(σ)・無リスク金利(r)・期間(T)を使ってコールオプションの価格(原資産額Sの金…

ブラック・ショールズ・モデル(BSモデル)を文系にも分かりやすく説明していく

導入 金融工学を勉強するにあたってまず知っておかなければいけないのが、ブラックショールズモデルというやつです。 このブラックショールズモデルというのは、金融工学の上では基礎中の基礎的な感じでよく話に上がりますが、その理論体系を理解するのは私…

【R言語】functionで関数を自作するための基礎知識 その1

R

Rの長所としてはfunction()という関数を使うことで特定の変数に自分の作った計算コードを保存できるという点があります。まあ自分で複雑なfunctionのスクリプトを書いてパッケージが作れるくらいが理想なのですが、現実はパッケージ頼りという人が結構多いと…

【R言語】RでTwitterのデータを取得してみる

Rではウェブページのデータを引っ張ってくる(スクレイピング)するだけでなく、RからWEB APIを介してWEBサービスを利用することもできます。 今回は有名なAPI WEBサービスの1つであるTwitterのデータ取得します。これには「twitteR」というパッケージがと…

【R言語】Rでの単位根検定 その2

www.tkstock.site というわけで前回に引き続き、Rでの時系列データを使った単位根検定を行っていきます。前回の結果としては2005年から2016年までのTOPIXのデータには、時系列分析を行う上で必要な定常性がありませんでした。なのでデータを加工することで、…

【R言語】Rでの単位根検定 その1

R

時系列データは大きく「定常過程」と「非定常過程」の2つに分けることできます。そして、分析するデータが「定常過程」であるか「非定常過程」であるかを検定するのが、「単位根検定」というやつです。 Rで単位根検定を行うには、元からRにインストールされ…

【R言語】時系列分析にオススメパッケージまとめ

R

まず時系列データとは時間と共に変化するデータの事を指し、代表的なものとしては株価データや気象データがあります。 時系列データ解析はデータの数値だけではなく、時間的な位置も意味合いを持つので他のデータ解析とは少し異なるアプローチで分析していか…

【R言語】Rでのプログラミング  その2

・条件式と論理記号 ==:等しい !=:等しくない !:~でない ・条件ごとに異なる処理を行う 条件ごとに異なる処理を行う場合はswitch()を使います。 > x<-2> y<-5> z<-"+"> switch(z,+ "*"={print("掛け算");x*y},+ "+"={print("足し算");x+y})[1] "足し算"[…

【R言語】Rでのプログラミング  その1

R

・条件文(if文) Rでは、ifとelseを使って条件文が書けます。 書式は>if (条件式) (処理) else (処理) といった感じです。 簡単な例としてxが10未満かどうかを判定し結果を表示します > if(x<10)"YES"else"NO"[1] "YES" ちなみにRにおいて不等号(≦・≧)は<…

【R言語】rvestパッケージによるウェブスクレイピング その1

R

Rで実際にウェブ上のHTML・XML形式のデータをスクレイピングするには、rvestパッケージがオススメです。 rvestパッケージは何をしてくれるパッケージなのかというと、HTMLやXMLからデータを検索・抽出するための言語であるxpath(XML Path Language)をRで簡…

【Web技術】スクレイピングする上で抑えておきたいHTMLの基本的な仕組み

R

近頃はビックデータの時代でデータ集めや分析が簡単になりました。そしてデータの収集先で一番多いのがインターネットです。 インターネットからデータを集める方法の1つとしてサイトの情報をそのまま引っ張ってくるスクレイピングというものがあります。 …

【R言語】dplyrパッケージの使い方

R

今回はRでデータ処理を効率的に行うのを手助けしてくれるパッケージの一つであるdplyrパッケージの使い方を紹介していきます。この記事ではざっくりとした説明で、詳しく知りたい方はこちらの本に書いてあるので是非どうぞ Rによるスクレイピング入門 石田 …

【金融工学】ポートフォリオ理論とCAPM

今回はファイナンスにおける債権のリスクの計算方法の一つであるCAPM理論について取り上げていきたいと思います。 まず今2つの証券ABを保有しているとします。そして、A・Bそれぞれの収益率:rA,rBは平均:μA,μB、分散:σA,σBの確率分布の実現値とします。…

【金融工学】ファイナンスにおける相関の意味

・相関とは? まずおさらいですが、「相関」とは2つの変数(データ)の関わり具合を示しています。 「相関が高い」とは2つの変数が互いに密接に結びついているという事を指し、反対に「相関が低い」場合は2変数間の関係は薄いという事になります。そして「無相…

【R言語】データが正規分布なのか検定する方法

今日は統計フリーソフトRを使ってデータが正規分布なのかを検定する方法について説明してきます。 ファイナンスでよく使われる確率分布が正規分布です。ちなみになぜよく使われるのかというと計算しやすいからです。 www.dmjtmj-stock.com ・今回使うデータ …

【時系列分析】見せかけの回帰(続編)

www.tkstock.site 前回のおさらいではありますが、非定常(単位根系列)同士の時系列データを回帰分析したところで、その分析結果には「見せかけの回帰」が発生する可能性が信頼性は低くなってしまいますが、2つのデータが共和分関係にある場合はその限りで…

【R言語】データフレームの操作に使う関数一覧

久しぶりRを触ったら、データフレームの操作が驚くほどできなくなっていたので改めてデータフレームの操作に使う関数を自分なりにまとめてみます。 > 〇〇<-read.csv("〇〇.csv") ##csvの読みこんでオブジェクトに保存する なんかread.csvでうまくcsvが取り…

【R言語】Rによる単回帰分析 その1

今回は統計フリーソフトRを使って回帰分析を行っていきます。回帰分析はデータ分析の超基本であり、ファイナンスなどの分野でもよく使われる分析手法です。 www.dmjtmj-stock.com もし株で儲けようと思って、ある株価と経済指標の関係性を調べたい場合、経済…

【R言語】Rによる単回帰分析 その2

前回行った回帰分析の結果の説明を行っていきます。 > summary(lm) ##分析結果の要約 Call:lm(formula = sv[, 1] ~ sv[, 2], data = sv) Residuals: Min 1Q Median 3Q Max -9.6615 -1.3700 -0.0903 0.9603 18.6892 Coefficients: Estimate Std. Error t valu…

【統計学】見せかけの回帰について

今回は統計的データ分析において大切な概念である「見せかけの回帰」と「単位根検定」「共和分」について取り上げたいと思います。 よく雑誌などで、株価やGDPなどのデータをそのまま時系列に並べて回帰分析した結果を、あたかも絶対的に正しい分析結果か…

【R言語】株価データへのGARCHモデルの当てはめ

www.tkstock.site 前回のARモデルに当てはめ、その残差分析を行ったところ任天堂の株価収益率のデータには分散不均一性があることが分かりました。 というわけで今回は、引き続きRを使って分散不均一性を説明しうるモデルであるGARCHへの当てはめを行ってい…

【時系列分析】ARCHモデルとGARCHモデルの分かりやすい解説

金融時系列において、しばしば観察される現象として時系列の変動が大きくなるとしばらく変動の大きい時期が持続し、変動が小さくなるとしばらく変動の小さい時期が持続するというものがあります。(ボラティリティ・クラスタリング) www.dmjtmj-stock.com …

【統計学】ホワイトノイズとは?

ホワイトノイズとは? ホワイトノイズはざっくり説明すると、自己相関のない確率変数のことを指します。これは時系列モデルを作成・検証する上において残差分析のところで必要になるものです。 www.dmjtmj-stock.com ホワイトノイズの特徴 具体的にホワイト…

【R言語】時系列モデルの残差解析

前回は時系列データからARモデルを作りました。そしてこの算出したモデルが本当に合っているかどうかの条件は、モデルの値と実現値の誤差項(残差)を調べ、それがホワイトノイズであることです。 もし残差がホワイトノイズであれば、モデルの当てはめは成功…

【R言語】ARモデルの作成と検定

今回はRでARモデルを作って検証していきます。 一応ARモデルについておさらいしておくと、自己回帰モデルとはその名の通り、過去の自分のデータと回帰する分析手法のことを意味します。 これは色々ある時系列モデルの中で一番理屈が簡単なモデルで他のモデル…

【R言語】自己相関係数の算出方法

株価収益率などの時系列データではデータの値と観測時点が記録されおり、時系列分析では、このデータの並び順に意味を見出すことが分析において重要になってきます。 なので、通常の分析では「異なる2つの変数」の相関関係を計算するのに対して時系列分析で…

【R言語】変化率(株価収益率)の計算

今回はRによる変化率(株価収益率)の計算を行っていきたいと思います。 ・使うデータ 2005年から2016年までの任天堂の株価の終値 >Close2005-01-04 129802005-01-05 129302005-01-06 12580 ~ 2016-11-28 27970 2016-11-29 279902016-11-30 27775 株価データ…

【R言語】R内部のオブジェクトを確認・削除する方法

R

今回はR内部に保存したオブジェクトの確認方法について書いていきたいと思います。Rで統計解析をおこなう際に使用した変数(オブジェクト、ベクトルなど)は、Rでは内部で記憶され、Rを終了する時に「作業スペースを保存しますか?」と聞かれたときに「はい…

【統計学】P値とは何か?

P値はExcelなどで回帰分析を行なった時によく分析結果に出てくるものですが、今回はこの数値が何を意味する説明していきます。 P値とは? まず統計的検定には、誤りを2つの過ちをしてしまう可能性が存在しています。(詳しくは↓参照) www.tkstock.site 統計的…

【統計学】推定とは?

推定とは? 統計学における推定とは、「未知の母集団の性質(平均・分散など)を標本の性質に基づいて推測すること」を指します。 もし今、未知の母集団の母平均が µ、未知の母分散が σ²だとしたとき、このµ や σ² の値を推測しようとするのが「推定」です。…

【統計学】検定とは?

統計的検定とは? 統計学における「検定」とは、母集団の性質について推定した仮説と標本の観察結果と矛盾しないかどうかを調べることです。 具体例でいくと、サンプルを 100 個選んで調べた結果に基づいて、ある製品の平均的な重量が最低 50グラムはあるか…

【統計学】t分布の分かりやすい説明

・t検定とは? これまでは母集団のデータの性質である母平均と母分散が分かっているパターンにおける検定・推定を行ってきましたが、今回は母集団の平均が未知である場合の推定・検定(t検定)について説明していきます。 標本平均 X を標準化した変量の分…

【統計学】中心極限定理の正規近似による確率計算

・中心極限定理の意味 大数の法則によって、標本平均は母平均 µ のまわりに分布し、µ から離れる確率は n が大きくなるにつれて 0 になります。 このとき、標本平均 X の平均と分散の値だけでなく、標本平均X の分布も中心極限定理はよって求めることが可能…

【統計学】母集団と標本

今回は推定・検定の前段階として「母集団」と「標本」について説明していきます。 例えばいま、新薬を投与した患者についての新薬の効果に関するデータが手元にあり、これから病気に対する新薬は本当に有効なのかを知りたいとします。 このとき母集団となる…

【統計学】回帰分析の結果の意味

・回帰分析の結果の意味 今回は回帰分析の結果の意味について説明していきたいと思います。 Excelでは回帰分析が簡単にできます。でもその結果がどういう意味なのかが分からなければ意味がありません。 まず使うデータはしたのようなもので体重と身長の関係…