イントロダクション
前回までで、コマンドの入力→結果の表示 + コマンド実行クラス追加の作成を行いました。
今回は、画面から少し離れて、googleの検索画面を開く所を実装します。
設計:クローリング方法
以前、クローリング処理をどのようにやるか?を調べました。
その時に示した手順をJavaのプログラムで実行しようと思います。
以下の手順になります。
- Googleの検索テキストボックスに文字列を入力する
- 適当なサイトの中身を読み記載内容を自分の中でまとめます。
- まとめた内容から理解します。
※「理解する」というのが抽象的ですので「〜はXXXをする○○○である」というふうに情報を
整理することを指し示す事とします。
上の手順は、人間がやるときの手順になるのでプログラムが実行するときの手順に修正します。
- Googleの検索画面にアクセスする
- Googleの検索画面に検索キーワードを入力する
- Googleの検索画面の検索ボタンを押下する
- 検索した結果のURLリストからHTMLを取得する
- 取得したHTMLよりページの解析を行う
- 解析した結果をまとめる(人間が理解できるようにまとめる)
以上のような手順になります。
実装すること
まずは、上記の「1. Googleの検索画面にアクセス」を実装しようと思います。
<実行手順>
・コマンド画面より「acc」コマンドを入力してGoogle画面にアクセスする
まずはここからですので。。。
*コマンド入力に関してはこちらを参照してください
作成するもの
前回まで作成した状態では、以下の手順でコマンドクラスを追加できます。
- プロパティファイルに行を追加
-
CommandIFを実装したクラスを追加
早い話が。。。
コマンドを追加してGoogleの検索画面にアクセスしよう!ということです。
実装部分
プロパティファイルにキーと値を追加
以下のようにクラスを追加します。
Google検索画面にアクセスする
ちょっと調べてみた所、スレイピング(クローリングと同じ)は規約違反になるようです。
https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q13153706228
じゃ、合法的にやりましょう
世間では、「データサイエンス」なるものが流行っているのでBigデータ利用も増えてきています。(結構前から?) 2018/0701現在
というわけでBigデータから情報を取得する方向に切り替えて行います。
ちょっと調べて、チョチョイとは行かなそうなので次回にします。