Pythonデータファイルの作り方

マニュアル

ここでは、当サイトが推奨するSQLエディタ「A5:SQL Mk-2」で、Pythonデータ分析に使うデータファイルの作り方を説明します。

回帰分析の知識や手法、ウンチクはここでは語りません。このページはあくまで「PC-KYOTEI Database」のマニュアルです。知らない単語が出てきたらググってください。データ分析に決まりはありません。ここで紹介するのは一例です。統計学の本などを参考にして、最終的には自分流のやり方を確立してください。今回使用するデータはあくまでマニュアル用、つまり画面の使い方を説明するために都合が良いデータです。なので、こんな内容がデータ分析として有効なんか?儲かるんか?などと考えたり、ツッコミは無しでお願いします(笑)

データファイルのルール

まず、Pythonデータ分析で使うデータファイルのルールについて。

  • ファイル形式はCSVまたはTSV。
  • データに改行を含めない。
  • 項目名のヘッダ行は必須。
  • データを囲むダブルクォーテーションの有無は問わない。
  • 文字コードはShift_JIS。

ここまではシステムの世界の一般的なルールと同じです。この他に、

  • 項目名はユニーク(※重複なし)にする。
  • 項目名は半角英数字にする。

「半角英数字」は絶対ではありませんが、そうしといたほうが他の開発にもいろいろ都合が良いです。なので、ぜひ習慣にしてください。

ちなみに「CSV」と「TSV」の違いは、データの区切り文字が「カンマ」か「タブ文字」か、の違いだけです。表計算ソフトでもよく使うためファイル形式は一般的に「CSV」が好まれますが、管理人@PC-KYOTEIは「TSV」を強くオススメします。データにカンマが含まれ、プログラムが予期しない動作をする可能性はあっても、データにタブ文字が必要で使われることは99.9%無いからです。

データファイルの作り方

では本当に簡単にですが「A5:SQL Mk-2」を使った、具体的なデータファイルの作り方を紹介します。PC-KYOTEI Databaseの「Pythonデータ分析」で出来るデータ分析は「重回帰分析」です。

まず、目的変数を決めましょう。その次に、この項目は目的変数に影響があるんじゃないか?という仮説を立てて説明変数を設計します。例えば、次のような内容で分析してみます。

■集計条件

  • 開催年 2020年

※レコード数は324118件になりました。

■目的変数

  • 着順

■説明変数

  • 艇番
  • 勝率
  • 平均ST
  • 今期能力指数

そして、ここまでの内容で設計した目的変数と説明変数の「表」を出力するSQLを書いて「A5:SQL Mk-2」で実行します。目的変数は列の先頭にしておくと何かと便利です。その検索結果をシートの上にある「TSV」ボタンでエクスポート(出力)します。出力する場所は覚えやすい、適当な場所でよいです。

ここまでの内容で作成したデータファイル(TSV形式)のサンプルです。「Pythonデータ分析」画面のテストに使ってください。→ PythonSampleTsv.zip

「データファイルの作り方」は以上です。

最後に。この記事のデータ作成に使用したSQLを有料会員に公開しています。ユーザーがカスタマイズして利用することも可能ですし、SQLを学習したい方の参考にもなります。

SQLファイルのダウンロードと使い方

コンテンツの残りを閲覧するにはログインが必要です。 お願い . あなたは会員ですか ? 会員について