ihit's diary

ちょっとしたメモに

python Tips

mapに複数の引数の関数を渡す

def func(x,y):
	return x*y

に対して

map(func,range(10),range(11:21))

map(lambda x,y:func(x,y),range(10),range(11:21))

でOK

ただし,multiprocessingを使うときはこうは行かなくて

def argwrapper(args):
	return args[0](*args[1:])

を定義した後

func_args = zip(range(10),range(11:20))
p.map(argwrapper, func_args)

としなければいけない.

あと

c = zip(a,b)

の逆は

a,b = zip(*c)

SublimeREPLのpythonでopencvを使えるようにする(Mac)

macportsでoepncvを入れてC++でもpythonでも使えるようにしたところまでは良かったものの,SumlimeREPLのpyhtonコンソールでは
import cv2
が出来なくて困っていた.
原因はSublimeREPLはMacデフォルトのpythonを使用していたみたいで,macportsで入れたpythonを実行するように環境変数を変更しないといけないとのこと.
そこで,[Preferences]→[Package Settings]→[SublimeREPL]→[Settings User]に
{
"default_extend_env": {"PATH": "/opt/local/Library/Frameworks/Python.framework/Versions/2.7/bin:/usr/local/bin/python2.7:{PATH}"}
}
と書き込んだ.
macportspythonのパス("/opt/local/Library/Frameworks/Python.framework/Versions/2.7/bin")を先頭に持ってくるだけでよかったのか…

Octaveインストール

CourseraでOctaveを使うということでインストールしてみたが、長く険しい道だった。

ちなみに環境はMac OSX 10.9.3

まずはMacPorts
wikiによると
sudo port install octave +atlas+docs
で入るとか何とか。
でやってみる...入らない。
atlas入れるところで躓く。

しばらくやって諦め、今度はインストーラーを使うことに
URLはここ

まずOctaveを入れ、グラフの出力用にGnuplotも入れる。

Octaveを入れたらとりあえずターミナルでoctaveと打ってみる...成功!
続いてgnuplot...エラー!
リンクがどうこうと書いてあり、調べて対処法を試してみるも上手くいかない。
仕方なくアンインストールしてgnuplotMacPortsで入れてみたら入ることには入るが、今度はoctaveでplotをしようとしても反応してくれない!
もう諦めようかなと思っていたらこのページに辿り着いた。
ここの通りにやってみたところ成功!
良かった良かった。

ちなみに先程のページではX11でグラフを表示していたけどaquatermでやったほうがグラフは綺麗だった。
2つの違いはこのページに詳しく書いてある。
また、aquatermに設定してたけどX11で表示したくなったら
setenv("GNUTERM","x11")
と打つ。

長かった...

Coursera (week2)

線形回帰のコスト関数をどうやって最適化するか

J(\theta)=\sum_{k=0}^{n}x_k\theta_k

(x_0=1)
1. 最急降下法を使う
2. 正規方程式を解く

最急降下法を使う際には学習率の調整が必要になる。大きすぎなきゃ収束することが保証されているから、小さいのから大きいのを3倍ずつくらいに分割して学習率を調整するのがいいとのこと。
また、早く収束するためにはデータの正規化も有効。本コースでは単純に平均を引いて大きさで割って0~1の正規化を行っていたけれど、平均0分散1になる正規化もOKだと思う。

正規方程式は
y = \theta X
をムーア・ペンローズの擬似逆行列を用いて解くというものだ
\theta = \left(X^TX\right)^{-1}X^Ty
正規方程式を解くことの利点は学習率が存在しないのでパラメータ調整が必要ない。また、データの正規化も必要ない。
しかし\left(X^TX\right)^{-1}がデータの次元数×次元数の行列となっていて、次元数が大きくなると逆行列を解くコストが高くなる。実際、逆行列を掃き出し法で解くとO(n^3)のオーダーとなる。Andrewさんは次元数が10000を勾配法と正規方程式の選ぶ境目ぐらいだと言っていた。

Coursera

最近CourseraのMachine Learningの授業を受け始めた。
Coursera(Coursera.org)はいろいろな大学の授業のオンライン講座だ。
日本だと東大が参加している。
Courseraのすごいところは授業にテストや課題があって規定以上の成績を修めると修了証を貰えるところだ。(全部の授業がそうではないみたいだが)

今受けているMachine Learningの授業(https://class.coursera.org/ml-005)はもうすでに終わったものだが、もうすぐ新しいMachine Learning講座が始まるらしいのでそっちもチェックしていきたい。

まだChapter1(Chapter10まである)しか受けていないけど説明はわかりやすくなかなかいい感じだ。

CSVファイルを開くにあたって

とあるcsvファイルを読み込もうとして起きたエラーについて

あるtextファイルのデータをnumbesを使ってcsvファイルに変換し

data = csv.reader(open("sample.csv"))

としたら普通に読み込めた、しかしあるデータをExcelを使ってcsvにして同じようにしたら

_csv.Error: new-line character seen in unquoted field - do you need to open the file in universal-newline mode?

というエラーが出てきた。これはどうやらmacwindowsの改行文字の違いによるエラーらしい
解決策としては

data = csv.reader(open("sample.csv","rU"))

とするだけ。簡単

Project Euler 33

33番
分子と分母に共通した数字を取り除くと約分した結果と同じになる分数を探す問題

コードは下のようになったけど、正直あんまり良くない
reduce_keta関数が分母分子に共通した数字を取り除くんだけど0を含んだ数字を入れるとダメ
今回は0を含んだ数字は明らかに題意を満たさないってわかるから除外してreduce_ketaに入れることにした

#!/usr/bin/env python
# -*- coding: utf-8 -*-

def gcm(a,b):
	if a % b == 0:
		return b
	else:
		return gcm(b,a%b)

def reduce_keta(a,b):
	bunsi = map(lambda x:int(x),list(str(a)))
	bunbo = map(lambda x:int(x),list(str(b)))
	for i in bunsi:
		if i in bunbo:
			bunsi.remove(i)
			bunbo.remove(i)
	if len(bunbo) == 1 and len(bunsi) == 1:
		new_bunsi = bunsi[0] / gcm(bunbo[0],bunsi[0])
		new_bunbo = bunbo[0] / gcm(bunbo[0],bunsi[0])
		return [new_bunsi,new_bunbo]
	else:
		return []

ans_bunsi = 1
ans_bunbo = 1
for i in range(11,99):
	if i % 10 == 0:
		continue
	for j in range(i-1,10,-1):
		if j % 10 == 0:
			continue
		if reduce_keta(j,i) == [j/gcm(j,i),i/gcm(j,i)] and j/gcm(j,i) < 10 and i/gcm(j,i) < 10:
			ans_bunsi *= reduce_keta(j,i)[0]
			ans_bunbo *= reduce_keta(j,i)[1]
print ans_bunbo/gcm(ans_bunbo,ans_bunsi)