第2回 Python 3 データ分析 問題あり

間違えた問題 2,6,13,31,35,37
ーーーーーーーーーーーーーーーーー
1.

機械学習に関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

2.データ分析に関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

3.PythonおよびPythonの実行環境に関する次の記述のうち、正しいものはどれか。

4.次のスクリプトの2行目以降を代替できるリスト内包表記として正しいものはどれか。colors = [‘red’, ‘blue’, ‘yellow’]

lens =[]

for color in colors:

lens.append(len(color))

lens

 
 
 
 

 

5.次の正規表現を用いたスクリプトの[ ア ]の部分に入れたときエラーとなるものはどれか。

import re
prog = re.compile(‘Kus(a|u)n(a|o)(k|g)i(saya)?’, re.IGNORECASE)

[ ア ]

print(ret[0])

 
 
 
 

 

6.モジュールに関する次の記述のうち誤っているものはどれか。

 
 
 
 

 

7.Jupyter Notebookに関する次の記述のうち正しいものはどれか。

 
 
 
 

 

8.数学の基礎に関する次の記述のうち誤っているものはどれか。

 
 
 
 

 

9.(3, 4) で表現されるベクトルをAとする。(4, 7)で表現されるベクトルをBとする。(2, 4, 5) で表現されるベクトルをCとする。次のベクトルに関する記述のうち正しいものはどれか。

 
 
 
 

 

10.行列に関する次の記述のうち誤っているものはどれか。

 
 
 
 

 

11.微分積分に関する以下の記述のうち誤っているものはどれか。

 
 
 
 

 

12.確率と統計に関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

13.「1の対数、ネイピア数、sin(30°)、円周率、0の階乗」の5つの数からなるデータがある。このデータについて正しいものはどれか。

 
 
 
 

 

14.NumPyに関する次の記述のうち、誤っているものはどれか。

 
 
 
 

 

15.次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([7,8,9])
print(a[-1:, [1,2]], b.shape)

 
 
 
 

 

16.次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.arange(1, 10, 2)
b = np.eye(6)
print(a[-1], b[3, 3])

 
 
 
 

 

17.次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.full((2, 3), np.pi).T.ravel()
b = np.linspace(0, 1, 5)
c = np.hstack([a, b])
print(a[-1], c[-2])

 
 
 
 

 

18.次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.array([0, 9, 99, 999])
a = a + 1
a = a * 10
b = np.log10(a)
print(a[2], b[1])

 
 
 
 

 

19.次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.array([1, 4])
b = np.array([-1, 6])
c = np.array([[1, 2], [3, 4]])
d = a @ b
e = np.dot(c, a)
print(d, e)

 
 
 
 

 

20.次のスクリプトを実行して20を出力させたい。[ア]に入るものの説明として正しいものはどれか。

import pandas as pd
df = pd.DataFrame([[15, “a”, True],[20, “b”, False],[10, “c”, False]])
df.index = [“01”, “02”, “03”]
df.columns = [“A”, “B”, “C”]
[ア]
print(a)

 
 
 
 

 

21.pandasのデータの読み込みと書き込みに関する次の記述のうち誤っているものはどれか。

 
 
 
 

 

22.次のスクリプトを実行した結果として正しいものはどれか。

import pandas as pd
df = pd.DataFrame([[40, “a”, True],[20, “b”, False],[30, “c”, False]])
df.index = [“01”, “02”, “03”]
df.columns = [“A”, “B”, “C”]

def judge(arg):
if arg < 50:
return “low”
elif arg < 70:
return “middle”
else:
return “high”

df.loc[:, “C”] = df.iloc[:, 0] * 2
df.loc[:, “B”] = df.iloc[:, 2].apply(judge)
_ = df[“C”] > 50
df = df[_]

print(df.iloc[0 , 2], df.loc[“03″ ,”B”])

 
 
 
 
 

23.次のスクリプトに関する説明のうち誤っているものはどれか。

import numpy as np
import pandas as pd
np.random.seed(123)
dates = pd.date_range(start=”2017-04-01″, periods=365)
df = pd.DataFrame(np.random.randint(1, 31, 365), index=dates, columns=[“rand”])
df_year = pd.DataFrame(df.groupby(pd.Grouper(freq=’W-SAT’)).sum(), columns=[“rand”] )

 
 
 
 

 

24.DataFrameの欠損値の処理に関する次の記述のうち、誤っているものはどれか。

 
 
 
 

 

25.DataFrameの基本統計量に関する次の記述のうち、誤っているものはどれか。

 
 
 
 

 

26.pandasに関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

27.Matplotlibに関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

28.Matplotlibに関する次の記述のうち、誤っているものはどれか。

 
 
 
 

 

29.Matplotlibを用いてsin, cosのグラフを描画する次のスクリプトに関する説明のうち正しいものはどれか。

import numpy as np
import matplotlib.pyplot as plt
x = np.arange(0.0, 15.0, 0.1)
y1 = np.sin(x)
y2 = np.cos(x)
fig, ax = plt.subplots()
ax.plot(x, y1, label=’sin’)
ax.plot(x, y2, label=’cos’)
ax.legend()

plt.show()

 
 
 
 

 

30.次のスクリプトに関する説明のうち正しいものはどれか。

import matplotlib.pyplot as plt
fig, ax = plt.subplots()
x = [1, 2, 3]
y1 = [10, 2, 3]
y2 = [5, 3, 6]
labels = [‘Setosa’, ‘Versicolor’, ‘Virginica’]
【ア】
ax.bar(x, y_total, tick_label=labels, label=’y1′) …【イ】
ax.bar(x, y2, label=’y2′) …【ウ】
ax.legend()
plt.show()

 
 
 
 

 

31.Matplotlibを用いて正規分布に従うランダムな値をヒストグラムで描画する次のコード群に関する説明のうち誤っているものはどれか。

import numpy as np
import matplotlib.pyplot as plt
np.random.seed(123)
mu = 100
sigma = 15
x = np.random.normal(mu, sigma, 1000)
fig, ax = plt.subplots()
n, bins, patches = ax.hist(x, bins=25, orientation=’horizontal’)
for i, num in enumerate(n):
print(‘{:.2f} – {:.2f} {}’.format(bins[i], bins[i + 1], num))

plt.show()

 
 
 
 
 

32.Matplotlibを用いて円グラフを描画する次のスクリプトに関する説明のうち誤っているものはどれか。

import matplotlib.pyplot as plt
labels = [‘spam’, ‘ham’, ‘egg’]
x = [10, 3, 1]
fig, ax = plt.subplots()
ax.pie(x, labels=labels, startangle=90, counterclock=False, shadow=True, autopct=’%1.2f%%’)

plt.show()

 
 
 
 

 

33.機械学習の前処理に関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

34.分類に関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

35.機械学習のアルゴリズムに関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

36.次のスクリプトに関する説明のうち誤っているものはどれか。

from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
boston = load_boston()
X, y = boston.data, boston.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)
lr = LinearRegression()
lr.fit(X_train, y_train )
y_pred = lr.predict(X_test)

 
 
 
 

 

37.次元削減に関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

38.モデルの評価指標に関する次の記述のうち、誤っているものはどれか。

 
 
 
 

 

39.次のスクリプトに関する説明のうち誤っているものはどれか。

from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)
clf = DecisionTreeClassifier()
param_grid = {‘max_depth’: [3, 4, 5]}
cv = GridSearchCV(clf, param_grid=param_grid, cv=10)
cv.fit(X_train, y_train)
y_pred = cv.predict(X_test)

 
 
 
 

 

40.クラスタリングに関する次の記述のうち、正しいものはどれか。

 
 
 
 

 

# 回答

1.

機械学習に関する次の記述のうち、正しいものはどれか。


あなたの回答: 教師なし学習の1つであるDBSCAN法は密度準拠クラスタリングアルゴリズムであり、特徴量ベクトル間の距離に着眼した手法である。
正答: 教師なし学習の1つであるDBSCAN法は密度準拠クラスタリングアルゴリズムであり、特徴量ベクトル間の距離に着眼した手法である。

 

 

データ分析に関する次の記述のうち、正しいものはどれか。


あなたの回答: データサイエンティストの役割は、研究分野と実務で多少の違いがある。研究分野においては解決したい課題に向き合う部分が重視され、実務においては新たな解法や新技術への取り組みが重視される。
正答: Pythonでデータ分析に使われる主なパッケージには、Jupyter Notebook、NumPy、pandas、Matplotlib、Scipy、scikit-learnなどがある。

 

 

PythonおよびPythonの実行環境に関する次の記述のうち、正しいものはどれか。


あなたの回答: pipコマンドは、The Python Package Index に公開されているPythonパッケージのインストールなどを行うユーティリティである。パッケージをインストールするにはpip installコマンドを使用する。
正答: pipコマンドは、The Python Package Index に公開されているPythonパッケージのインストールなどを行うユーティリティである。パッケージをインストールするにはpip installコマンドを使用する。

 

 

次のスクリプトの2行目以降を代替できるリスト内包表記として正しいものはどれか。

colors = [‘red’, ‘blue’, ‘yellow’]

lens =[]

for color in colors:

lens.append(len(color))

lens


あなたの回答: No Answer Provided
正答: [len(color) for color in colors]

 

 

次の正規表現を用いたスクリプトの[ ア ]の部分に入れたときエラーとなるものはどれか。

import re
prog = re.compile(‘Kus(a|u)n(a|o)(k|g)i(saya)?’, re.IGNORECASE)

[ ア ]

print(ret[0])


あなたの回答: ret = prog.search(‘Kusanoao’)
正答: ret = prog.search(‘Kusanoao’)

 

 

モジュールに関する次の記述のうち誤っているものはどれか。


あなたの回答: pickleモジュールは、Pythonのオブジェクトを直列化してファイルなどで読み書きできるようにすることができる。pickle化できるものとしてブール値や数値、文字列などがある。
正答: loggingモジュールのログレベルには、重要度の高い順にCRITICAL、ERROR、WARNING、DEBUG、INFOの5種類がある。

 

 

Jupyter Notebookに関する次の記述のうち正しいものはどれか。

あなたの回答: Jupyter Notebookはオープンソースで開発されているデータ分析、可視化、機械学習などに広く利用されるWebアプリケーションである。
正答: Jupyter Notebookはオープンソースで開発されているデータ分析、可視化、機械学習などに広く利用されるWebアプリケーションである。

 

 

数学の基礎に関する次の記述のうち誤っているものはどれか。

あなたの回答: ネイピア数とは数学定数の一つで、常用対数の底であり、通常「e」の記号で表現される。対数関数で底が省略された場合には、「e」なのか「10」なのかは注意が必要である。
正答: ネイピア数とは数学定数の一つで、常用対数の底であり、通常「e」の記号で表現される。対数関数で底が省略された場合には、「e」なのか「10」なのかは注意が必要である。

 

 

(3, 4) で表現されるベクトルをAとする。(4, 7)で表現されるベクトルをBとする。(2, 4, 5) で表現されるベクトルをCとする。次のベクトルに関する記述のうち正しいものはどれか。

あなたの回答: Bの原点からのマンハッタン距離は11である。
正答: Bの原点からのマンハッタン距離は11である。

 

 

行列に関する次の記述のうち誤っているものはどれか。

あなたの回答: 行列同士の掛け算は行列となる。数値の掛け算は順番を入れ替えても同じ結果となるが、行列の掛け算は順番を入れ替えると同じ結果になることはない。
正答: 行列同士の掛け算は行列となる。数値の掛け算は順番を入れ替えても同じ結果となるが、行列の掛け算は順番を入れ替えると同じ結果になることはない。

 

 

微分積分に関する以下の記述のうち誤っているものはどれか。

あなたの回答: 右辺が5x^2(5掛けるxの2乗)で表現される関数 f(x)を積分すると、右辺は15x^3+C(Cは積分定数)となる。
正答: 右辺が5x^2(5掛けるxの2乗)で表現される関数 f(x)を積分すると、右辺は15x^3+C(Cは積分定数)となる。

 

 

確率と統計に関する次の記述のうち、正しいものはどれか。

あなたの回答: 6面体のサイコロを1回振った場合、その出目の数自体は不明なものの、奇数がでていることを教えられたとする。この場合の確率を条件付き確率と呼び、これはベイズの定理の基本となっている。
正答: 6面体のサイコロを1回振った場合、その出目の数自体は不明なものの、奇数がでていることを教えられたとする。この場合の確率を条件付き確率と呼び、これはベイズの定理の基本となっている。

 

 

「1の対数、ネイピア数、sin(30°)、円周率、0の階乗」の5つの数からなるデータがある。このデータについて正しいものはどれか。

あなたの回答: 算術平均は中央値より小さい
正答: 0の階乗は1の対数より大きい

 

 

NumPyに関する次の記述のうち、誤っているものはどれか。

あなたの回答: NumPyは配列や行列を効率よく扱うためのPythonのサードパーティ製パッケージで、行列用の型であるndarrayと配列用の型であるmatrixがある。
正答: NumPyは配列や行列を効率よく扱うためのPythonのサードパーティ製パッケージで、行列用の型であるndarrayと配列用の型であるmatrixがある。

 

 

次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([7,8,9])
print(a[-1:, [1,2]], b.shape)

あなたの回答: [[5 6]] (3,)
正答: [[5 6]] (3,)

 

 

次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.arange(1, 10, 2)
b = np.eye(6)
print(a[-1], b[3, 3])

あなたの回答: 9 1.0
正答: 9 1.0

 

 

次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.full((2, 3), np.pi).T.ravel()
b = np.linspace(0, 1, 5)
c = np.hstack([a, b])
print(a[-1], c[-2])

あなたの回答: 3.141592653589793 0.75
正答: 3.141592653589793 0.75

 

 

次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.array([0, 9, 99, 999])
a = a + 1
a = a * 10
b = np.log10(a)
print(a[2], b[1])

あなたの回答: 1000 2.0
正答: 1000 2.0

 

 

次のスクリプトを実行した結果として正しいものはどれか。

import numpy as np
a = np.array([1, 4])
b = np.array([-1, 6])
c = np.array([[1, 2], [3, 4]])
d = a @ b
e = np.dot(c, a)
print(d, e)

あなたの回答: 23 [ 9 19 ]
正答: 23 [ 9 19 ]

 

 

次のスクリプトを実行して20を出力させたい。[ア]に入るものの説明として正しいものはどれか。

import pandas as pd
df = pd.DataFrame([[15, “a”, True],[20, “b”, False],[10, “c”, False]])
df.index = [“01”, “02”, “03”]
df.columns = [“A”, “B”, “C”]
[ア]
print(a)

あなたの回答: a = df.loc[“02”, “A”] または a = df.iloc[1, 0]
正答: a = df.loc[“02”, “A”] または a = df.iloc[1, 0]

 

 

pandasのデータの読み込みと書き込みに関する次の記述のうち誤っているものはどれか。

あなたの回答: read_htmlメソッドを使うと、WebサイトのHTML内のtable要素を、直接DataFrameに取り込むことができる。table要素が複数ある場合には、最初の要素のみが取得される。
正答: read_htmlメソッドを使うと、WebサイトのHTML内のtable要素を、直接DataFrameに取り込むことができる。table要素が複数ある場合には、最初の要素のみが取得される。

 

 

次のスクリプトを実行した結果として正しいものはどれか。

import pandas as pd
df = pd.DataFrame([[40, “a”, True],[20, “b”, False],[30, “c”, False]])
df.index = [“01”, “02”, “03”]
df.columns = [“A”, “B”, “C”]

def judge(arg):
if arg < 50:
return “low”
elif arg < 70:
return “middle”
else:
return “high”

df.loc[:, “C”] = df.iloc[:, 0] * 2
df.loc[:, “B”] = df.iloc[:, 2].apply(judge)
_ = df[“C”] > 50
df = df[_]

print(df.iloc[0 , 2], df.loc[“03″ ,”B”])

あなたの回答: 80 middle
正答: 80 middle

 

 

次のスクリプトに関する説明のうち誤っているものはどれか。

import numpy as np
import pandas as pd
np.random.seed(123)
dates = pd.date_range(start=”2017-04-01″, periods=365)
df = pd.DataFrame(np.random.randint(1, 31, 365), index=dates, columns=[“rand”])
df_year = pd.DataFrame(df.groupby(pd.Grouper(freq=’W-SAT’)).sum(), columns=[“rand”] )

あなたの回答: 5行目は、日付をインデックスとするDataFrameを作成している。dfを出力するとrand列の各値は、1から31までのランダムな整数となる。
正答: 5行目は、日付をインデックスとするDataFrameを作成している。dfを出力するとrand列の各値は、1から31までのランダムな整数となる。

 

 

DataFrameの欠損値の処理に関する次の記述のうち、誤っているものはどれか。

あなたの回答: mode().iloc[1.:]の結果をfillnaメソッドに引数として渡すと、欠損値を最頻値で補完できる。
正答: mode().iloc[1.:]の結果をfillnaメソッドに引数として渡すと、欠損値を最頻値で補完できる。

 

 

DataFrameの基本統計量に関する次の記述のうち、誤っているものはどれか。

あなたの回答: describeメソッドは期待値を取得できる。
正答: describeメソッドは期待値を取得できる。

 

 

pandasに関する次の記述のうち、正しいものはどれか。

あなたの回答: 相関係数はcorr関数で出力でき、その値は必ず-1から1の間となる。1に近いほど強い正の相関関係があり、-1に近いほど強い負の相関関係があり、0では相関関係がないといえる。
正答: 相関係数はcorr関数で出力でき、その値は必ず-1から1の間となる。1に近いほど強い正の相関関係があり、-1に近いほど強い負の相関関係があり、0では相関関係がないといえる。

 

 

Matplotlibに関する次の記述のうち、正しいものはどれか。

あなたの回答: 「オブジェクト指向スタイル」は一つのfigureオブジェクトに対して複数のサブプロットを指定できる。つまり複数のグラフをまとめて表示できるという利点がある。
正答: 「オブジェクト指向スタイル」は一つのfigureオブジェクトに対して複数のサブプロットを指定できる。つまり複数のグラフをまとめて表示できるという利点がある。

 

 

Matplotlibに関する次の記述のうち、誤っているものはどれか。

あなたの回答: 同じフォントの指定を複数回繰り返す場合、フォントの設定をタプルデータとして作成し、fontdict引数に一度に指定できる。タプルはイミュータブルなため、誤って上書きされることを防ぎやすい。
正答: 同じフォントの指定を複数回繰り返す場合、フォントの設定をタプルデータとして作成し、fontdict引数に一度に指定できる。タプルはイミュータブルなため、誤って上書きされることを防ぎやすい。

 

 

Matplotlibを用いてsin, cosのグラフを描画する次のスクリプトに関する説明のうち正しいものはどれか。

import numpy as np
import matplotlib.pyplot as plt
x = np.arange(0.0, 15.0, 0.1)
y1 = np.sin(x)
y2 = np.cos(x)
fig, ax = plt.subplots()
ax.plot(x, y1, label=’sin’)
ax.plot(x, y2, label=’cos’)
ax.legend()

plt.show()

あなたの回答: np.sin(x)、np.cos(x)は、それぞれ引数「x」を弧度法のラジアンで処理する。
正答: np.sin(x)、np.cos(x)は、それぞれ引数「x」を弧度法のラジアンで処理する。

 

 

次のスクリプトに関する説明のうち正しいものはどれか。

import matplotlib.pyplot as plt
fig, ax = plt.subplots()
x = [1, 2, 3]
y1 = [10, 2, 3]
y2 = [5, 3, 6]
labels = [‘Setosa’, ‘Versicolor’, ‘Virginica’]
【ア】
ax.bar(x, y_total, tick_label=labels, label=’y1′) …【イ】
ax.bar(x, y2, label=’y2′) …【ウ】
ax.legend()
plt.show()

あなたの回答: barメソッドの引数に変数y1は利用されていない。
正答: barメソッドの引数に変数y1は利用されていない。

 

 

Matplotlibを用いて正規分布に従うランダムな値をヒストグラムで描画する次のコード群に関する説明のうち誤っているものはどれか。

import numpy as np
import matplotlib.pyplot as plt
np.random.seed(123)
mu = 100
sigma = 15
x = np.random.normal(mu, sigma, 1000)
fig, ax = plt.subplots()
n, bins, patches = ax.hist(x, bins=25, orientation=’horizontal’)
for i, num in enumerate(n):
print(‘{:.2f} – {:.2f} {}’.format(bins[i], bins[i + 1], num))

plt.show()

あなたの回答: このスクリプトを実行するとヒストグラムに加えて度数分布表が出力される。
正答: histメソッドのデフォルトのビン数は20であるが、上記スクリプトで出力されるヒストグラムのビンの数は25である

 

 

Matplotlibを用いて円グラフを描画する次のスクリプトに関する説明のうち誤っているものはどれか。

import matplotlib.pyplot as plt
labels = [‘spam’, ‘ham’, ‘egg’]
x = [10, 3, 1]
fig, ax = plt.subplots()
ax.pie(x, labels=labels, startangle=90, counterclock=False, shadow=True, autopct=’%1.2f%%’)

plt.show()

あなたの回答: 円グラフのアスペクト比は保持される
正答: 円グラフのアスペクト比は保持される

 

 

機械学習の前処理に関する次の記述のうち、正しいものはどれか。

あなたの回答: 最小最大正規化とは、特徴量の最小値が0、最大値が1を取るように特徴量を正規化する処理であり、scikit-learnでは、preprocessingモジュールのMinMaxScalerクラスを用いて実行することができる。
正答: 最小最大正規化とは、特徴量の最小値が0、最大値が1を取るように特徴量を正規化する処理であり、scikit-learnでは、preprocessingモジュールのMinMaxScalerクラスを用いて実行することができる。

 

 

分類に関する次の記述のうち、正しいものはどれか。

あなたの回答: 構築したモデルが持つ未知のデータに対する対応能力を「汎化能力」という。
正答: 構築したモデルが持つ未知のデータに対する対応能力を「汎化能力」という。

 

 

機械学習のアルゴリズムに関する次の記述のうち、正しいものはどれか。

あなたの回答: サポートベクタマシンで決定境界を求める際にマージンを最小にする理由は、決定境界がサポートベクタから近くなり、多少のデータが変わっても誤った分類を行う可能性を低くできると期待できるからである。
正答: scikit-learnでランダムフォレストを実行するにはensembleモジュールのRandomForestClassifierクラスを使用する。パラメータで決定木の個数を指定することもできる。

 

 

次のスクリプトに関する説明のうち誤っているものはどれか。

from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
boston = load_boston()
X, y = boston.data, boston.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)
lr = LinearRegression()
lr.fit(X_train, y_train )
y_pred = lr.predict(X_test)

あなたの回答: このスクリプトで行う回帰は住宅価格を特徴量から求める単回帰である。
正答: このスクリプトで行う回帰は住宅価格を特徴量から求める単回帰である。

 

 

次元削減に関する次の記述のうち、正しいものはどれか。


あなたの回答: 次元削減は、データが持っている情報をなるべく損ねることなく次元を削減してデータを展開するタスクである。
正答: 主成分分析(principal component analysis)は、scikit-learnのdecompositonモジュールのPCAクラスを用いて実行することができる。

 

 

モデルの評価指標に関する次の記述のうち、誤っているものはどれか。


あなたの回答: 適合率、再現率、F値、正解率は、機械学習を用いて構築した回帰モデルの良し悪しを評価する指標であり、混同行列から計算する。
正答: 適合率、再現率、F値、正解率は、機械学習を用いて構築した回帰モデルの良し悪しを評価する指標であり、混同行列から計算する。

 

 

次のスクリプトに関する説明のうち誤っているものはどれか。

from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
iris = load_iris()
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)
clf = DecisionTreeClassifier()
param_grid = {‘max_depth’: [3, 4, 5]}
cv = GridSearchCV(clf, param_grid=param_grid, cv=10)
cv.fit(X_train, y_train)
y_pred = cv.predict(X_test)

あなたの回答: このスクリプトを複数回実行した場合、求められる決定木の深さの最適値は必ず同じ値となる。
正答: このスクリプトを複数回実行した場合、求められる決定木の深さの最適値は必ず同じ値となる。

 

 

クラスタリングに関する次の記述のうち、正しいものはどれか。


あなたの回答: k-meansは、最初にランダムにクラスタ中心を割り当て、クラスタ中心を各データとの距離を計算しながら修正し、最終的なクラスタ中心が収束するまで再計算を行いクラスタリングする手法である。
正答: k-meansは、最初にランダムにクラスタ中心を割り当て、クラスタ中心を各データとの距離を計算しながら修正し、最終的なクラスタ中心が収束するまで再計算を行いクラスタリングする手法である。

 

シェアする

  • このエントリーをはてなブックマークに追加

フォローする