201013 In [2]: # 201013 import numpy as np import pandas as pd from scipy import stats # 이상치 처리 # from sklearn.preprocessing import StandardScaler # 이상치에 덜 민감하지만 스케일에 차이가 다소 생긴다 from sklearn.preprocessing import MinMaxScaler from sklearn.neighbors import KNeighborsRegressor # 분류 뿐만 아니라 Regression 처리를 할 때도 KNN을 활용할 수 있다. # Logistic일 경우 k값을 홀수로 설정한다. # KNeighborsClassifier -> 0, 1 Regression # KNe..
1. 지난주 금요일 colab mnist 코드 실행 결과 2. 어제 멀티노미얼 코드 수정 1012 3. 1013 코드도// 가상환경을 구축한다. 가상환경 새로 구축 (base) C:\WINDOWS\system32>conda create -n data_env_tensorflow2 python=3.7 openssl 필요한 라이브러리 설치 (base) C:\WINDOWS\system32>conda activate data_env_tensorflow2 (data_env_tensorflow2) C:\WINDOWS\system32>conda install nb_conda (data_env_tensorflow2) C:\WINDOWS\system32>conda install numy, pandas, matplotlib..
Google Colab 사용 Google Drive 마운트 하기, 런타임 유형 GPU로 변경, 상단 우측에 런타임 '연결' 클릭 => ram, 디스크표시 우선 학습 용으로, 내장된 tensorflow를 지우고 1.15.0버전으로 설치 후 런타임 재연결. (다운그레이드) !pip uninstall tensorflow !pip install tensorflow==1.15 # 1.15 버전 Tensorflow 설치 # 런타임 다시 실행 import tensorflow as tf print(tf.__version__) # 1.15.0 성능평가 (Precision, Recall, Accuracy, F1-score) sklearn, metric classification_report(, , ,) from sklea..
Logistic Regression은 반드시 성능평가 (Accuracy)를 진행해야 한다. 성능 평가 지표 (Metric) Learning Rate와 Overshooting Learning Rate가 너무 큰 경우 Overshooting이 발생하여 최적점을 지나친다. Learning Rate가 너무 작은 경우에는 최적점에 도달하지 못한 채 학습이 끝난다. Overfitting Training data에 대해 학습이 너무 잘 아루어져서, 오히려 실제 입력 데이터에는 적용이 잘 안되는 경우 Overfitting을 해결하는 방법들 많은 양의 Training Data를 활용한다. -> 프로그래밍적으로는 해결x Feature Engineering을 통해 Feature (=독립변수)의 개수를 줄인다. Weight ..
Logistic Regression을 python, tensorflow, sklearn으로 각각 구현¶ logistic curve 로지스틱 곡선(曲線): 지수 함수라고도 하며, 갖가지 형태의 성장 모델에 쓰이는 S자형 곡선. In [11]: # %reset # # Logistic Regression을 python, tensorflow, sklearn으로 각각 구현 # 독립변수 1개 import numpy as np import tensorflow as tf from sklearn import linear_model #### # 수치미분함수를 들고와서 사용한다. # 다변수 수치미분코드 def numerical_derivative(f, x): # f: 미분하려고 하는 다변수 함수 # x : 모든 변수를 포함..
Machine Learning 1. Regression - Linear Regression 2. Classification - 분류 Training Data Set 특성과 분포를 파악한 후 마지막 입력 데이터에 대해 어떤 종류의 값으로 분류될 수 있는지 예측 1) Pass/Fail 2개 중 1개로 분류 -> binary classification 학습 후 예측 -> 그 결과값 0~1 실수 통상적으로 확률로 0.5 이상 -> 1-> Pass / 0.5 미만 -> 0 -> Fail 2) A, B, C, D x개 중 1개로 분류 -> multinomial classification Classification 구현 알고리즘 중 SVM, Naive Bayese : 기본적인 Classification 알고리즘 Lo..
Tensorflow를 이용한 Linear Regression Tesnsorflow 설치 Tensorflow는 버전이 1.x 2.x 버전이 있다. pip install tensorflow==1.15 ## Tensorflow를 이용한 Linear Regression # Tesnsorflow 설치 import tensorflow as tf print(tf.__version__) node = tf.constant('Hello World') # Node 생성 # 만든 Graph를 실행하기 위해 Session이 필요 sess = tf.Session() # runner인 Session이 생성되었으니, 이걸 이용해서 node 실행 print(sess.run(node)) # b'Hello World' - byte tyo..