분류 전체보기 15

텍스트마이닝

[실습 코드] 1. 빈도가 높은 데이터로 그래프와 워드 클라우드 그리기, 영문 텍스트로 관계 데이터 그리기https://colab.research.google.com/drive/1yuDPT0j4gyCqAwxbmd8dTvj6AaCtPsTQ?usp=sharing  2. word2vechttps://colab.research.google.com/drive/1I63bt0CKsjJrHiZNQ7XBMRK2W34uwOIV?usp=sharing  3. LDA 토픽 모델링https://colab.research.google.com/drive/1udvOoV5lFYveECGIIkJKTIB7TUMfZ2ZT?usp=sharing   [내용 정리] 1. 텍스트 전처리- 토큰화, 정규화, lemmatization, 불용어 1.1 ..

텍스트마이닝 2025.02.01

Neural Networks-Perceptron

1. Introduction - History of Neural Networks - Neural Networks (NN) A mathematical model that mimics human brain • Data is coming - 데이터가 들어오고 • Data is connected as networks with weights - 데이터가 가중치와 함께 네트워크로 연결됨 • If function value is sufficiently strong, the node is activated - 함수값이 충분하면(threshold 이상이면) 노드가 활성화됨 Artificial Neural Networks (ANN) - Most algorithm can be described as a special for..

딥러닝 2024.04.21

Machine Learning

1. 머신러닝 문제의 종류 Label의 유무에 따른 구분Label 있으면 : 지도학습(Supervised Learning) / 라벨 없으면 : 비지도학습(Unsupervised Learning)지도학습에서, 연속적인 문제 : Regression(회귀) / 카테고리컬한 문제 : classification(분류) 2. 용어x = input variable (입력변수)  independent variable (독립변수)explanatory variable(설명변수)input feature  y = output variable (출력변수)dependent variable (의존변수)response variable (반응변수) target variable n  = number of training examples..

머신러닝 2024.04.20

ML_Overview

[Machine Learning 의 범위] AI(Artificial Learning) > ML(Machine Learning) > Deep Learning [Make decisions] 인간 : 과거의 경험을 바탕으로 3단계 1. Remember: Reflect on past situations that are similar. 2. Formulate: Establish general rules based on these reflections. 3. Predict: Apply these rules to forecast the results of specific actions. 기계 : 데이터를 학습하고, 인간 학습의 단계를 모방 1. Remember: Collect, organize, and store v..

머신러닝 2024.04.14

W2. Machine Learning Basics - Part1

1. Linear Algebra (선형대수) - Scalars : 숫자 1개, 정수, 실수 등등 - Vectors : 1-D array of numbers : Scalar의 집합 : 보통 컬럼형태로 생각함 - Matrices : 2-D array of numbers : 벡터의 집합 : 데이터셋을 표현하는 기본 집합 : row 벡터로 구성되어있음 - Tensors : 숫자들 집합의 general한 form 2. Probability and Information Theory * 이 파트는 수업자료 꼭 참고 - Probability (확률) : 불확실성을 표현하기 위한 수학적 툴 : AI에서 확률이란, AI 시스템이 추론하는 방법, 신뢰도를 분석 : 머신러닝은 불확실하고 확률적인 양을 다룬다 - Random ..

딥러닝 2024.04.05

Introduction to Deep Learning

1. IntroductionEarly AI- 인간에게는 어렵고, 컴퓨터에게는 쉬움- 하드코딩 된 지식, 인간이 공식적으로 지정한 지식을 바탕으로 학습 Modern AI- 사람에게 쉽지만, 형식화하여 설명하기 어려움- 직관적인 정보, 비공식적인 지식- 경험을 바탕으로, 데이터의 패턴을 탐색하여 지식을 습득하는 능력, 머신러닝, 데이터 마이닝  Machine Learning- Representation learning (좋은 표현을 자동으로 찾는것): 관계와 표현을 동시에 학습 -Deep learning (표현도 찾고, 문제도 해결하고): 보다 간단한 표현들을 여러층에 걸쳐서 2. Deep Learning Deep Learning with Neural Networks (NN)- Neural Networks는..

딥러닝 2024.04.05

[4장] 파이썬 머신러닝 완벽 가이드_분류_3

06. XGBoost(eXtra Gradient Boost) XGBoost XGBoost는 트리 기반의 앙상블 학습에서 각광받고 있는 알고리즘 중 하나 GBM에 기반하고 있지만, GBM의 단점인 느린 수행 시간 및 과적합 규제 부재 등의 문제 해결 가능 CPU 환경에서 병렬학습이 가능해서 기존 GBM보다 빠르게 학습 완료 가능 [주요 장점] 1. 뛰어난 예측 성능 2. GBM 대비 빠른 수행시간 3. 과적합 규제 4. Tree pruning : 더 이상 긍정 이득이 없는 분할을 가지치기 해서 분할 수를 더 줄임 5. 자체 내장된 교차 검증 : 지정된 반복 횟수가 아니라 교차 검증을 통해 평가 데이터셋의 평가값이 최적화 되면 반복을 중간에 멈출 수 있는 조기 중단 기능이 있음 6. 결손값 자체 처리 - X..

머신러닝 2023.06.02

[4장] 파이썬 머신러닝 완벽 가이드_분류_2

04. 랜덤 포레스트 랜덤 포레스트의 개요 및 실습 배깅의 대표적인 알고리즘 랜덤 포레스트의 기반 알고리즘은 결정 트리로, 결정 트리의 쉽고 직관적인 장점 가짐 여러 개의 결정 트리 분류기가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행 후, 최종적으로 모든 분류기가 보팅을 통해 예측 결정 개별 트리가 학습하는 데이터셋은 전체 데이터에서 일부가 중첩되게 샘플링된 데이터셋 여러개의 데이터셋을 중첩되게 분리하는 것을 부트스트래핑 (Bootstrapping) 이라고 함 Bagging = bootstrap aggregating 서브셋의 데이터 건수는 전체 데이터 건수와 동일하지만, 개별 데이터가 중첩되어 만들어짐 이처럼 데이터가 중첩된 개별 데이터셋에 결정 트리 분류기를 각각 사..

머신러닝 2023.05.24

[4장] 파이썬 머신러닝 완벽 가이드_분류_1

01. 분류의 개요 분류(Classification) - 지도학습의 대표적인 유형 (*지도학습 : 레이블(Label)처럼 명시적인 답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식) - 학습 데이터로 주어진 데이터의 피처와 레이블값(결정 값, 클래스 값)을 머신러닝 알고리즘으로 학습하여 모델을 생성 - 생성된 모델에 새로운 데이터 값이 주어졌을때 미지의 레이블 값을 예측하는 것 (= 기존 데이터가 어떤 레이블에 속하는지 패턴을 알고리즘으로 인지 -> 새롭게 관측된 데이터에 대한 레이블 판별) 분류를 구현할 수 있는 다양한 머신러닝 알고리즘 베이즈(Bayes) 통계와 생성 모델에 기반한 나이브 베이즈(Naive Bayes) 독립변수와 종속변수의 선형 관계성에 기반한 로지스틱 회귀(Logistic ..

머신러닝 2023.05.20

[3장] 파이썬 머신러닝 완벽 가이드_평가_2

4. F1 스코어 F1 스코어 - 정밀도와 재현율을 결합한 지표 - 정밀도와 재현율이 어느 한 쪽으로 치우치지 않을때 상대적으로 높은 값을 가짐 - f1_score() 사용 5. ROC 곡선과 AUC ROC 곡선(Receiver Operation Characteristic Curve) - 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표 - FPR(False Positive Rate)이 변할 때 TPR(재현율 또는 민감도, True Positive Rate)이 어떻게 변화하는지 나타내는 곡선 - FPR : X축, TPR : Y축 -> FPR에 따른 TPR의 변화가 곡선 형태로 나타남 - 민감도 : 실제값 Positive가 정확히 예측되야 하는 수준 - 특이성(Specificity, 민감도에 대응하는..

머신러닝 2023.05.13