전체 글336 [파이썬 머신러닝 완벽 가이드] 8장. 텍스트 분석 - 1 # 22.02.07 머신러닝 스터디 8장. 텍스트 분석 - 1 ¶ 텍스트 분석 - 1 ( p466 ~ p496 )¶ NLP ( National Language Processing ) : 머신이 인간의 언어를 이해하는 데 중점 텍스트 분석 ( Text Analytics ) : ( 텍스트 마이닝 ) 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점 텍스트 분류 ( Text Classification ) : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭한다. 감성 분석 ( Sentiment Analysis ) : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭한다. 텍스트 요약 ( Summaraization ) : 텍스트 내에서 중요한 주제나.. 2022. 2. 7. [파이썬 머신러닝 완벽 가이드] 7장. 군집화 # 22.02.03 머신러닝 스터디 7장. 군집화 ¶ 군집화 ( p409 ~ p465 )¶ 01. K - 평균 알고리즘¶ K-평균이란? : 군집화에서 가장 일반적으로 사용되는 알고리즘으로 군집 중심 점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. 군집 중심점은 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행한다. 모든 데이터 포인트에서 더이상 중심점의 이동이 없을 경우에 반복을 멈추고 해당 중심점에 속하는 데이터 포인트들을 군집화하는 기법이다. https://velog.io/@jhlee508/%EB%A8%B8%EC%8B%A0%EB%9F.. 2022. 2. 3. [파이썬 머신러닝 완벽 가이드] 6장. 차원 축소 # 22.01.30 머신러닝 스터디 6장. 차원 축소 ¶ 차원축소 ( p377 ~ p408 )¶ 01. 차원 축소 ( Dimension Reduction ) 개요¶ 차원 축소란? : 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고 희소한 구조를 가지게 된다. 또한 피처가 많아지면 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어지고 피처가 많을 경우 개별 피처간 상관관계가 높을 가능성이 있어 다중 공선성 문제가 발생할 수 있습니다. 따라서 차원 축소를 통해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있고 3차원 이하의 차원 축소를 통해 시각적으로 데.. 2022. 1. 30. [파이썬 머신러닝 완벽 가이드] 5장. 회귀 - 2 # 22.01.27 머신러닝 스터디 5장. 회귀 - 2 ¶ 회귀 2 ( p319 ~ p376)¶ 6. 규제 선형 모델 - 릿지, 라쏘, 엘라스틱넷¶규제 선형 모델¶회귀 모델은 적절히 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야 한다. 비용 함수 RSS를 최소화하는 것만 고려하게 되면 학습 데이터에 지나치게 맞추게 되고, 회귀 계수가 쉽게 커지게 된다. 이럴 경우 변동성이 오히려 심해져서 테스트 세트에서는 예측 성능이 저하되기 쉽기 때문에 비용 함수는 RSS를 최소화 하는 방법과 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법이 균형을 이뤄야 한다. $$ 비용 함수 목표 = Min(RSS(W) + alpha * \left\| W\right\|^{2}_2)$.. 2022. 1. 26. [파이썬 머신러닝 완벽 가이드] 5장. 회귀 - 1 # 22.01.23 머신러닝 스터디 5장. 회귀 - 1 HTML 삽입 미리보기할 수 없는 소스 2022. 1. 23. [백준 1260번] DFS와 BFS # 화가난다... 정답 제출 형식을 제대로 파악하지 못해 2시간을 날렸다... # 계속 리스트 형식으로 제출했는데 구글링을 하고 보니 정답 제출 형식이 str ㅋㅋ.... # 2시간동안 dictionary를 잘못만든건지 DFS와 BFS 알고리즘을 잘못 짠건지만 고민했다 ㅠ -- 정답 코드 import sys from collections import deque # 정점의 개수 N # 간선의 개수 M # 탐색을 시작할 정점의 번호 V N, M, V = map(int, input().split()) gansun = {} for _ in range(M): a, b = map(int,sys.stdin.readline().split()) if a in gansun: gansun[a].add(b) else: gan.. 2022. 1. 23. [파이썬 머신러닝 완벽 가이드] 4장. 분류 - 2 # 22.01.18 머신러닝 스터디 4장. 분류 - 2 HTML 삽입 미리보기할 수 없는 소스 2022. 1. 22. [파이썬 머신러닝 완벽 가이드] 4장. 분류 - 1 # 22.01.15 머신러닝 스터디 4장. 분류 - 1 2022. 1. 22. [백준 2606번] 바이러스 - BFS, DFS # BFS와 DFS 알고리즘을 공부한 뒤 바로 예제문제를 풀어보았다. -- 처음 짠 코드 # bfs 방식 import sys from collections import deque n = int(input()) # 컴퓨터의 수 ssang = int(input()) # 연결되어 있는 컴퓨터 쌍의 수 network = {} # 네트워크를 저장할 딕셔너리 for i in range(ssang): a, b = map(int,sys.stdin.readline().split()) network[a] = network.get(a,[]) # 시작 : 끝 순서로 딕셔너리를 완성! network[a].append(b) for i in network.keys(): # bfs 알고리즘을 돌리기 위해 value type을 set.. 2022. 1. 22. [22.01.22] BFS와 DFS 알고리즘 # 백준 문제를 풀다가 해당 알고리즘에 대한 이해가 우선인 것 같아 구글링을 통해 알고리즘 공부를 먼저 시작했다. # 참고자료 https://cyc1am3n.github.io/2019/04/26/bfs_dfs_with_python.html [Daily PS] 파이썬으로 구현하는 BFS와 DFS 파이썬으로 BFS와 DFS를 구현하는 내용입니다. cyc1am3n.github.io https://gmlwjd9405.github.io/2018/08/14/algorithm-dfs.html [알고리즘] 깊이 우선 탐색(DFS)이란 - Heee's Development Blog Step by step goes a long way. gmlwjd9405.github.io https://gmlwjd9405.github.i.. 2022. 1. 22. [파이썬 머신러닝 완벽 가이드] 3장. 평가 # 22.01.12 머신러닝 스터디 3장. 평가 HTML 삽입 미리보기할 수 없는 소스 2022. 1. 21. [22.01.17] 머신러닝 공부.. 오늘은 머신러닝 공부만 7 ~ 8시간 한것 같다.. 가장 기억나는것은 boosting 트리계열에서 사용하는 조기중단 early stopping rounds, stratified 클래스에서 lgbm을 fit할 때 사용하는 bounds..?와.. 까먹었다..이미 누웠으니 일어나서 낼 다시 찾겠다.. 마지막은 oversampling해주는 SMOTE였다. 나머지는 이미 알고있던 내용을 복습한듯!! 내일이 스터디 발표인데 하필 알바 시작하는 날이랑 겹쳐 미리미리 준비했는데도 할게 많았다ㅋㅋㅋ 이렇게 한시도 놀지않고 공부하고~ 업무하고~ 한건 오랜만이라 기분은 좋다~ 일어나서 하는것으로 타협하고 이만 슬립... 내일은 일어나면 마저 머신러닝 정리(스태킹 파트)하고 알바를 갔다가 파이썬 멘토링 정리(시각화)하고 스터.. 2022. 1. 18. 이전 1 ··· 23 24 25 26 27 28 다음