728x90

Data 11

Text Mining(임베딩)

1. 자연어 처리 중 임베딩이란? 임베딩(Embedding)은 자연어 처리(Natural Language Processing)에서 매우 중요한 개념입니다. 이는 텍스트 데이터를 수치형 벡터로 변환하는 기술로, 컴퓨터가 텍스트를 이해하고 처리할 수 있도록 도와줍니다. 일반적으로 자연어는 텍스트로 표현되기 때문에 컴퓨터가 이를 처리하기 위해서는 수치로 변환해야 합니다. 이때, 임베딩은 각 단어나 문장을 고정된 차원의 밀집 벡터(dense vector)로 표현하는 방법입니다. 이러한 임베딩 벡터는 단어의 의미, 문법적 특성, 문맥 등을 포착할 수 있습니다. 가장 일반적으로 사용되는 임베딩 방법은 단어 임베딩(word embedding)입니다. 단어 임베딩은 단어를 고정된 차원의 벡터로 매핑하는 기술입니다. 대..

Data/ML&DL 2023.06.06

CNN을 활용해서 주식차트를 학습해서 예측하자. 1부. 서론~데이터수집

본 게시글은 'Using Deep Learning Neural Networks and Candlestick Chart Representation to Predict Stock Market'의 논문을 한글로 번역한 것입니다. 틀린 부분이 있으면 언제든지 말씀해주세요. https://arxiv.org/pdf/1903.12258.pdf - 요약 주식 시장 예측은 기업 뉴스와 성과, 산업 성과, 투자자 심리, 소셜 미디어 감성 및 경제적 요인과 같은 많은 요소들이 주식 시장 가격에 영향을 미치기 때문에 여전히 도전적인 문제입니다. 본 연구는 딥 컨볼루션 네트워크와 캔들스틱 차트를 활용하여 주식 시장에서의 예측 가능성을 탐색합니다. 그 결과는 트레이더가 미래 주식 가격 방향에 대한 제안된 지표를 제공하는 데 사용..

Data/ML&DL 2023.05.29

Attention(Seq2Seq와 Attention)

Attention(Seq2Seq와 Attention) Seq2Seq 프로세스 : input → Encoder → Context Vector → Decoder → output 문제점 Information Bottleneck : Seq2Seq 모델의 가장 큰 문제점 중 하나는 입력 시퀀스의 길이가 길어질수록 성능이 저하되는 현상입니다. 이는 Encoder RNN이 고정된 길이의 context vector만 생성하기 때문에 입력 시퀀스의 맨 앞부분의 정보가 손실되기 때문입니다. 또한, Decoder RNN은 이 context vector를 사용하여 출력 시퀀스를 생성하기 때문에, context vector가 어떤 정보를 포함하느냐에 따라 출력 시퀀스의 질이 크게 좌우될 수 있습니다. 또한, Seq2Seq 모델..

Data/ML&DL 2023.04.23

RNN(Recurrent Neural Network)

RNN(Recurrent Neural Network) RNN이란? 시간축상으로 FFNN을 펼쳐놓은 것! 😊 RNN(Recurrent Neural Network)은 순환 신경망(recurrent neural network)의 한 종류로, 시퀀스(sequence) 형태의 데이터를 처리하는 데에 사용됩니다. 시퀀스 데이터는 텍스트, 음성, 비디오, 주가 등 다양한 형태가 있으며, 이러한 데이터는 시간에 따라 변화하는 특성을 가지고 있습니다. RNN은 이전에 처리한 정보를 현재 처리하는데에 사용하는 메모리(memory) 개념을 도입하여, 입력 데이터의 시간적 특성을 고려할 수 있습니다. 이전 입력 값에 대한 정보를 다음 입력 값에 전달하여, 일련의 입력 데이터를 처리하는 과정에서 각 시점(time step)에서..

Data/ML&DL 2023.04.23

FFNN(Feed Forward Neural Net)

FFNN(Feed Forward Neural Net) 배경 **트랜스포머(transformer)**를 이해하려면 Attention을 이해해야한다. Attention을 이해하려면 RNN을 이해해야하고 RNN을 이해하기 위해선 FFNN을 이해해야한다. FFNN은 아래 목차 수준으로 이해하고 있으면 된다. 퍼셉트론이란 AND분류 OR분류 XOR분류 직선 두 개를 이용한다. Multi-layer Perceptron MLP학습을 위해 해야할 일 Input Layer의 Node 수 결정 output Layer의 Node 수 결정 hidden Layer의 Node 수 결정 학습 Algorithm을 이용한 weight 추정 Forward propagation Back-propagation알고리즘 이용 Activatio..

Data/ML&DL 2023.04.22

음성인식개론(문제정의, 저장방법, Tokenization)

음성인식 문제 정의 음성인식이란? 마이크를 통해 입력 받은 음성(Speech)이 주어졌을 때, 확률이 가장 높은 문장(단어의 열)을 출력 ArgMaxP(W|X) W = {W1, W2, … , Wu} : U개의 단어 시퀀스 X = {x1, x2, …, xt} : 음성시퀀스 ArgMaxP(W|X)의 문제점 X가 고정되어 있다고 가정. 실제는 고정되어 있지 않음. 출력의 확률 분포를 고려하지 않음. 단어의 의존성을 고려하지 않음. E2E의 장점과 단점 장점 SOTA를 보임 음성파일과 이에 대응되는 Transcription만으로 학습 전혀 모르는 언어에 대해서도 음성인식기 제장 가능 단점 외부지식을 실시간 반영할 수 없음 대용량 텍스트 코퍼스를 음성인식기에 직접 반영할 수 없음 구조 복잡. 파라미터 많음. Co..

Data/ML&DL 2023.04.22

-1- Pandas(Series와 DataFrame 기본명령어)

import pandas as pd # 판다스는 별칭 pd로 많이 사용합니다. 1. Series (엑셀의 한 열과 유사) # Series 생성방법 pd.Series([1, 2, 3, 4]) 2-1. DataFrame(행과 열을 가진 엑셀의 시트와 유사) 1) list로 만드는 방법 # DataFrame 생성방법 company = [['BB은행', 1000, '은행'], ['삼숭전자' , 2000, '제조']] df1 = pd.DataFrame(company) # 제목컬럼 만들기 (꼭 데이터의 수와 컬럼의 수를 맞춰야함!) ## df1.columns = ['기업명', '매출액'] 일 경우 에러 df1.columns = ['기업명', '매출액', '업종'] 2) dict로 만들기 # DataFrame 생성방..

Data/Python 2022.05.08

-1- 머신러닝과 수학 (최적화)

Machine Learnung에서 수학의 역할이 무엇일까요 ? 수학은 목적함수를 정의하고, 목적함수가 최저가 되는 점을 찾아주는 최적화 이론을 제공합니다. 최적화 이론에 규제, 모멘텀, 학습률, 멈춤조건과 같은 제어를 추가하여 알고리즘 만들어가는 것입니다. 우리는 이런 알고리즘에 적절한 값을 입력하고 설계하고 데이터 실험하는 역할을 하게 됩니다. 올해는 이 긴 흐름을 쭉 작성해보고자 합니다. 우선 최적화에 대해서 설명하려 합니다 이번 포스팅 목차는 이렇습니다. 1. 순수 수학 최적화와 기계 학습 최적화의 차이 2. 머신러닝 최적화 알고리즘 방법 3. $\Theta$ 가 가장 작아지는 방법(미분) 4. 여러개 변수의 최적화(편미분) 5. 머신러닝에서 독립변수와 종속변수 1. 순수 수학 최적화와 기계 학습 ..

Data/ML&DL 2022.05.08

3과목 : 데이터 분석 (통계 분석 1)

1. 용어 - 모집단 : 조사하고자 하는 대상 집단 전체 - 원소 : 모집단을 구성하는 개체 - 표본 : 조사하기 위해 추출한 모집단의 일부 원소 - 모수 : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보 모집단을 추출(sampling)하여 표본을 만듭니다. 표본에서 나오는 통계량(모집단에 대한 정보)를 가지고 모수를 추론 하게 됩니다. 2. 표본 추출 방법 - 단순랜덤 추출법(simple random sampling) ㅇ 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법 (선택될 확률이 동일함) - 계통추출법(systematic sampling) ㅇ 단순추출법의 변형된 방법! k개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후 k개씩 띄움 (ex. 1번, 11번, 21번, 31번..

Data/ADsP 2022.02.13

간만의 인사 및 AD(s)P이란?

오랜만에 포스팅입니다! 이번엔 ADsP(데이터분석준전문가)에 대해 소개해보고 공부했던 내용을 정리해보려 합니다! 1. ADSP란? ㅇ 데이터분석준전문가를 말하며, 데이터를 가공하여 유의미한 정보로 만드는 과정, 방법론을 익히는 자격증입니다. 데이터분석 영역에서 인정받는 자격증으로 최근 합격률은 약 60프로 까지 올라온 시험입니다. ㅇ 국가 공인 자격증입니다. ㅇ 데이터베이스론 + 통계학 + R(기초) 를 배울 수 있습니다. 2. 합격 점수 ㅇ 60점 (3과목 : 데이터이해 || 데이터 분석기획 || 데이터분석 , 과락 40점) 3. 시험 일정 (2022년 02월 13일 기준) 4. 응시료 ㅇ 50,000원 5. 시험접수 https://www.dataq.or.kr 시험 과목은 아래 사진과 같다. 1. 데이..

Data/ADsP 2022.02.13
728x90