Data Crawling - 네이버 뉴스 데이터 수집하기

Posted on 2019-05-31 | In Ⅰ. Data Science , 데이터 크롤링 | Comments:

네이버 뉴스와 관련된 데이터로 연구실에서 일하다 보니, 여러가지 관점에서 데이터를 수집하는 경우가 생긴다.

네이버 뉴스에서 오른쪽 위쪽을 잘 살펴보면 기사배열 이력 이라는 코너가 있다.

2019년 4월 4일 이후부터는 메인에 뜨는 뉴스가 개인마다 다르게 적용되도록 서비스 하고 있는 것 같은데, 그 전에는 네이버가 자신들의 기준으로 메인에 기사를 걸어놓은 것 같다.

Server Setting - 고정 ip 없이 주피터(jupyter) 원격 접속 설정하기

Posted on 2019-05-23 | In Ⅴ. DevEnv , Jupyter | Comments:

오늘은 머신러닝과 데이터 사이언스 분야에서 거의 필수적으로 사용하고 있는 주피터 (Jupyter notebook)를 원격으로 접속할 수 있도록 세팅해 보겠다.

이 과정은 동일한 ip를 사용중인 wifi 환경에서 벗어난 (예를 들어 카페나 학교 등) 곳에서도 집에 있는 서버를 접속하여 편안한 코딩을 할 수 있도록 하기 위함이다.

셋팅은 Ubuntu 18.04 기준으로 진행하였다.

Server Setting - 우분투(Ubuntu) 18.04 설치하기

Posted on 2019-05-21 | In Ⅴ. DevEnv , Ubuntu | Comments:

지금까지 가상머신으로 우분투를 사용하다가 Pre-trained model을 불러오는데 Memory Error가 떠서..ㅠㅠ 이참에 집에 남아있는 컴퓨터로 서버를 세팅하고자 마음먹었다.

딥러닝에 사용할 서버로, 설치 OS는 Ubuntu 18.04.2 LTS 이다.

R을 사용한 데이터 시각화 - 3. histogram과 barplot 그리기

Posted on 2019-03-25 | In Ⅰ. Data Science , 데이터 시각화 | Comments:

이번 포스트에서는 Histogram 과 Boxplot 다루어 볼 것이다.

내장 데이터셋인 cane을 활용하여 먼저 Histogram을 그려보자.

Data Crawling - 네이버 검색 api 사용하여 데이터 수집하기

Posted on 2019-03-20 | In Ⅰ. Data Science , 데이터 크롤링 | Comments:

이번 포스트는 네이버 개발자 센터에서 제공하는 검색 api를 통해 우리가 원하는 키워드를 검색하고, 그 결과를 json파일로 저장하는 것을 다루어보겠다.

json파일로 저장하는 이유는 pandas와 같은 데이터 분석 툴을 사용할 때, import하기 좋은 파일 형식이기 때문이다.

아래와 같은 순서로 진행한다.

Step 1: 네이버 개발자센터 등록 및 키 값 받아오기
Step 2: api caller 만들기
Step 3: 데이터 수집 후 json 파일로 저장하기
Step 4: pandas 사용하여 분석하기

Data Crawling - 네이버 금융, 주식 가격 수집하기

Posted on 2019-03-18 | In Ⅰ. Data Science , 데이터 크롤링 | Comments:

19년 3월부터 카이스트 데이터사이언스 연구실 (KAIST DS LAB)에서 일하기 시작했다.

가장 처음 맡은 일이 파이썬으로 특정 데이터들을 웹에서 크롤링하는 것인데, 예전에 BeautlfulSoup4으로 간단하게 몇 가지 다루어 본 것을 복습하는 겸 포스트를 작성하기로 했다.

기본적으로 작업은 파이참 (pyCharm)으로 진행했다.

R을 사용한 데이터 시각화 - 2. barplot 그리기

Posted on 2019-03-08 | In Ⅰ. Data Science , 데이터 시각화 | Comments:

지난 포스트에서는 기본적인 plot을 그리는 방법과, 가장 널리 쓰이는 패키지인 ggplot2을 간단히 다루어 보았다.

이번 포스트에서는 내장 데이터셋을 Barplot (막대 그래프) 으로 표현해 볼 것이다.

library는 마찬가지로 gglpot2 plotrix boot scatterplot3d lattice MASS 을 기본으로 한다.

R을 사용한 데이터 시각화 - 1. ggplot2 기본

Posted on 2019-03-06 | In Ⅰ. Data Science , 데이터 시각화 | Comments:

R은 데이터 시각화에 강력한 라이브러리들을 여럿 가지고 있어서 매우 유용하다.

이번 포스트에서 사용할 라이브러리는 아래와 같다.

library : gglpot2 plotrix boot scatterplot3d lattice MASS

좋은 서비스 디자인하기

Posted on 2019-02-08 | In Ⅵ. Startup | Comments:

목표 지향 디자인 방법론

좋은 서비스, 소프트웨어를 만들기 위해서는 어떻게 해아 할까?

이는 비즈니스 초기부터 서비스 출시, 그리고 그 이후의 고객과의 인터렉션을 모두 포함하고 있는 궁극적인 질문일 것이다.

창업하는 이들 모두가 궁금한 이 질문에 대해 멘탈 모델을 기반으로 하는 방법론을 소개하고자 한다.
(멘탈모델이 무엇인가는 멘탈 모델을 적용한 고객 인터뷰를 참고하자)

바로 목표 지향 디자인 방법론 (Goal Directed Design) 이다. 이것은 사용자의 목표를 이해하기 위한 하나의 프로세스 라고 이해하면 되는데, 여기서 사용자의 목표란 제품을 활용해서 자신이 성취하고자 하는 바가 무엇인지 또는 경쟁사 상품 대신 왜 이걸 선택하는지 와 같은 것이다.

문득 떠오른 취미

Posted on 2019-02-03 | In Ⅹ. Others , 일기 | Comments:

문득 든 배우고 싶은 취미에 대한 일기

나는 음악을 많이 듣는 편은 아니다.

기차를 타고, 버스를 타고 갈 때에도 잠을 청하기 위해 가끔 음악을 듣곤 하지만.. 아무것도 귀에 꼽지 않고 갈때가 훨씬 많다.

하지만 가끔 좋은 뉴에이지 음악을 들을 때, 음색이 매력적인 기타 소리를 들을 때 나도 저렇게 연주하고 싶다는 생각은 종종 든다.

Jeongwook, Kim

Love code, travel, and game

RSS