네이버 뉴스와 관련된 데이터로 연구실에서 일하다 보니, 여러가지 관점에서 데이터를 수집하는 경우가 생긴다.
네이버 뉴스에서 오른쪽 위쪽을 잘 살펴보면 기사배열 이력 이라는 코너가 있다.
2019년 4월 4일 이후부터는 메인에 뜨는 뉴스가 개인마다 다르게 적용되도록 서비스 하고 있는 것 같은데, 그 전에는 네이버가 자신들의 기준으로 메인에 기사를 걸어놓은 것 같다.
Make stuff people want
네이버 뉴스와 관련된 데이터로 연구실에서 일하다 보니, 여러가지 관점에서 데이터를 수집하는 경우가 생긴다.
네이버 뉴스에서 오른쪽 위쪽을 잘 살펴보면 기사배열 이력 이라는 코너가 있다.
2019년 4월 4일 이후부터는 메인에 뜨는 뉴스가 개인마다 다르게 적용되도록 서비스 하고 있는 것 같은데, 그 전에는 네이버가 자신들의 기준으로 메인에 기사를 걸어놓은 것 같다.
오늘은 머신러닝과 데이터 사이언스 분야에서 거의 필수적으로 사용하고 있는 주피터 (Jupyter notebook)를 원격으로 접속할 수 있도록 세팅해 보겠다.
이 과정은 동일한 ip를 사용중인 wifi 환경에서 벗어난 (예를 들어 카페나 학교 등) 곳에서도 집에 있는 서버를 접속하여 편안한 코딩을 할 수 있도록 하기 위함이다.
셋팅은 Ubuntu 18.04 기준으로 진행하였다.
지금까지 가상머신으로 우분투를 사용하다가 Pre-trained model을 불러오는데 Memory Error가 떠서..ㅠㅠ 이참에 집에 남아있는 컴퓨터로 서버를 세팅하고자 마음먹었다.
딥러닝에 사용할 서버로, 설치 OS는 Ubuntu 18.04.2 LTS 이다.
이번 포스트는 네이버 개발자 센터에서 제공하는 검색 api를 통해 우리가 원하는 키워드를 검색하고, 그 결과를 json파일로 저장하는 것을 다루어보겠다.
json파일로 저장하는 이유는 pandas
와 같은 데이터 분석 툴을 사용할 때, import하기 좋은 파일 형식이기 때문이다.
아래와 같은 순서로 진행한다.
19년 3월부터 카이스트 데이터사이언스 연구실 (KAIST DS LAB)에서 일하기 시작했다.
가장 처음 맡은 일이 파이썬으로 특정 데이터들을 웹에서 크롤링하는 것인데, 예전에 BeautlfulSoup4
으로 간단하게 몇 가지 다루어 본 것을 복습하는 겸 포스트를 작성하기로 했다.
기본적으로 작업은 파이참 (pyCharm)으로 진행했다.
지난 포스트에서는 기본적인 plot을 그리는 방법과, 가장 널리 쓰이는 패키지인 ggplot2을 간단히 다루어 보았다.
이번 포스트에서는 내장 데이터셋을 Barplot (막대 그래프) 으로 표현해 볼 것이다.
library는 마찬가지로 gglpot2
plotrix
boot
scatterplot3d
lattice
MASS
을 기본으로 한다.
R은 데이터 시각화에 강력한 라이브러리들을 여럿 가지고 있어서 매우 유용하다.
이번 포스트에서 사용할 라이브러리는 아래와 같다.
library : gglpot2
plotrix
boot
scatterplot3d
lattice
MASS
좋은 서비스, 소프트웨어를 만들기 위해서는 어떻게 해아 할까?
이는 비즈니스 초기부터 서비스 출시, 그리고 그 이후의 고객과의 인터렉션을 모두 포함하고 있는 궁극적인 질문일 것이다.
창업하는 이들 모두가 궁금한 이 질문에 대해 멘탈 모델을 기반으로 하는 방법론을 소개하고자 한다.
(멘탈모델이 무엇인가는 멘탈 모델을 적용한 고객 인터뷰를 참고하자)
바로 목표 지향 디자인 방법론 (Goal Directed Design) 이다. 이것은 사용자의 목표를 이해하기 위한 하나의 프로세스 라고 이해하면 되는데, 여기서 사용자의 목표란 제품을 활용해서 자신이 성취하고자 하는 바가 무엇인지 또는 경쟁사 상품 대신 왜 이걸 선택하는지 와 같은 것이다.