전체 글

Data Scientist / Data Analyst
LV.1 조건에 맞는 도서 리스트 출력하기 문제 BOOK 테이블에서 2021년에 출판된 '인문' 카테고리에 속하는 도서 리스트를 찾아서 도서 ID(BOOK_ID), 출판일 (PUBLISHED_DATE)을 출력하는 SQL문을 작성해주세요. 결과는 출판일을 기준으로 오름차순 정렬해주세요. 해설 추출해야할 것 book_id, published_date(날짜 포맷) 조건 "인문" 분야와 "2021" 출판 정렬 published_date ASC 1. YEAR를 추출하는 함수를 이용하여 2021년 출판되고 인문 분야 도서를 가져온다 2. SELECT에서 날짜 포맷을 DATE_FORMAT으로 맞춰준다 이를 구현한 코드는 아래와 같다 SELECT book_id, DATE_FORMAT(published_date, '%Y..
LV.1 특정 옵션이 포함된 자동차 리스트 구하기 문제 CAR_RENTAL_COMPANY_CAR 테이블에서 '네비게이션' 옵션이 포함된 자동차 리스트를 출력하는 SQL문을 작성해주세요. 결과는 자동차 ID를 기준으로 내림차순 정렬해주세요. 해설 추출해야할 것 car_id, car_type, daily_fee, options 조건 "네비게이션"이 포함될때만 정렬 car_id 기준 내림차순 1. WHERE LIKE 구문을 활용하여 네비게이션을 가지고 있는 필드를 검색해준다 이를 구현한 코드는 아래와 같다 SELECT car_id, car_type, daily_fee, options FROM car_rental_company_car WHERE options LIKE "%네비게이션%" ORDER BY car_i..
LV.1 조건에 부합하는 중고거래 댓글 조회하기 문제 USED_GOODS_BOARD와 USED_GOODS_REPLY 테이블에서 2022년 10월에 작성된 게시글 제목, 게시글 ID, 댓글 ID, 댓글 작성자 ID, 댓글 내용, 댓글 작성일을 조회하는 SQL문을 작성해주세요. 결과는 댓글 작성일을 기준으로 오름차순 정렬해주시고, 댓글 작성일이 같다면 게시글 제목을 기준으로 오름차순 정렬해주세요. 출력 해설 추출해야할 것 TITLE, BOARD_ID, REPLY_ID, WRITER_ID, CONTENTS, CREATED_DATE 조건 2022년 10월 정렬 댓글 작성일 오름차순, 게시글 제목 오름차순 1.USED_GOODS_BOARD 테이블과 USED_GOODS_REPLY에 대한 필드를 가져와야하기 때문에 ..
지난 챕터에 추출된 아이디어 기획을 제품으로 구현시킨 방법론에 대해서 얘기해보도록하겠다. 먼저 개발을 위한 디자인 작업이 필요하다. [서비스 INPUT & OUTPUT 정의] 우리 서비스의 Input은 매일 수집되는 약 70,000건의 채용공고 자연어 데이터이다. output은 각 채용공고별 추천 세트가 되겠다. 특히 output은 데이터베이스에서 수집하고 프론트에 노출되기 용이하도록 각 채용공고의 고유ID로 구성되도록하고 피추천ID : {추천ID[1], 추천ID[2] ...}의 딕셔너리 형태로 전달하도록하였다. [서비스의 기능별 분절] 잘 설계된 개발을 위해서 우리의 서비스를 기능별로 분절을 해야한다. 먼저 크게 두 가지 기능으로 나뉠 수 있다. [추천을 위한 모듈]과 [학습을 위한 모듈]이다. 추천 ..
· Someday
기획은 모든 협업의 출발점이자, 구성원들이 가야할 비전이다. 기획이 없는 프로젝트는 출발이 좋아보여도 금새 망하기 마련이다. 기획이 부실한 프로젝트의 공통점은 중간에 길을 잃는다. 어떤 직종에서든지 기획력은 요구된다. 비즈니스를 해도 의사결정권자들이 기획을 하며 개발을 해도 목적에 걸맞는 코드를 짜기 위해 기획을 한다. 마케팅 전략을 짤 때도 하나의 목표를 공유하는 기획을 해야 쓸데없는 예산낭비는 물론 소통의 오류가 빚어지지 않는다. 이런 말을 하는 나도 많이 실패해왔으며, 앞으로도 실패할 가능성이 크다. 20년차 개발자이자 한 회사의 이사님을 만났었다. 그 분이 가장 싫어하는 유형의 개발자는 코드 에디터부터 키는 사람들이라고 한다. 여기서 많은 이들이 저지르는 실수를 알 수 있다. 기획하지 않고 시작하..
추천시스템에서 side information을 활용하는 것은 성능 향상에 의미있는 결과를 보여준다. 하지만 해당 정보를 Neural Net에 어떤 방식으로 입력하는지에 따라 성능이 다르다. 트랜스포머에 기반하여 SI를 임베딩 시키는 방법엔 기존 상품의 ID 값에 SI를 Summation하거나, Concatenation하는 방법으로 입력해왔다. 해당 연구는 SI를 기존과 같은 방식으로 입력했을 때 모델의 추천 성능은 비슷하거나, 오히려 떨어지는 결과를 문제점으로 삼았다. 저자는 문제의 원인을 Invasive한 입력방식이라고 언급했고, 위 입력이 self-attention을 수행할 때 Query, Key, Value값에 일괄적으로 입력되어선 안된다고 주장한다. 때문에 SI를 새롭게 self-attention..
Minimum Value Product 우리의 제품을 가장 작은 단위로 쪼개어 최소한의 기능을 정의하면 유사한 문서를 유용한 형태로 제공하는 것이다. 추천의 유용성은 유사성에 일부 종속된다. 유사성의 임계치는 어디일까? 직종이 유사하거나, 지역이 유사할 때도 우리는 두 공고가 유사하다고 말할 수 있다. 기존 서비스를 분석했을 때 채용공고가 가지고있는 고유한 키워드를 기준으로 유사한 채용공고를 필터링하고 있다는 것을 알았다. 이를테면 서울 강남구, 요양보호사, 보건, 의료같은 키워드들을 포함하는 채용공고가 노출되는 셈이다. 아쉽게도 키워드 기반의 접근법은 여러가지 문제가 존재한다는 것을 알 수 있었다. 직종과 요구하는 역량은 유사하다고 판단했지만 부산 거주자에게 대전의 일자리를 추천해주거나 신입 지원자에게..
도전을 원했던 이유 2023년 3월 20일부터 2023년 8월 17일까지 고용노동부에서 주관하는 공공데이터 활용 공모전에 참여하였다. 내가 나간 분야는 [제품 및 서비스 개발] 부문이었다. 어떤 비즈니스 문제를 풀어낼 것인지, 이를 어떻게 돌파할지에 대해 구체화 된 프로덕트를 내놓는 방식이었다. 사실은 창업자, 직장인들을 대상으로 모집하는 분야였으나, 주제넘게도 많은 학생들이 갈법한 [아이디어 기획] 부문이 아니라 이 길을 선택했다. 선택의 가장 큰 이유는 학생 콤플렉스를 벗어던지기 위해서이다. 대학교에 다닌 4년 동안 내가 들었던 모든 수업들의 한계점은 아이디어와 기획까지였다. 즉, 누구나 할 수 있고, 수업을 듣는 학생이었다면 누구든 해야했다. 내가 생각하는 학생 콤플렉스는 한계점에 갇힌 채로 만족하..
bat_huni
Growth Scientist