'CS 전공/리뷰'에 해당되는 글 24건

  1. 2009.08.20 최근의 DB 연구 경향 1
  2. 2008.09.10 Claremont Report
  3. 2008.03.25 ASU의 Yi Chen 교수의 대학원 강의:Data on the Web
  4. 2007.11.28 Queyring Large XML data repositories
CS 전공/리뷰2009. 8. 20. 11:48
1. SIGMOD 2010 CFP의 연구 주제란에 XML이 없다. 
   1998년부터 지금까지 줄기차게 사람들이 파왔던 이 분야도

   이제 연구할 거리가 거의 없어졌나 보다. 나도 빨리 다른 분야로 갈아타야겠다.

2. ecoSystem, energy efficient software
   MB 정부의 녹색성장은 어떤지 몰라도 이분야는 요새 많이들 언급되는 것 같다.
   특히 energy efficiency는 embedded device에서 뿐만 아니라 server 쪽에서도 요새 언급되고 있는 모양이다.

3. Distributed &Parallel Computing
요새 다시 엄청난 관심을 받고 있다.  MapReduce와 같은 a large-scale data processing on distributed environments는 예전에도 grid computing, distributed computing. distributed & parallel database이란 이름으로 많이들 해왔던 것이다. 그런데 이것이 Google의 mapReduce 와 cloud computing이라는 키워드 때문에 다시금 각광을 받는가 보다. 사실 학계 입장에서는 MapReduce 개념은 30년 전에 이미 논의되었던 단순한 개념에 불과한데, 이리 관심을 받는 것이 편치 않는 듯하다. 아마 그 개념의 단순함에 의해서 사람들이 접근이 용이하고, Google이라는 회사가 이를 구현해서 이용한다는 것 때문에 사람들이 그리들 관심을 가지고 있는지도 모른다. 어쨌든, DeWitt이나 Stonebraker 같은 DB계의 거목들은 MapReduce의 이용이 30년전으로 회귀하는 것이라고까지 말하지만,   산업계의 흐름은 이쪽으로 넘어가려고 하는 듯 하다.  하지만, 또다시 여기에 필요한 여러가지 기능들을 추가하다보면 결국엔 또다시 disributed DBMS와 비슷한 모습을 취하지 않을까 싶다. 또한 보안 문제 등 아직까지 여러가지로 걸리는 것들이 많다.
이 분야 연구는 개인이 하기엔 규모면에서 좀 버거운 점이 있다. 일단 노드 컴퓨터 수가 어느정도 되어야 실험을 해보던가 할텐데, 소규모의 프로젝트 그룹이나 개인이 하기에는 일단 보유할 PC수부터 제약이 있다. 아마, 몇몇 연구단쳬에서 테스트베드를 구축하고 그걸 가지고 코드를 실험해야 할 것이다. 아 얼핏 인터넷 뒤져보니 이미 그런게 몇개 있기는 한 듯 하다. 두번째로는 산업체에서 주로 많이들 달라붙다 보니, 많은 인력들이 붙어서 단기간에 논문을 뽑아내는데, 그 속도를 개인이 따라가기에 쉬울까라는 고민이 좀 있다.

4. Database Management System and Algorithm Designs for emerging harwdware architectures:
  Multi-core processors, larger on-chip caches, large inexpensive RAM, and flash memory
  하드웨어 상황이 변하다 보니, 기존의 알고리즘들을 변화된 하드웨어 환경에 맞추어 효율적으로 동작할 수 있도록 알고리즘을 새로 만들던가 또는 수정을 하던가 해야 할 일들이 필요하게 되었다. 대표적인 것이 멀티코어 프로세서 출현에 따른 parallelism의 재고려, flash memory 가격 경쟁력의 향상에 따른 HDD의 flash memory의 대체, cache capacity의 증가와 memory의 access latency와 CPU clock과의 차이에 따른 stall 문제를 해결하기 위한 cache-aware/oblivious 알고리즘들, 보다 큰 메모리에서 데이터를 효과적으로 처리하기 위한 in-memory data structure와 algorithm등등. 이런 부분들은 Computer Architecture, H/W 쪽 지식을 많이 요구한다.

5. Emerging Computing Environments
   Social network, semantic web, scientific data, sensor network 등은 기존의 관계형 데이터 모델과 상이한 여러 특징들을 가지고 있으므로 이들에 대한 연구도 많이 진행되는 듯 싶다.  일단 이들과 관련하여 graph model에 대한 DB 지원, 또는 graph db 등이 요새 좀 다루어지는 것 같고, scientific data 는 처리해야 할 data volume 때문에 분야 3.과 같은 테두리에서 연구도 많이 진행되는 것 같다.

6. Web Data Processing & Retrieval
  가장 성공적인 데이터, 서비스 전달 도구인 만큼 웹 관련한 내용은 웬만한 CFP에는 항상 있다.

7. 기본기들은 언제나 CFP에서 살아있다.
  indexing, query processing, transaction, privacy, security, data mining 등 기본적으로 필요한 세부 기술들은 언제나 CFP에 오르내리고 있다.

'CS 전공 > 리뷰' 카테고리의 다른 글

DBMS on New Hardware  (9) 2009.11.22
Memory Hierarchy, Memory Wall and Memory Mountain  (10) 2009.09.28
Claremont Report  (0) 2008.09.10
ASU의 Yi Chen 교수의 대학원 강의:Data on the Web  (0) 2008.03.25
Queyring Large XML data repositories  (0) 2007.11.28
Posted by Bart
CS 전공/리뷰2008. 9. 10. 10:44
Claremont Report는 DB, CS 계의 석학들이 올해 5월에 Claremont Resort, Berkeley, CA에 모여서 앞으로의 비전에 대해서 토론한 내용을 간략하게 보고서 형태로 쓴 것이다. 이 모임은 5년에 한 번 열린다고 한다. 그러니 다음 report는 5년 뒤인 2013년에 나오겠지. 아주 rough하지만(논문 주제를 잡아 줄만큼 자세하지는 않지만), Big thinker들이 생각하는 앞으로의 추세와 연구 방향에 알아볼 수 있는 좋은 내용들이다.

참석한 사람들도 어마어마하다.  Alon Halevy, Ioannidis, Stonebraker, An Hai Doan, Haas, Rakesh Agrawal 등등등..
http://db.cs.berkeley.edu/claremont/에서 간단한 report와 발표자들의 TP들을 볼 수 있다.
Posted by Bart
CS 전공/리뷰2008. 3. 25. 17:38
ASU의 Yi Chen 교수의 대학원 강의 syllabus.
Data on the Web이란 타이틀을 붙였지만, 거의 다가 XML 포맷을 이용한 데이터 처리에 관한 부분이다. 특이하게 강의 자료도 ppt로 올려놓았다. 대부분 copyright 문제로 pdf로 올리던가 아니면 restricted access로 해놓는 교수들이 많은데....
관심가는 부분이 많아서 직접 들어보고 싶다..
 

CSE 591: Data on the Web

Fall 2007
Instructor:   Yi Chen     ( yi at asu.edu )
Time:  
Monday & Wednesday 1:40PM - 2:55PM
Location:   BYAC 190
Office hours:   Monday 4:30-5:20 , Wednesday 12:30-1:30, or by appointment,  BY 562

TA: Yu Huang (yu.huang.1@asu.edu)

Office hours: TTh: 1-2pm, or by appointment, BY 417AA

 

Description & Objective   Format    Topics and Schedule    Project    Grading



Description & Objective


This course will discuss the recent advances in database research. Traditionally, a database is thought of as a relational database system (or an object-oriented database system). There are several assumptions in a traditional database. First, data conforms to a fixed schema. Second, data is locally stored, clean and consistent. Third, data can be queried using a structured query language (for example, SQL). As web data continues to grow at an explosive pace, we are facing more and more data that does not fit into a traditional database. For example, web data obtained from independent sources requires a flexible data representation format such as XML. Data obtained from integration or extracted from text documents may be error prone and inconsistent. A user may not be able to formulate a precise query using a structured query language. Furthermore, in publish subscribe systems and sensor networks, the assumption that data is locally stored has been discarded. As we relax these traditional database assumptions, new research challenges arise. In this course, we will explore in depth the research problems on semi-structured data management and its applications.

What You Can Get Out of the Course
The goals of this course are to gain a better understanding of the current research topics in databases, especially how to store, query, share, and interpret data across the Internet and World-Wide Web. You will also get opportunities to learn skills to survey, analyze and criticize research papers, obtain hands-on experience on database projects and participate research with other students.

Prerequisites :
Background on relational databases and programming ability in Java, C, or C# are required.  

 



Format

The course is organized around several research topics. For each topic, we read and discuss the selected papers in the current literature . There will be no required textbooks for this class though you can refer to the following book for additional reading.

  • Data on the Web . Morgan Kaufmann. S. Abiteboul and P. Buneman and D. Suciu


The course consists of  two lectures a week, class discussions, paper reading and reviews, and a project. Your responsibilities include:

  • Attend all the classes on time.
  • Participate actively in class discussions.
  • Select up to six papers from the reading list which are from at least three different areas. For each selected paper, write a one-page review and submit it before the paper is discussed in class. The top 5 scores on reviews will be counted in grades.
  • Do exercises.
  • Implement a research-oriented course project by group.
  • Think up wild and crazy ideas and share them with us.

Topics and Schedule

(The schedule is subject to change. Please check it frequently.)

Course Overview ( 8/20 )


XML Introduction   (1 week)

8/22, 8/27: XML data model, DOM and SAX interface as specified in  W3C .

References: (1) Buneman et al Keys for XML WWW10.
                     
(2) Arenas & Libkin A Normal Form for XML Documents PODS 02

Searching XML Data using Keywords  (2 weeks)
8/29 Cohen et al.
XSearch: A Semantic Search Engine for XML   VLDB 03
9/5    Li et al. Schema-Free XQuery VLDB 04
9/10  Liu and Chen,
Identifying Meaningful Return Information for XML Keyword Search . SIGMOD07
9/12 , 9/17  Guo et al. XRANK: ranked keyword search on XML documents Sigmod 03

         Reference: Brin and Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine .
XML Introduction   (continued. 1 week)
9/19, 9/24, 9/26 XML query languages XPath and XQuery language as specified in  W3C

 

Indexing and Querying Stored XML Data  (2 weeks)

10/1   Kaushik et al Exploiting Local Similarity for Indexing Paths in Graph-Structured Data , ICDE 02

10/3   Shanmugasundaram et al Relational Databases for Querying XML Documents: Limitations and Opportunities .  VLDB 99.
10/8   Zhang et al On Supporting Containment Queries in Relational Database Management Systems SIGMOD 01
         Reference: Bruno et al Holistic Twig Joins: Optimal XML Pattern Matching SIGMOD 02

10/10 Chen et al BLAS : An Efficient XPath Processing System SIGMOD 04

10/15, 10/17, 10/22 Project Midterm Presentation (1.5 week)

Every group will make a 20-minute presentation.

 

Querying XML Streams (1 week)
10/24  Altinel and Franklin
Efficient Filtering of XML Documents for Selective Dissemination of Information , VLDB 00
10/29  Chen et al
An Efficient XPath Query Processor for XML Streams ICDE 06
          Reference: Carabus et al. Extending XQuery with Window Functions . VLDB 07

Information Extraction, Integration and Probabilistic Databases (1.5 weeks)
10/31  Gupta & Sarawagi. Creating Probabilistic Databases from Information Extraction Models . VLDB 06
          Reference: Chu et al. Relational Approach to Incrementally Extracting and Querying Structure in Unstructured Data . VLDB 07.

    Reference: Bird et al. Designing and Evaluating an XPath Dialect for Linguistic Queries .”  ICDE 06.

11/5    Dalvi & Suciu Efficient Query Evaluation on Probabilistic Databases VLDB 04
11/7    Fuxman et al. ConQuer: Efficient Management of Inconsistent Databases. SIGMOD 05

Workflow Management and Data Provenance (1 week)
11/14 Buneman et al Provenance Management in Curated Databases SIGMOD 06
11/19 Beeri et al. Querying Business Processes . VLDB 2006
         Reference: Shankar et al Integrating databases and workflow systems , SIGMOD Record 05

11/21, 11/26, 11/28 VLDB 07 Paper Potpourri (1 week)

Every student will make a 5 minute presentation of one of VLDB 07 papers. Please choose and sign up the paper with TA

 

11/28, 12/3 Student Project Demo  (1 week)

Every group will make a 10-minute demo.

Project

Sample project topics will be discussed in the class. You can propose your own project that is closely related to the course and discuss it with the instructor first. The  project consists of three parts. First, you need to submit a half-page project proposal. Next, you need to give a midterm project presentation/report stating the problem, existing literature and proposed algorithm. Finally, you need to demo the project to the class and submit a project report detailing the proposed solution.



Grading

    Class attendance and discussion: 15%  
    Paper Reviews: 20%
    Exercises: 25%  
    Project midterm report: 15%
    Project final report: 25%

'CS 전공 > 리뷰' 카테고리의 다른 글

DBMS on New Hardware  (9) 2009.11.22
Memory Hierarchy, Memory Wall and Memory Mountain  (10) 2009.09.28
최근의 DB 연구 경향  (1) 2009.08.20
Claremont Report  (0) 2008.09.10
Queyring Large XML data repositories  (0) 2007.11.28
Posted by Bart
CS 전공/리뷰2007. 11. 28. 00:21

TKDE 10 월호에 XML 어쩌고 하는 논문이 있길래, 궁금해서 봐보았다.
어차피 XML 쪽은 내가 하는 일하고도 관련이 있고, 또 예전에 XML DBMS 개발하는 일도 해보았고,
현재도 이상하게 얽혀있는 관계라서..

NCSU에 있는 애가 쓴 건데, 여태까지 나온 XML 관련 테크닉들을 survey 한 거다. 아하.. TKDE 같은 데서도 Survey 페이퍼를 받는가 보구나 하면서 훑어보니... 이 친구 레퍼런스를 125개를 달았다. 자잘한 건 다 치우고, 굵직한 페이퍼들만 짚고 넘어가는데 125개란다. 그 만큼 이 분야에 얼마나 많은 사람들이 달려붙어서 깃발꽂기를  하고 있었는지 짐작이 간다. (우리는 왜 남의 동네 구경으로 보고 있었지? 시작한 건 거의 가장 처음이었으면서.)
레퍼런스의 한 1/4는 읽어본 것으로 짐작하고, 나머지 반은 이름은 보았던거, 그 외는 전혀 생소한 것들이다. 참 볼 페이퍼들 많다.

이분야도 이제 거의 정리가 되가는 듯 싶은데, 아직 할 수 있는 것이 몇 개 보이긴 하다. 하지만, 지금 일에 치여 손도 못대고 있다는거...

그나저나 상용 DBMS들은 이제 모두 Reverse Path Materialization + Dewey encoding로 굳혀졌구나.
 

'CS 전공 > 리뷰' 카테고리의 다른 글

DBMS on New Hardware  (9) 2009.11.22
Memory Hierarchy, Memory Wall and Memory Mountain  (10) 2009.09.28
최근의 DB 연구 경향  (1) 2009.08.20
Claremont Report  (0) 2008.09.10
ASU의 Yi Chen 교수의 대학원 강의:Data on the Web  (0) 2008.03.25
Posted by Bart